Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Формирование многоязычной фонетической базы данных Лосева Елена Викторовна

Формирование многоязычной фонетической базы данных
<
Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных Формирование многоязычной фонетической базы данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лосева Елена Викторовна. Формирование многоязычной фонетической базы данных : 10.02.21 Лосева, Елена Викторовна Формирование многоязычной фонетической базы данных (применительно к речевой реализации вибрантов) : дис. ... канд. филол. наук : 10.02.21 Москва, 2006 177 с. РГБ ОД, 61:07-10/468

Содержание к диссертации

Введение

Глава 1. Корпусная лингвистика и формирование баз данных 14

1.1 Современное состояние корпусной лингвистики 14

1.2 Понятие фонетической базы данных. Требования к современным фонетическим базам данных для Фундаментальных и прикладных исследований 19

1.3 Современные фонетические базы данных 24

1.4 Выводы 27

Глава 2. Особенности речевой реализации вибрантов 29

2.1 Вибранты в языках мира 30

2.1.1 Испанский раскатистый/г/ 33

2.1.2 Шведских диалектах 37

2.1.3 "Белые пятна" в характеристиках родственного русскому словацкого /г/ 39

2.2 Индивидуальные девиационные речевые реализации вибрантов. Диалектальные и социальные варианты 41

2.3 Роль аэродинамических факторов в образовании вибрантов 44

2.3.1 Звонкий и оглушенный /г/ 45

2.3.2 Фрикатизированный /г/. 47

2.3.3 Назализация/г/. 50

2.4 Слуховое восприятие вибрантов 51

2.5 Русский вибрант: норма и аллофоническое варьирование 53

2.5.1 Артикуляторные характеристики русских вибрантов 53

2.5.2 Спектральные характеристики русских вибрантов 56

2.6 Английский вибрант 59

2.6.1 Норма и аллофоническое варьирование 59

2.6.2 Временные характеристики английского /г/. 65

2.6.3 Темный и светлый варианты английского/г/ 65

2.6.4 Связывающий /г/, вставной/г/и выпадение/г/ ; 70

2.6.5 Девиационные реализации английского /г/. 73

2.7 Немецкий вибрант 76

2.7.1 Норма и аллофоническое варьирование 76

2.7.2 Проблема сегментации вокалического аллофона [е] и соседних сегментов 86

2.7.3 Девиационные реализации немецких вибрантов 86

2.8 Чеченский вибрант: норма и аллофоническое варьирование 88

2.9 Выводы 91

Глава 3. Экспериментальное исследование: создание фонетической базы данных применительно к речевой реализации русских, английских, немецких и чеченских вибрантов 95

3.1 Эксперимент по созданию русскоязычной фонетической базы данных 95

3.1.1 Методика эксперимента 95

3.1.2 Результаты эксперимента 100

3.2 Эксперимент по созданию англоязычной фонетической базы данных 108

3.2.1 Методика эксперимента 108

3.2.2 Результаты эксперимента по

3.3 Эксперимент по созданию немецкоязычной фонетической базы данных 112

3.3.1 Методика эксперимента ]]2

3.3.2 Результаты эксперимента ]]3

3.4 Эксперимент по созданию чеченоязычной фонетической базы данных 116

3.4.1 Методика эксперимента цб

3.4.2 Результаты эксперимента /77

3.5 Выводы 120

Заключение 124

Литература

Введение к работе

Корпусная лингвистика занимается корпусами данных, в частности корпусами текстов, речевыми базами данных. Интерес к созданию корпусов звучащей речи был в значительной степени вызван разработками прежде всего в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц, которая имеет весьма разнообразные источники - от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона при записи речевого материала. Современные системы распознавания речи обучаются на больших массивах звучащей речи. Однако неверно считать, что речевые базы данных представляют интерес только для развития речевых технологий. Проблема описания и моделирования звучащей речи с учетом ее акустической вариативности представляет самостоятельный научный интерес и возникает при решении многих задач, связанных с анализом звучащей речи.

В данной области к настоящему моменту накоплено достаточное количество информации, но существует и целый ряд проблем, таких как недостаточный доступ к корпусам данных разных стран, отсутствие унифицированности. Исследования в этой области включают в себя с точки зрения создания рабочих инструментов сбор моно- и многоязычных корпусов текстов, средства кодирования и средства поиска в них, с точки зрения собственно лингвистических исследований: анализ языка с экспериментальной точки зрения.

Базовым понятием корпусной лингвистики является база данных. «База данных - совокупность однородных данных, организованных по определенным правилам и предназначенных для длительного хранения и постоянного использования в каком-либо виде человеческой деятельности. Формирование и введение базы данных (обновление данных, их прием и выдача по запросам и т.д.) осуществляется автоматизированной системой управления базой данных» [Иллюстрированный энциклопедический словарь 1997: 61].

Введение 5

Существует три способа взаимосвязи входящих в базу данных записей (моделей представления данных):

  1. Иерархический: взаимосвязь данных представляется в виде дерева, состоящего из узлов. На самом верхнем уровне такой иерархии имеется только один узел - корень. Каждый узел, кроме корня, связан с одним из узлов на более высоком уровне (исходным для данного узла). Ни один элемент такой модели не имеет более одного исходного. Каждый элемент может быть связан с одним или несколькими элементами на более низком уровне, которые называются порожденными. Элементы, не имеющие порожденных элементов (расположенные в конце ветви), называются листьями.

  2. Сетевой: в такой модели данных любое данное может быть связано с любым другим данным; при этом, как и в предыдущем типе, можно использовать понятия корня, исходных и порожденных элементов, листьев. Порожденные элементы обычно располагаются ниже исходных. Здесь также можно говорить об уровнях.

  3. Реляционный: данные представляются в виде таблицы. Каждая таблица включает отношения между включенными в нее данными. Таблица - это набор кортежей (записей). Если кортежи являются л-мерными, то есть таблица имеет п столбцов, то отношение называется отношением степени п. Столбец с номером т называется w-ным доменом отношения.

Различные базы данных и технологии, с ними связанные, нашли широкое применение в современной лингвистике. Речь идет о так называемых лингвистических информационных ресурсах, которые представляют собой «множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности» [Зубов, Зубова 2004:156].

В общем виде лингвистические информационные ресурсы представляют собой своеобразные лингвистические базы данных, которые можно редактировать, обновлять и в которых можно осуществлять поиск информации. В наше время лингвистические информационные ресурсы необходимы как

Введение 6

пользователям персональных компьютеров, так и различным компьютерным системам, связанным с обработкой речи и текста. Так, они используются для распознавания речи, реферирования, аннотирования, перевода текстов, автоматического анализа текста и т.д.

К лингвистическим информационным ресурсам относятся письменные текстовые массивы и фонетические лингвистические ресурсы. С ними связаны многие исследования и перспективы развития, относящиеся к разным проблемам и задачам современной лингвистики, а компьютеризация и использование новейших информационных технологий ускоряет развитие науки и повышает доступность ее достижений для пользователей.

Фонетические базы данных представляют собой источник информации о распределении параметров моделей звуковых единиц, необходимой для настройки и подгонки параметров систем распознавания речи, систем идентификации говорящего по голосу и речи, синтеза речи и тестирования этих систем [Потапова 1997: 478]. Фонетические знания, в том числе знания об артикуляторно-акустических характеристиках звуков, представленные в таких базах данных, должны быть максимально полными и точными.

Звук [г], обладающий специфическими артикуляторными и акустическими характеристиками, которые могут быть описаны как нечто среднее между признаками взрывного согласного и гласного, а также огромной внутридикторской и междикторской вариативностью, всегда привлекал внимание фонетистов и становился объектом многочисленных исследований. В силу своей междикторской вариативности фонема /г/ обладает большим потенциалом для идентификации говорящих [Jessen 2004: 289]. Так, [г] может отличаться у разных говорящих, например, количеством смычных компонентов и амплитудой колебаний. Поэтому предположительно можно говорить о вибрантах как об одном из "опорных пунктов" при распознавании речи и идентификации говорящего [Jessen 2004: 289]. Однако при решении данных задач помехой будет являться внутридикторская вариативность, обусловленная позиционно-комбинаторными факторами.

Введение 7

Звук [г] является одним из самых трудных для произнесения в различных языках мира. Об этом свидетельствует тот факт, что во многих языках этот звук появляется поздно в речи детей и часто в своих индивидуальных, отклоняющихся от нормы (девиационных) реализациях [Dalston 1974]. Нередко девиационное произнесение [г]-звуков так и остается в речи уже взрослого человека [Волкова и др. 1989; 2004]. При изучении иностранного языка этот звук также может доставлять немалые трудности как обучающемуся при освоении звука, так и обучающему при постановке произношения.

Актуальность данного исследования определяется необходимостью решения проблем автоматизации процесса идентификации говорящего по голосу и речи, а также языка, на котором реализуется сообщение, создания новых и развития уже имеющихся систем идентификации в условиях информатизации всех сторон деятельности человека и общества, пополнения имеющихся фонетических баз данных (БД) и формирования новых БД. Знание по возможности точных артикуляторных и акустических характеристик речи является важным для успешного решения вышеуказанных проблем.

Научная новизна диссертации состоит в том, что впервые был проведен экспериментально-фонетический сопоставительный анализ вибрантов на материале четырех языков (русского, британского варианта английского языка, немецкого, чеченского) для разных видов речевой деятельности; впервые выявлены сходные и специфические признаки фонетических систем вибрантов для указанных выше языков и определены универсалии реализаций вибрантов в разных видах речевой деятельности (квазиспонтанном/ спонтанном говорении, подготовленном/ неподготовленном чтении); впервые сформирована фонетическая база данных [г]-звуков на материале вышеуказанных языков.

Рабочей гипотезой является предположение о том, что фонетические системы вибрантов русского, немецкого, английского и чеченского языков обладают как сходными, так и специфическими артикуляционно-акустическими признаками. Предполагается также, что реализации вибрантов в разных видах речевой деятельности (подготовленном/ неподготовленном

Введение 8

чтении, квазиспонтанном/ спонтанном говорении) характеризуются также с позиции наличия универсалий, то есть закономерностей, общих для данных языков.

Основная цель диссертации заключалась в выявлении сходных и специфических признаков систем вибрантов в русском, английском, немецком и чеченском языках и определении универсалий реализации вибрантов при разных видах речевой деятельности. Данная цель обусловила необходимость решения следующих задач диссертационного исследования: проведения сопоставительного анализа фонетических систем вибрантов исследуемых языков и формирования фонетической базы данных на материале речевых реализаций вибрантов в русской, английской, немецкой и чеченской речи.

Материалом исследования послужили аутентичные звучащие тексты с учетом двух видов речевой деятельности: подготовленного/ неподготовленного чтения и квазиспонтанного/ спонтанного говорения (длительность материала: 3 часа для русского языка, 4 часа для английского, 1 час для немецкого, 20 часов для чеченского). В качестве дикторов выступали носители исследуемых языков, при отборе которых учитывались различия по половому признаку и диалектальной принадлежности (16 дикторов для русского языка, 36 дикторов для английского языка, 17 дикторов для немецкого языка, 131 диктор для чеченского языка).

Достоверность и обоснованность выводов обеспечивается достаточным объемом использованного в ходе исследования звучащего материала и достаточным количеством дикторов (28 часов и 200 дикторов).

Объектом исследования является изучение микросегментации слитной звучащей речи по материалам четырех вышеупомянутых языков, являющихся репрезентантами германских языков, славянского языка (соответственно западногерманская и восточнославянская подгруппы индоевропейской семьи языков) и типологически неродственного им кавказского языка (нахская подгруппа восточнокавказских языков иберийско-кавказской семьи). Проведен

Введение 9

сопоставительный анализ с целью определения наличия/ отсутствия универсалий в данных языках.

Положения, выносимые на защиту:

Системы аллофонических реализаций вибрантов различных языков обладают общими артикуляционно-акустическими признаками.

Система вибрантов каждого из рассматриваемых языков характеризуется набором специфических артикуляционно-акустических признаков.

Диссертация состоит из введения, трех глав, заключения и приложений.

Первая и вторая главы посвящены теоретическому анализу исследуемой проблемы.

В первой главе данного диссертационного исследования дается описание современного состояния корпусной лингвистики и некоторых корпусов текстов, дается определение фонетическим базам данных, обосновывается необходимость и актуальность создания таких баз данных, перечисляются требования, предъявляемые к современным фонетическим базам данных, приводится в качестве примера ряд существующих отечественных и зарубежных фонетических баз данных, таких, как RuSpeech, MultiSpeech, DARPA TIMIT Database.

Вторая глава посвящена непосредственно вибрантам. В этой главе дается обзор систем вибрантов в некоторых языках мира: английском, немецком, французском, испанском, итальянском, чешском, словацком, венгерском, новогреческом, шведском, финском, чеченском, японском, китайском, иврите, гиляцком (нивхском), бенгали, пенджаби. Аллофонический ряд, представляющий фонему /г/, отличается от языка к языку. Рассматривается особенность вибранта выступать во многих языках в качестве слогоносителя, сочетания и комбинации, в которые может входить фонема /г/ в разных языках, девиационные реализации, то есть реализации, считающиеся отклонениями от общепринятой нормы в силу диалектных особенностей, социалектных факторов (социального происхождения), патологических отклонений, индивидуальных особенностей; описывается механизм появления оглушенных,

Введение 10

фрикатизированных вибрантов, невозможность назализации дрожащих с позиций аэродинамики. Особо детальное описание дается артикуляторным и акустическим характеристикам аллофонических реализаций вибрантов в русском, английском, немецком и чеченском языках, поскольку вибранты именно в перечисленных языках находятся в центре внимания данного исследования. Русские непалатализованный и палатализованный вибранты являются альвеолярными переднеязычными какуминальными дрожащими, формантные частоты которых находятся соответственно в диапазонах Fi ~ 400-600 Гц, F2~ 1300-1600 Гц, F3~ 1800-2300 Гц [Кодзасов, Кривнова 2001: 181]. Английский вибрант - это постальвеолярный апикальный аппроксимант в британском варианте и ретрофлексный аппроксимант в американском варианте с Fj ~ 300 Гц, F2 ~ 1000 Гц и характерной низкой F3 ~ 1600 Гц [Кодзасов, Кривнова 2001: 180]. Немецкий вибрант может быть по современным данным в равной степени представлен велярным фрикативным (Fi ~ 464 Гц, F2 ~ 1072 Гц, F3 ~ 2324 Гц), переднеязычным апикально-альвеолярным дрожащим с Fi ~ 500 Гц, F2 ~ 1200 Гц, F3~ 1970 Гц или увулярным дрожащим, характеризующимся формантами Fi ~ 490 Гц, F2 ~ 1150 Гц, F3 ~ 2310 Гц [Kramer 1979; Pabst-Weinschenk 2004: 36]. Спектральное описание чеченских вибрантов в специальной литературе, к сожалению, отсутствует: акустические характеристики данных звуков в чеченском языке представляют широкое поле для исследований.

Третья глава содержит обсуждение экспериментально-фонетического исследования. В ней излагается материал с учетом созданной базы данных и отдельные наблюдения, а также выводы относительно артикуляторных и акустических характеристик вибрантов в исследуемых языках. В качестве русскоязычного речевого материала использовался фрагмент речевой базы данных, созданной коллективом исследователей ВЦ РАН [Kouznetsov, Chuchupal, Makovkin 1999: 179-181] как Государственный стандарт 16600-72, определяющий требования к разборчивости речи при ее передаче по трактам радиотелефонной связи [ГОСТ 16600-72 1973]. Соотношение частоты

Введение 11

встречаемости твердых и мягких вибрантов в 510 фонетически сбалансированных фразах, длиной в 3-5 слов, близко к соотношению вибрантов в русской речи в целом [Kouznetsov 2003]. В описанном речевом материале был представлен такой вид речевой деятельности как чтение. Речевым материалом послужила также запись пересказа мультфильма 10 дикторами (5 мужского пола и 5 - женского) длительностью 1 час (вид речевой деятельности -говорение).

Для исследования английских [г]-звуков использовалась часть базы данных Corpus IViE (Intonational Variation in English, UK ESRC award R000237145), составленной фонетической лабораторией Оксфордского университета и Центром речеведения и языкознания Кембриджского университета. База данных представляет диалекты 9 регионов Англии; ее объем составляет 36 часов. В виду большого объема этой базы данных были выбраны диалекты Кэмбриджа, Кардиффа и Дублина. В качестве дикторов выступали 6 девушек и 6 юношей из каждого района. Участникам эксперимента предлагались 5 заданий: чтение 22 фонетически сбалансированных предложений с различными грамматическими структурами, чтение сказки "Золушка", пересказ данной сказки, задание по карте в парах, рассуждение на заданную тему в парах (на тему "курение"). Таким образом, учитывались различные виды речевой деятельности: подготовленное и неподготовленное чтение (чтение предложений и сказки), спонтанное и квазиспонтанное говорение (пересказ сказки, задание по карте, диалог); задействована монологическая и диалогическая речь.

Речевой материал на немецком языке включал фразы и небольшие тексты, взятые с немецких демонстрационных CD, где дикторы обоих полов читали и говорили на тему новейших технологических достижений. Речевой материал был получен также из Интернета (репортажи и интервью с Интернет-сайта радио HR2). Объем речевого материала составил около 1 часа. Анализировались записи 17 дикторов.

Введение 12

Чеченский речевой материал был получен в рамках научно-исследовательской работы, проводящейся на кафедре прикладной и экспериментальной лингвистики МГЛУ (научный руководитель д-р филол. наук, проф. Р.К. Потапова): объем собранного звучащего материала составил 20 часов, источником послужили Интернет-сайты радиостанций "Свобода" и "Chechnya Free" [Отчет о выполнении научно-исследовательской работы по теме «Разработка и создание транскрибированных баз данных для испанского языка» Шифр «Фонема-И», МГЛУ 2005]. Основная часть звучащего материала (более 12 ч) представляет собой запись спонтанной и квазиспонтанной речи носителей чеченского языка (вид речевой деятельности - говорение). Другая часть речевого материала представляет такой вид речевой деятельности, как чтение (уроки чеченского языка, запись носителей языка). Количество дикторов составляет 96 мужчин и 35 женщин. Для данного экспериментального исследования была взята лишь часть речевого материала, содержащая [г]-звуки. Отобранный речевой материал был отсегментирован, а затем затранскрибирован при помощи МФА (Международного фонетического алфавита) и современного Международного фонетического алфавита SAMPA.

В приложениях приводятся обозначения русских, английских, немецких и чеченских звуков в традиционной системе транскрипции МФА и в современной системе SAMPA, которые использовались при транскрибировании отсегментированного речевого материала; образцы спектров вариантов английских и немецких вибрантов с учетом пола дикторов, различных видов речевой деятельности, качества соседнего гласного, позиции относительно ударного гласного в слове, позиции относительно границ слов; средние формантные значения чеченских вибрантов с учетом позиционно-комбинаторных факторов (для остальных языков - в тексте); описание фонетических контекстов английских и немецких вибрантов.

Теоретическая значимость работы заключается в дальнейшем развитии теории корпусной лингвистики применительно к звучащим текстам, теории

Введение 13

звуковых систем в экспериментальной фонетике, а также компаративистики применительно к фонетическому (в данном случае сегментному) уровню языка.

Практическая ценность диссертации заключается в том, что полученные данные с учетом артикуляторных и акустических характеристик аллофонических реализаций вибрантов для рассматриваемых четырех языков применительно к различным видам речевой деятельности могут быть использованы для пополнения имеющихся фонетических баз данных, в частности, в автоматизированных системах идентификации говорящего по голосу и речи, а также в системах автоматического распознавания и синтеза речи. На основе полученных данных могут быть разработаны рекомендации экспертам-фоноскопистам. Результаты исследования могут послужить также лекционным материалом по прикладному речеведению.

Основные результаты работы были апробированы на различных конференциях: 13-й Международной конференции «Информатизация и информационная безопасность правоохранительных органов» (Академия Управления МВД, Москва, 25-26мая 2004 г.), 15-й Сессии Российского акустического общества, Нижегородской акустической научной сессии (Нижний Новгород, 15-18 ноября 2004 г.), Международной конференции "Стилистика и теория коммуникации", посвященной 100-летию со дня рождения И.Р. Гальперина (Москва, 20-21 апреля 2005 г.), ежегодных Международных чтениях памяти Н.С. Трубецкого «Евразия на перекрестке языков и культур. Языки и культуры в контакте» (Москва, 21 апреля, 2005 г.), Международной конференции Forum Acusticum 2005 (Будапешт, Венгрия, 29 августа - 2 сентября 2005 г.), 10-й Международной конференции SPECOM'2005 ('Речь и компьютер') (Патры, Греция, 17-19 октября 2005 г.), Международной конференции Международной ассоциации по акустике и судебной фонетике IAFPA 2006 (Ґетеборг, Швеция, 23-27 июля 2006 г.), 18-й Сессии Российского акустического общества (Таганрог, 11-15 сентября 2006 г.), а также обсуждалась на заседаниях кафедры прикладной и экспериментальной лингвистики Московского государственного лингвистического университета.

Корпусная лингвистика. Создание баз данных 14

Понятие фонетической базы данных. Требования к современным фонетическим базам данных для Фундаментальных и прикладных исследований

Для разработки систем распознавания речи и систем идентификации говорящего по голосу и речи требуется анализировать и обобщать огромное количество информации о речевых сигналах. Такая информация может быть получена из речевых баз данных большого объема. Необходимость разработки достаточно точных моделей элементов речевого потока, сохраняющих свои качества для большинства дикторов, привела к задаче создания специализированных речевых БД, содержащих представительный материал по числу дикторов, различным стилям произношения и типам произнесения, покрытию словаря системы, частотности (числу появлений) каждого элемента и т.п. [Потапова 1997].

Речевые (или фонетические) базы данных (корпусы звучащей речи) являются относительно новым элементом в речевых технологиях, отсутствовавшим в 70х - начале 80х годов. Появление техники моделирования речевого сигнала скрытым марковским процессом, которая подразумевает стохастическую природу сигнала, повлекло за собой необходимость создания специальных баз данных. Основное назначение фонетических баз данных -давать информацию о распределении параметров моделей звуковых единиц, необходимую для настройки и подгонки параметров, а также для тестирования (оценки точности) работы систем распознавания [Потапова 1997: 478].

Существует множество определений баз данных. Можно рассматривать базу данных как совокупность средств хранения в ЭВМ информации по единой теме, организованной по иерархическому или табличному принципу [Потапова 2005: 266].

От базы данных (БД) следует отличать базу знаний (БЗ). Под знаниями в системах искусственного интеллекта понимаются особым образом организованные данные, факты, понятия, сведения, которые образуют базу знаний [Потапова 1997: 215]. Р.К. Потапова приводит следующее определение базы знаний: "База знаний - это сведения, которые отражают закономерности, существующие в предметной области и позволяющие как выводить новые факты, имеющие место в данном состоянии проблемной среды, но не зафиксированные в базе данных, так и прогнозировать потенциально возможные состояния" [Потапова 1997: 215].

Термин "речевая база данных" обычно используется для обозначения любых, как правило, больших наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в лингвистических технологических приложениях [Кривнова, Захаров, Строкин 2001].

Примером такого электронного массива может служить электронная энциклопедия, созданная в помощь экспертам-фоноскопистам и ставшая необходимым компонентом автоматизированного рабочего места эксперта [Потапова 1998, 1999; Internet: http://www.estra.ru; Potapova, Potapov 1999]. База данных электронной энциклопедии версии VI.0, автором которой является д.филол.н., проф., академик МАИ Р.К.Потапова, содержит информацию следующего характера:

- теоретические основы языка и речи (естественный язык, литературный язык и территориальные диалекты, социолекты, жаргоны, сленги, виды просторечия, билингвизм, языковая интерференция, национальный язык, речевая коммуникация, типы речи, спонтанная речь, культура речи);

- основы механизмов речеобразования (анатомо-физиологические, психические, интеллектуальные, лингвистические и экстралингвистические основы речеобразования, исходные и приобретенные речевые навыки, фонация, специфика голосообразования и качество голоса, артикуляция и коартикуляция, единицы речи сегментного и супрасегментного уровня);

- основные понятия о лингвистической, паралингвистической и экстралингвистической речевой информации (фонетико-фонологический,

лексический, синтаксический, семантический, прагматический и фоностилистический уровни речевого высказывания, модально-оценочная, эмфатическая и эмотивная информация, дефекты речевого тракта, приводящие к голосовым изменениям, психологическое состояние и нейрофизиологические особенности говорящего);

- описание алгоритмов математической обработки речевых сигналов, вычисления и сравнения акустических признаков, сущности междикторской и внутридикторской вариативности признаков, статистических правил принятия решения и их адаптивного переобучения;

- перечень лингвистических идентификационных признаков устной речи говорящего, методов их выделения и сравнения;

- пошаговые инструкции эксперту - фоноскописту по проведению идентификационных исследований (ввод и сегментация речевых сигналов в компьютер, оценка качества фонограмм, выделение и сравнение акустических и лингвистических признаков речевого потока, отдельных фраз, слов и звуков, принятие решения, составление заключения эксперта); - типовые примеры заключений эксперта - фоноскописта; - терминологический словарь эксперта - фоноскописта.

В настоящее время накоплен достаточный опыт создания звуковых баз данных. Возможность хранения современными компьютерами больших объемов цифровой информации и их высокая производительность при обработке данных, доступность качественных средств оцифровки звука и программ акустической обработки оцифрованного звукового материала, прогресс в развитии баз данных и систем полнотекстового поиска позволяют создавать все более совершенные фонетические БД как по содержанию, так и по методам доступа к данным.

Индивидуальные девиационные речевые реализации вибрантов. Диалектальные и социальные варианты

Факультативные варианты одной фонемы, как известно, распадаются на общезначимые и индивидуальные. Первые не считаются отклонениями от нормы в отличие от индивидуальных вариантов, некоторые из которых являются местными, социальными, патологическими и иного рода отклонениями от нормы. Трактовка нормы среди вариантов «переднеязычный вибрант» и «увулярный вибрант» различается от языка к языку. В славянских языках, итальянском, испанском, венгерском, новогреческом нормой является переднеязычный /г/, увулярный же вариант расценивается либо как дефект произношения, либо как признак снобистской манерности, реже (например, в словенском, где такой /г/ преобладает в некоторых каринтийских говорах) - как диалектная особенность. Наоборот, в немецком и французском увулярный /г/ (точнее, его разновидности) считается нормой, а переднеязычный - либо диалектным отклонением от нормы, либо признаком архаизированной речи (например, /г/ французских актеров). В английском языке неправильные реализации 1x1 (гиполингвальный /г/, как его часто называют [Gimson 1962, 1989]), чаще в виде [и], встречаются после губно-губных взрывных [Gimson 1962,1989].

Речь не является врожденной способностью, а развивается параллельно с физическим и умственным развитием человека и служит показателем его общего развития. При нормальном развитии ребенок к шести годам правильно произносит все звуки родного языка [Волкова и др. 1989; 2004]. Недостатки звукопроизношения в период формирования речи вызваны, прежде всего, недостаточным развитием движений органов артикуляционного аппарата, а также недостаточной сформированностью речевого, или фонематического, слуха, то есть способности воспринимать на слух и точно дифференцировать все звуки речи. Наряду с тем, что у большинства детей к шести годам звукопроизношение достигает языковой нормы, у некоторых детей, однако, в силу индивидуальных, социальных и патологических особенностей развития возрастные несовершенства произношения звуков не исчезают, а принимают характер стойкого дефекта. По данным отечественного ученого Е.Ф.Рау дефекты звукопроизношения наблюдались у 15-25% дошкольников и у 5-7% младших школьников. В бывшей ГДР по данным Р.Беккер дефекты встречались у 34% детей 5-6 лет. В бывшей ЧССР по данным К.Онезорга среди учащихся общеобразовательных школ они встречались в 18,5% случаев [Волкова и др. 1989; 2004].

Разнообразные недостатки произношения русских звуков [г] и [г ] выражаются в искажении данных звуков и заменах, как и в других языках. Первый тип подобной артикуляции - это велярный /г/, при котором корневая часть языка сближается с мягким небом и образует с ним щель. Проходя через эту щель, выдыхаемый воздух вызывает мелкую, беспорядочную вибрацию мягкого неба, в результате чего возникает шум, который, примешиваясь к тону голоса, сообщает ему специфическое дефектное звучание. Второй тип -увулярный /г/, при котором вибрирует только увула. Среди атипичных произнесений русского /г/ встречается одноударный /г/, при котором кончик языка лишь один раз прикасается к альвеолам, вибрация отсутствует. Попытки произнести длительный рокочущий звук не удаются. Нередко встречается боковой /г/, при котором вместо вибрации кончика языка взрывается смычка между его боковым краем и коренными зубами. При щечном /г/ резкое искажение звука обусловлено тем, что струя выдыхаемого воздуха проходит через щель, образуемую между боковым краем языка и верхними коренными зубами, приводя в колебание щеку. Реже встречается кучерский /г/, как его называют логопеды, который является фактически губно-губным. Встречаются замены звука /г/ парным мягким /г7, а также /1/ и /Г/, /j/, /g/, /d/ и др. [Волкова и др. 1989; 2004].

В большинстве случаев тот или иной вид искажений охватывает как твердый /г/, так и мягкий /г /. Нередко, однако, при дефектном /г/ отмечается

Особенности речевой реализации вибрантов 43 нормальный /г /. Иногда наблюдается обратное явление [Волкова и др. 1989; 2004]. Интересно, что в западно- и северогерманских языках [г] развился из [z] (z r) [Арсеньева, Балашова, Берков, Соловьева 2000]. Это явление принято называть "ротацизмом" по названию греческой буквы р "ро". Старый г и г из z первоначально фонетически различались и в скандинавских рунических памятниках обозначались разными знаками, которые принято передавать как г и R . Впоследствии эти звуки в произношении совпали.

Говоря о стандартном произнесении звуков и о различных диалектах, носителей любого языка можно классифицировать не только с региональной точки зрения, но и с социальной [Moosmuller 1997]. Региональная вариативность речи зависит, прежде всего, от диалекта той местности, где носитель языка вырос и выучил свой язык (например, поствелярная артикуляция взрывных выдает жителей Тироля, монофтонгизация дифтонгов характерна для жителей Вены и Нижней Австрии). Социальная принадлежность накладывает свои отпечатки на речь. Так, представители низших социальных слоев Вены будут чаще обнаруживать тенденцию к монофтонгизации дифтонгов, тогда как представители высших слоев населения будут произносить монофтонги вместо дифтонгов только в слабых просодических позициях. Взаимодействие региональных и социальных процессов объясняется тем, что каждому региону со своим диалектом можно поставить в соответствие несколько социальных групп. Вариативность, зависящая от социальной принадлежности говорящего, можно оценить по степени действия региональных процессов. Таким образом, носитель языка, переехавший из Инсбрука в Вену, будет стараться избавиться от поствелярной артикуляции взрывных, но в большинстве случаев ему вряд ли будет удаваться /г/-вокализация.

Артикуляторные характеристики русских вибрантов

В произношении RP (Received Pronunciation) английского языка фонемной нормой /г/ является звонкий ртовый постальвеолярный согласный, при артикуляции которого губы достаточно округлены, для того чтобы последующий гласный мог быть немного лабиализован ([red] red , [grs w] grow , [verij] very ) [Raven, McDavid 1948]. Для большинства носителей произношения RP степень огубленности /г/ зависит от качества последующего гласного, но для некоторых она является довольно сильной независимо от контекста [Gimson 1962, 1989]. Типовая F-картина этого согласного сходна с ближайшим по артикуляции гласным [э ] (поэтому 1x1 называют иногда полугласным) и характеризуется следующими частотами: \ = 300 Гц, F2 = 1000 Гц, F3 = 1600 Гц [Кодзасов, Кривнова 2001: 180]. В сочетаниях с гласными формантные локусы /г/ очень плавно переходят в форманты соседних гласных. Длительность формантных переходов, как правило, существенно больше продолжительности стационарного участка. Таким образом, отличительной чертой английского вибранта является низкая третья форманта F3. Однако в позиции между гласными (например, в berry ) может иметь довольно высокое значение F3 [Jones 2003].

Константными конститутивными чертами фонемы /г/ являются какуминальная артикуляция, наличие некоторой огубленности, поднятое мягкое небо. Вариативными конститутивными чертами оказываются способ образования преграды, конфигурация основной массы языка, степень лабиализованности, длительность, наличие звонкости, слоговая целостность [Торсуев 1977].

Согласный /г/ часто произносится как озвученный континуант (полугласный, аппроксимант) либо почти без шума, либо с незначительным его уровнем. Поэтому его можно рассматривать с учетом акустики как гласный, так

как спектр этого звука достаточно точно описывается Fn-картиной [Златоустова, Потапова, Потапов, Трунин-Донской 1997: 68]. Р. Якобсон, Г. Фант и М. Халле утверждают, что 1x1 является не самостоятельной фонемой, а оттенком фонемы /э/ ( red [re d]). Некоторые лингвисты критикуют их за это, отмечая следующий фонологический парадокс: "вопреки общепризнанной консонантной природе английской фонемы /г/, консонантность которой подтверждается наличием у нее и оглушенного оттенка (в cry ), и одноударного оттенка (в very ), и стилистического раскатистого оттенка, что не может быть ничем иным, как чертами согласного, дифференцируемые признаки «согласный-гласный» оказываются присущими аллофонам одной и той же фонемы" [Васильев 1969].

Английская фонема /г/ представлена по МФА следующими аллофоническими реализациями: [л, к, R, г, г] [Jones 2003]. Можно говорить также об оглушенных и фрикативных реализациях вибрантов. 1) Аппроксимант (основной вариант) [л]

Английский /г/ реализуется в основном в виде центрального агшроксиманта, когда артикуляционное сужение образуется в результате касания загнутым кончиком языка постальвеолярной области. Воздух довольно свободно проходит по центру ротовой полости [Кодзасов, Кривнова 2001: 179; Златоустова, Потапова, Потапов, Трунин-Донской 1997: 25]. Для британского английского, в частности для RP, характерен апикальный аппроксимант, для американского английского и некоторых диалектов британского английского ретрофлексный. В ирландском варианте английского языка аппроксимант также имеет по звучанию темный оттенок, что указывает на ретрофлексность [Internet: http://sprachen.sprachsignale.de/irischenglisch/ iekonsalloph.html]. По мнению СВ. Кодзасова и О.Ф. Кривновой, ретрофлексная реализация вибранта является следствием относительно глубокой локализации апикальных артикуляций, свойственной английскому языку [Кодзасов, Кривнова 2001: 368].

В последнее время в Англии все чаще встречается лабиодентальный аппроксимант [Jones 2003]. Как уже отмечалось выше, характерной чертой апикального и ретрофлексного аппроксимантов является низкая F3, тогда как лабиодентальный аппроксимант отличается высокой F3 [Jones 2003].

2) Раскатистый

Раскатистый /г/ образуется быстро следующими друг за другом прикосновениями кончика языка к альвеолам. Количество ударов, как правило, не превышает трех. Этот звук едва ли может быть произнесен в RP. Он часто встречается в диалектах Шотландии и Уэльса, где фонема /г/ реализуется данным аллофоном перед сильно ударным гласным ([rait] right , [a raiv] arrive , [krak] crack ) [Jones 1956], в Африке (Гамбия, Судан, Сомали и др.) [Simo Bobda, Wolf, Lothar 1999].

Раскатистый /г/ может быть увулярным, тогда он образуется поднятием спинки языка таким образом, что проходящий воздух заставляет вибрировать увулу. Увулярный /г/ распространен в графствах Великобритании Нортамберлэнд и Дурхэм (за пределами данных районов рассматривается как индивидуальная особенность), в Южной Африке в районе Малмесбери.

3) Флэп

Существуют такие согласные, при произнесении которых проход для воздушного потока перекрывается на очень короткое время с помощью толчкообразного ( tap ) или касательного движения ( flap ) кончика или передней части языка. Это движение можно рассматривать как очень короткую смычку, цель которой сводится просто к мгновенному перекрытию воздушного прохода [Olive, Greenwood, Coleman 1993].

Согласные, преграда которых образуется быстрым движением кончика языка, очень распространены в американском варианте английского языка. Они произносятся в таких словах, как latter , ladder , tanner , т.е. на месте смычных согласных в слабых заударных слогах. Иногда такие согласные называют хлопками.

Эксперимент по созданию англоязычной фонетической базы данных

Для исследования английских [г]-звуков использовалась база данных Corpus IViE (Intonational Variation in English, UK ESRC award R000237145), составленная фонетической лабораторией Оксфордского университета и Центром речеведения и языкознания Кембриджского университета. База данных представляет диалекты 9 регионов Англии. Ее объем составляет 36 часов. Частота дискретизации речевого материала равнялась 16000 Гц. В качестве дикторов выступали 6 девушек и 6 юношей из каждого района. Участникам эксперимента предлагались 5 заданий: чтение 22 фонетически сбалансированных предложений с различными грамматическими структурами, чтение сказки "Золушка", пересказ данной сказки, задание по карте в парах, рассуждение на заданную тему в парах (на тему "курение"). Таким образом, учитывались различные виды речевой деятельности: подготовленное и неподготовленное чтение (чтение предложений и сказки), спонтанное и квазиспонтанное говорение (пересказ сказки, задание по карте, диалог); задействована монологическая и диалогическая речь. В виду большого объема базы данных лишь ее часть была взята в качестве материала данного эксперимента: были выбраны диалекты Кэмбриджа, Кардиффа и Дублина. Таким образом, были представлены различные части Соединенного Королевства Великобритании и Северной Ирландии (Англия, Уэльс) и Ирландия.

10 из 22 фонетически сбалансированных фраз содержали 11 потенциальных /г/-реализаций, из них 4 связывающих /г/; все /г/-реализации встречались в середине фраз в контекстах: V+R+V (гласный + вибрант + гласный) - 10, VSt +R+V (звонкий взрывной + вибрант + гласный) - 1. Речевой материал, полученный на основе чтения сказки, представлен 86 дрожащими, из которых реализуются на конце слов и являются связывающими Ы. Контексты вибрантов в данном речевом материале могут быть описаны следующим образом: V+R+V (гласный + вибрант + гласный) - 40, VSt+R+V (звонкий взрывной + вибрант + гласный) - 13, VISt+R+V (глухой взрывной + вибрант + гласный) - 26, VF+R+V (звонкий фрикативный + вибрант + гласный) - 2, V1F+R+V (глухой фрикативный + вибрант + гласный) - 2, L+R+V - 2 (латеральный + вибрант + гласный), J+R+V (сонант "j" + вибрант + гласный) - 1.

Участки речевого материала, содержащие [г]-звуки, были отсегментированы, а затем затранскрибированы при помощи МФА (Международного фонетического алфавита) и современного международного фонетического алфавита SAMPA. При проведении экспериментального исследования проведены измерения тех же параметров, что при формировании русской базы данных: - частот трех первых формант вибрантов; - амплитуд трех первых формант вибрантов; - абсолютных временных характеристик: длительности фразы, длительности вибранта в целом и его компонентов.

Частоты формант измерялись по динамическим спектрограммам, для измерения амплитуд формант использовались спектральные срезы. Измерения временных характеристик проводились по осциллограммам и спектрограммам речевых сигналов.

Анализ аллофонических реализаций проводился с учетом позиционно-комбинаторных факторов: учитывалась позиция вибрантов во фразе (инициаль, медиаль, финаль), по отношению к границам слов (внутри слова, на стыке слов), по отношению к ударному гласному (перед ударным, после ударного), характеристики окружающих звуковых сегментов.

Акустический анализ английских вибрантов показал, что во всех контекстах с учетом позиционно-комбинаторных факторов, видов речевой деятельности и выбранных диалектов английский вибрант в большинстве случаев реализуется как апикальный аппроксимант, за исключением диалекта Дублина, когда предпочтение отдавалось ретрофлексным аппроксимантам, как и следовало ожидать [Internet: http://sprachen.sprachsignale.de/irischenglisch/ iekonsalloph.html]. Реже встречались дрожащие с 1-2 смычными компонентами. Образцы спектрограмм для различных контекстов представлены в Приложении 6. Акцент сделан на положении вибрантов относительно ударных гласных, поскольку поместить все спектрограммы представляется нецелесообразным. В ходе исследования были рассмотрены все контексты, и наиболее интересные случаи приводятся и обсуждаются ниже.

В речевом материале встречались варианты вибранта, имеющие акустические характеристики, близкие к глайду [w], что подтверждал предварительный перцептивно-слуховой анализ.

Встречались так называемые скрипучие вибранты, связанные с особым режимом работы голосовых связок, в контексте в конце фразы (наиболее частотная реализация), на стыке слов, между гласными, перед гласными внутри слов.

Что касается связывающего /г/, нами было обнаружено, что в спонтанной речи, например, в рассуждении на тему "Курение" испытуемые-женщины реже произносят связывающий вибрант по сравнению с мужчинами, что совпадает с предположениями Лори Бауэр [Bauer 1984]. По качеству связывающий /г/ также чаще реализовывался в виде аппроксиманта за редким исключением, когда он представлял собой дрожащий [г] (см. рис. 31).