Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Особенности признакового восприятия звуков речи Гарбарук Валентина Ивановна

Особенности признакового восприятия звуков речи
<
Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи Особенности признакового восприятия звуков речи
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Гарбарук Валентина Ивановна. Особенности признакового восприятия звуков речи : ил РГБ ОД 61:85-3/886

Содержание к диссертации

Введение

Глава I. Физиологические основы процессов рече-образования и речевосприятия 9

1.1.. Общая характеристика процессов речеобразования и речевосприятия 9

1.2. Слуховая система и проблемы восприятия речи 16

1.3. Фонемы и различительные признаки в речи 19

1.4. Основные проблемы анализа уровня различительных признаков 22

Глава II. Статистический анализ формантних частот гласных русского языка 24

2.1. Форматные признаки гласных 24

2.1.1. Определение формант 24

2.1.2. Восприятие синтезированных звуков и форманты как признаки звуков 25

2.1.3. Значения формант русских гласных 33

2.1.4. Индивидуальная вариативность формант 38

2.2. Исследование формантных характеристик в потоке речи 42

2.2.1. Измерение формантных частот 43

2.2.2. Экспериментальный материал для анализа индивидуальной вариативности 45

2.2.3. Гистограммы распределения максимумов спектра 48

2.2.4. Факторный анализ частот формант 66

2.2.5. Результаты контекстуальной вариативности формантных частот 69

Глава III. Восприятие гласных русского языка в потоке речи 84

3.1. Изменчивость гласных под влиянием окружающих звуков 84

3.2. Методика эксперимента 88

3.3. Результаты эксперимента 93

3.4. Обсуждение результатов . 104

3.4.1. Сравнение восприятия гласных слитного текста с гласными в слогах 104

3.4.2. Спектральный анализ гласных, участвующих в эксперименте по восприятию III

Глава ІV. Исследование системы различительных приз наков звуков русской речи методом семан тически противоположных пар 116

4.1. Метод семантически противоположных пар и возможности его применения для оценки звуков 116

4.1.1. Общая схема эксперимента 116

4.1.2. Интерпретация результатов, полученных по методу СПП с помощью факторного анализа 119

4.1.3. Физиологическая интерпретация метода семантически противоположных пар 125

4.2. Применение метода семантически противо положных пар для оценки звуков русской речи 127

4.3. Обсуждение результатов и выводы 142

Глава V. Признаковая модель восприятия звуков в потоке речи 147

5.1. Основные особенности признаковой модели восприятия 147

5.2. Структура процесса восприятия речевых сообщений 154

Выводы 161

Список литературы 162

Приложение 174

Введение к работе

Актуальность темы» В настоящее время при исследовании механизмов порождения и восприятия речи одной из центральных проблем является выяснение структуры уровня так называемых различительных признаков и содержательной его интерпретаций' [86,125,128] . Выделение этого уровня в современных представлениях о механизмах переработки речевой информации основано на многочисленных экспериментальных ^ктах, свидетельствующих о том, что качество речевых звуков определяется набором акустических ключей или характеристических признаков речевых сигналов [104,109 ] Однако остается непонятным биологический смысл формирования признакового уровня в системе речевой коммуникации, так как функционально в сигналоразличительном плане он дублирует фонемный уровень. Совершенно неясным является вопрос о механизмах функционирования уровня различительных признаков в слитной речи [95,96,115,119] .

Речевой процесс представляется сложным явлением, включающим два звена: артикуляцию или процесс порождения речи и восприятие речи. Процесс порождения речи - сложное координированное взаимодействие дыхательной системы и артикуляционных органов, в результате которого возникает сложный акустический сигнал - речевое сообщение.

Речеобразующий тракт можно рассматривать как систему акустических резонаторов, в которэй могут усиливаться или подавляться отдельные составляющие возбужденного в нем звука. При этом формируется индивидуальное акустическое различие отдельных фонем. Резо-нансы, служащие для усиления спектральных составляющих изучаемого звука, называются формантами [14,53,57] .

Второй аспект речевого процесса - восприятие, сложный много-

уровневый процесс последовательного преобразования акустического сигнала в слуховой системе человека, приводящий к пониманию смысла высказывания.

Сложная организация речи создает большие трудности для понимания структуры механизмов речеобразования и речевосприятия при создании модели восприятия речи человеком. Допуская представление речевого сигнала набором сегментных единиц - фонем, мы можем описать их в терминах элементарных артикуляторных движений (с точки зрения теории речеобразования), а соответствующий акустический сигнал - в виде амплитудно-частотного спектра, а также в виде, эквивалентном слуховому спектральному представлению. Так как очевидно, что процессы речеобразования и речевосприятия должны быть взаимно согласованы, то такой двойственный аспект речи следует учитывать при моделировании процесса восприятия речи.

Анализ механизмов речевой коммуникации и разработка модели порождения и восприятия речи (как отдельных процессов, так и в их взаимодействии) приобрели в настоящее время особую актуальность в связи с практической разработкой системы автоматического распознания и синтеза речи. Разработка таких систем является сейчас одним из основных направлений научного и технического прогресса. Решение задачи дальнейшего их совершенствования нельзя представить иначе, как на пути моделирования речевых механизмов человека.

Вопросы, рассматриваемые далее, касаются только начальных этапов восприятия - превращения звукового речевого сигнала в его фонетический образ. Можно построить модель восприятия речи только исходя из первичного описания (слухового спектра или его аналога). В этом случае задачей восприятия является поиск оптимальных решающих правил для фонетической классификации указанных исходных данных. В модельном плане решающие правила могут получаться очень

сложными и требующими сложной аналитической формы для своего выражения и формирования сложных нейронных сетей для своего физиологического воплощения.

В альтернативной модели восприятия на первичном описании строится система вторичных (так называемых, различительных) признаков, в пространстве которых уже строятся решающие правила. В этом случае последние могут быть достаточно просты. Сложность перцептивного процесса переносится на переход от первичного описания к различительным признакам. Ряд экспериментальных данных говорит в пользу именно такого механизма восприятия речи.

Цель и задачи исследования. Целью настоящей работы было выявление структуры различительных признаков на уровнях речеобразо-вания и речевосприятия, используя для обработки больших массивов спектральных характеристик, отображающих специфику процесса рече-образования, и данных по восприятию звуков формальный аппарат многомерной статистики - факторный анализ. В работе последовательно решались следующие задачи: выявить статистическую структуру формант (фонеморазличительных составляющих спектра) для гласных звуков слитной речи, исследовать вариативность формант в зависимости от индивидуальных особенностей речеобразующего механизма и влияния предыдущего звука; исследовать восприятие гласных в слитной речи; исследовать систему различительных признаков звуков речи при восприятии их человеком методом семантически противоположных пар; построить модель переработки речевой информации в слуховой системе.

Научная новизна работы. Основные новые научные результаты диссертационной работы и их практическая ценность состоят в следующем: впервые получены данные о спектральной структуре гласных в слитной речи для большой группы дикторов. Показан случайный

характер разброса значений частот формант и, как следствие, невозможность их нормализации для различных дикторов, а также для различных контекстуальных окружений. Показано, что гласные из слитной речи, вырезанные с переходным участком и без переходного участка не обеспечивают 100$ распознавания наряду с тем, что в слитной речи они хорошо воспринимаются при прослушивании группой аудиторов. Проведено исследование системы различительных признаков звуков русской речи методом семантически противоположных пар. С помощью факторного анализа получены следующие различительные признаки или акустические ключи: вокализованность, глухость, гласность, сонорность, мягкость, твердость. При исследовании речеобра-зования и восприятия речи выявлены принципы формирования и восприятия признаковой структуры речевых сегментов.

Практическое и теоретическое значение работы. Результаты данной работы могут служить основой для дальнейшей разработки модели восприятия речи человеком. Сведения, полученные при психофизиологическом исследовании системы различительных признаков способствуют пониманию процессов, обеспечивающих помехоустойчивость при восприятии речи.

Результаты диссертации использованы в курсе "Физиология речи? читаемого в Ленинградском государственном университете на кафедре физиологии высшей нервной деятельности. Полученные данные использованы при разработке блока различительных признаков системы автоматического распознавания и понимания слитной речи.

Апробация работы. Результаты исследования доложены и обсуждены на Всесоюзном семинаре "Модели речевого процесса в норме и патологии" (1979), на Всесоюзной школе-семинаре АРСО-ХІ (1980)всесоюзной акустической конференции (1983), семинаре института физиологии им. І.П.Павлова (1980).

Диссертация состоит из введения и пяти глав.

В первой главе рассматривается общая структура процессов ре-чеобразования и речевосприятия, определение фонем и различительных признаков речи, основные положения и структура механизма восприятия речи.

Во второй главе определяются формантные частоты гласных из потока речи для 30 дикторов для четырех контекстуальных вариантов, а также для двух дикторов в различном контекстуальном окружении .

В третьей главе гласные, выделенные из речевого потока изолированно предъявляются 25 аудиторам. Анализируются полученные матрицы спутывания, а также спектры гласных.

В четвертой главе система различительных признаков русской речи получается с помощью оценки звуков по методу семантически-противоположных пар.

В пятой главе рассматривается признаковая модель восприятия звуков в потоке речи и те уточнения, которые получены из экспериментов, рассмотренных в первых главах.

.9

Общая характеристика процессов речеобразования и речевосприятия

Если рассматривать речевую деятельность как процесс коммуникации, то в самом общем виде она может быть представлена в виде известной цепочки Шеннона [43,68] : источник информации - кодирующее устройство - канал связи - декодирующее устройство - приемник информации (рис,1.1). При этом процесс речевой коммуникации выглядит следующим образом [28] (рис.1.2). Исходным его моментом является замысел сообщения, возникновение которого связано с деятельностью мозга. Этот этап может быть сопоставлен с источником информации в схеме Шеннона. Следующим этапом в порождении речевого сообщения является формирование лексико-синтакаической структуры высказывания, отображающей исходный замысел в форму, допускающую преобразование в речевое сообщение. Соответствующие физиологические процессы также проходят на уровне центральной нервной системы. На модельном уровне этот этап целесообразно отнести к первому элементу схемы Шеннона. Далее наступает этап артикуляторно-акустичес-кого кодирования речевого сообщения (второй элемент цепочки Шеннона). В ходе его говорящий путем изменения формы артикуляторного тракта формирует речевой акустический сигнал в соответствии с линейной последовательностью фонем, однозначно представляющей исходную лексико-синтаксическую структуру [107] .

Не останавливаясь подробно на анатомии и механизмах работы артикуляторных органов, хорошо представленных в литературе [53,57, 56 ] , рассмотрим только некоторые биоакустические аспекты процесса эечеобразования, необходимые для понимания настоящей работы (рис. 1.3). Акустический процесе речеобразования состоит из двух относительно независимых этапов. Первый из них - возникновение звука в артикуляторном тракте - может реализовываться тремя способами: I) путем периодической модуляции голосовыми складками воздушного потока, подаваемого из легких (голосовой источник); 2) генерации шума турбулентными завихрениями того же воздушного потока в сужениях речеобразующего аппарата (шумовой источник); 3) возбуждения звука за счёт скачкообразного изменения давления воздуха при резком раскрытии смычки в артикуляторном тракте (импульсный или взрывной источник).

В зависимости от типа источника возбуждения речевые звуки могут относиться к следующим классам [53] : 1) голосовой источник - гласные и сонорные; 2) шумовой - глухие щелевые и аффрикаты; 3) импульсный - глухие взрывные; 4) голосовой совместно с шумовым - звонкие щелевые и аффрикаты; 5) голосовой с импульсным - звонкие взрывные.

При работе голосового источника спектр (частотный состав) звука носит дискретный (гармонический) характер. Самая низкая составляющая, соответствующая частоте смыкания - размыкания голосовых складок, называется основным тоном F0 . Частоты остальных дискретных составляющих голосовых звуков получаются умножением /& на целые числа и называются гармониками основного тона, интенсивность их падает с увеличением частоты (рис.1.4а).

Шумовой и импульсный источники дают спектр сплошного вида (рис.1.46). Второй этап речеобразования - формирование частотного состава возбужденного звука в акустическом фильтре, образованном активными и пассивными артикуляторными органами, и излмчение сформированного звука в пространство через ротовое и носовые отверстия.

При этом фор-звуков. Резо ,2,3... от низан тифор ман Речеобразующий тракт может рассматриваться как система акустических резонаторов, в которой могут усиливаться или подавляться отдельные составляющие возбужденного звука), мируется акустическое различие отдельных речевых нансы, служащие для усиления спектральных составляющих излучаемого звука, и соответствующие им максимумы в спектре этого звука называются формантами (обозначаются FK , к= I, ких частот к высоким), служащие же для подавления тами. Рисунок, иллюстрирующий формирование формант,приведен в следующей главе (рис. 2.1).

При формировании речевого сообщения реализуется непрерывный переход от одного артикуляторного уклада к другому, что приводит к непрерывному изменению акустической картины. Только с относительной достоверностью могут быть выделены стационарные и переходные участки.

Общую характеристику фонем можно найти в любом учебном пособии по фонетике [12,34,41] . Артикуляторное различие гласных и согласных состоит в том, что на пути воздушной струи при произнесении согласных возникает преграда вследствие полного или неполного смыкания органов речи. По способу артикуляции все гласные однотипны, все они образуются так, что при их произнесении струя воздуха может беспрерывно проходить через полость рта наружу. Различаются они только по действию тех или иных органов. Изменение положения языка может явиться источником большого разнообразия гласных: различия по ряду (передний-непередний) и по подъему (верхний, средний, нижний). Действие губ сказывается на лабиализации (огубленности).

Восприятие синтезированных звуков и форманты как признаки звуков

Положение, гласящее, что фонематические различия гласных определяются значениями частот так называемых формант, является в настоящее время практически каноническим в речевых исследованиях. В литературе по физиологии речи встречаются два основных определения формант. Различные эти определения исходят из рассмотрения разных аспектов речи: речеобразование - акустический сигнал - ре-чевосприятие. В одном из определений, привязанном к процессу ре-чеобразования, форманта определяется как резонанс акустической системы речеобразующего тракта [57]

Так как спектр излучаемого речевого сигнала Р(& ) будет для гласных представлять из себя произведение спектра голосового источника $(0)) , передаточной функции Т(о ) , характеризующей резонансные свойства артикуляторного тракта, и функции излучения R(b ) : P(a)) = Sfo) T(o )R(a)) , то указанные как форманты резонансы Т( 0) не будут в точности совпадать с максимумами текущего спектра R(ob), как это часто предполагается (рис.2.1). Однако, вследствие того, что спектр S(6)) R(0)) монотонно спадает с частотой (б дБ/окт), то с некоторым приближением форманты можно определить и как указанные максимумы в спектре. Такое определение удобно и потому, что решение задачи нахождения резонансов передаточной функции артикуляторного тракта по спектру речевого сигнала является математически нетривиальной задачей.

Второе определение формант привязывает это понятие к процессу восприятия и вводится как группы спектральных составляющих, существенных для опознавания при восприятии звуков речи или спектральные элементы, характерные для данного звука и определяющие его опознаваемость [14] . Так как и в этом случае чаще всего измеряются именно спектральные максимумы речевого сигнала, то мы в данном рассмотрении не будем делать акцента на указанном различии.

Большинство авторов исходит из положения, что для фонемного разделения гласных звуков достаточно первых двух-трёх формант. Это положение имеет свои корни в исследованиях по восприятию синтезированных стационарных гласных звуков. При исследовании восприятия синтезированных стационарных гласных звуков было показано, что при восприятии стимулов слуховая система человека выделяет неоднородности в спектре воспринимаемых сигналов, в том числе и максимумы спектра [52,66] . Работа с синтезированными звуками позволяет ограничиться изменением в стимуле одного параметра и проследить зависимость восприятия от него. Таким образом, исследуя восприятие синтезированных гласных, авторы [441 нашли, что /і, е/ разделяются по Ft значением 400 Гц при любой F2 в пределах 2-4 кГц (рис.2.2), а подавление второй и более высоких формант в спектрах естественных / /, /е/, /о/, /й / превращает эти звуки в /и/ , /о/. Так же звуки с Ft меньше 700 Гц и F2 в диапазоне 1200-2400 Гц с фиксированной Ff воспринимаются как /и/ или /о/, если F2 не превышает некоторого порога. (При цитировании работ других авторов мы сохраняем символику оригинала).

Для ряда пар гласных в пространстве формант фонемная граница определяется только частотой одной из формант и не зависит от других формант. Для русских слушателей это / / - /е/, /о/ - /а/, /о/ - /е/ [50,66] . Там же приведен рисунок границ между синтетическими гласными в плоскости Ft , F2 (рис.2.3). Отмечается роль значений частот формант и величины пиков для синтезированного X в эксперименте, когда оценивались значимость частоты и затухания формант, наклона спектра, фазы гармоник, отсутствия определенных частотных диапазонов [9]

В задаче имитации синтезированных гласных установлено, что при имитации звуков воспроизводится формантная структура звука с точностью до слухового различия [94] . На формантной плоскости гласные одной группы испытуемых ложатся на прямую, ориентация которой отражает гласный, а точки на луче соответствуют высоте

Изменчивость гласных под влиянием окружающих звуков

Довольно распространенным взглядом на механизмы восприятия речи является представление о том, что этот процесс происходит поэтапно. На начальном этапе происходит распознавание отдельных звуков, из которых на последующих уровнях формируются слова и словосочетания. Альтернативной позицией может быть представление о пословном распознавании речи [42] . В этом случае решение о ти пе отдельных звуков в потоке речи не принимается, а они служат только для формирования некоторого описания более крупных единиц. Из общетеоретических соображений такое представление кажется вполне допустимым, так как конечной целью коммуникационного акта является передача смысла сообщения, а отнюдь не абстрактной фонемной цепочки. Вследствие этого, учитывая большую избыточность речевого сообщения (которая, конечно, необходима для обеспечения помехоустойчивости) можно ожидать определенной редукции речевого сигнала на отдельных участках и, прежде всего, на уровне отдельных звуков. Определенный интерес представляет из себя анализ возможности такой редукции на столь существенном участке слова как ударная гласная. Очевидно, что в случае наличия таковой, следует ожидать еще большей редукции на других участках.

Целью настоящего исследования является выяснение особенностей восприятия ударных гласных русского языка в реальном слитном произнесении. Исследование строилось на основании предположения о том, что ударный гласный, сегментированный из слитной речи не всегда будет интерпретироваться также, как он бы интерпретировался в изолированном положении и в составе слогов или слов, произнесенных отдельно.

Речь представляет не просто последовательность произносимых звуков, а непрерывный звуковой поток, который в значительной мере объясняется непрерывностью артикуляторных движений во время произнесения того или иного речевого отрезка - слога, слова, сочетания слов и т.д. [9] . Звуки речи, соответствующие отдельным смыслоразличительным единицам (фонемам) в потоке речи находятся в постоянном взаимодействии друг с другом, т.е. существует так называемая коартикуляция. Это взаимодействие определяется как естественной инертностью артикулярных органов, так и спецификой планирования комплекса речедвигательных актов в центральной нервной системе.

В большинстве существующих работ, непосредственно посвященных исследованию русских гласных, в качестве звукового материала используются изолированно произнесенные слоги и слова [8,15] , что накладывает естественный отпечаток на стиль произнесения. Диктор произносит в этом случае речевой материал в так называемом полном стиле, т.е. отчётливо выговаривая звуки, в частности, артикулируя все гласные практически как ударные. Это, естественно, не дает возможности для полного проявления коартикуляции. Что касается интересующего нас вопроса об изменении гласных под влиянием согласных в ударных слогах в слитной речи, то все авторы указывают на то, что соседние согласные оказывают влияние на согласный звук, т.е. характер гласных зависит от предшествующего и последующего согласных [8,91,101] . Причем, влияние предшествующего согласного на гласный значительно больше, чем влияние последующего. Сильнее всего влияют активный действующий орган и мягкость согласного, а также участие при его образовании полости носа. Наиболее очевидно влияние на гласный палатализованных согласных. Подтверждение этих наблюдений можно найти в ряде экспериментальных исследовательских работ [16,19,39] . В них проводился анализ объективных характеристик ударных гласных, а также исследовалось их восприятие.

Метод семантически противоположных пар и возможности его применения для оценки звуков

При изучении стимулов различной модальности в последние годы с успехом применяется метод семантического дифференциала или метод семантически противоположных пар (СПП). Этот метод был предложен Ч.Осгудомдля измерения значения [108] . Общая схема экспериментов, проводимых с привлечением метода СПП, выглядит следующим образом [26] . Испытуемым дается задание оценить предложенные им стимулы по набору шкал. Каждая из этих шкал обычно задается двумя признаками-словами, противоположными по значению (антонимами), например, "добрый-злой", "приятный-неприятный", "большой-маленький". Иногда задается одним термином (так происходит в тех случаях, когда антоним отсутствует, например, признаки, обозначающие цвет: белый, синий, красный, или когда это обусловлено техническими удобствами).

По каждому из признаков стимул оценивается в баллах. Число балльных градаций на шкале может быть разным. Ч.Осгудом были предложены 7-балльные шкалы с делениями от -3 до +3. Так, например, если по шкале "плохой-хороший" стимул оценивается как и"пло-хой" и "хороший" или ни тот, ни другой, т.е. нейтрально, то ему приписывается значение "О". Вели стимул расценивается как "немного хороший", то ему приписывается значение "+І", "немного плохой" - "-І", "вполне хороший" - "+2", "довольно длохой" - "-2м. Крайние точки шкалы обозначены соответственно в "+3" и "-3". Сам балл наносится обычно испытуемыми в виде метки на линейную шкалу. Подобная процедура шкалирования давно используется в психофизике и психоакустике. Своеобразие применения метода СПП при оценке звуков заключается в том, что в классическом варианте психофизического шкалирования испытуемому совершенно ясно субъективное ощущение задаваемого признака: например, "громкость" или "высота" звука, что полностью соответствует шкалированию по признакам "тихий-громкий", "низкий-высокий". Правильность реакций в таком эксперименте связана со степенью предобученности испытуемых. При оценке звуков речи признаки, используемые в методе СПП, не имеют явного (осознанного) субъективного соответствия со свойствами ощущений. Никто, кроме людей, обладающих ярко выраженной синестезией, не может сказать точно, каким является звук - "светлым" или "темным", "грубым" или "нежным". Тем более, казалось бы, трудно сказать, в какой степени данный признак выражен в звуке, т.е. является ли звук "немного светлым" или "очень светлым". Тем не менее, как показывает опыт, оценка звуков по признакам не вызывает затруднений у испытуемых. Более того, оказывается, что оценки определенного стимула по признаку бывают довольно устойчивыми и даже совпадают в своей основной массе у разных испытуемых. Это явление можно назвать бессознательной синестезией. Оно состоит в способности сопоставлять неосознаваемые свойства стимулов с вербально задаваемыми признаками [юз] .

Осгуд придавал исключительное значение вопросу выбора шкал. Начальный перечень антонимичных определений в его работе [108] содержал больше 250 единиц (эти пары были получены в результате обработки тезауруса Роже). И только после разбиения 250 пар определений на классы Ч.Осгуд смог сократить исходный перечень до 76 шкал-признаков.

Осгуд представлял себе шкалы как оси, проходящие через начало координат, и тем самым, задающие многомерное пространство. Естественно предположить, что значение (для нас - характеристика входного стимула в признаковом пространстве, см. выше раздел 1.2) будет определяться тем точнее, чем больше использовано признаков, по которым стимул оценивается. Однако из теории очевидно и на практике было подтверждено, что для определения пространства достаточно знать его основные измерения. Это следует из того, что конструируемые по отдельным признакам шкалы не являются независимыми между собой. Оценки стимулов по некоторым шкалам будут коррелировать.

Похожие диссертации на Особенности признакового восприятия звуков речи