Исследование акустических параметров звуков русской речи на микросегментном уровне Чудновская, Ирина Николаевна

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Чудновская, Ирина Николаевна. Исследование акустических параметров звуков русской речи на микросегментном уровне : автореферат дис. ... кандидата филологических наук : 10.02.21.- Москва, 1997.- 28 с.: ил.

Введение к работе

Изучение звучащей речи на микросегментном уровне позволяет пополнить современные фонетические представления о порождении речи и способствует решению прикладных задач автоматического распознавания и синтеза речи.

Актуальность диссертационной работы обеспечивается

разработкой новых фонетических сведений о звуках для микросегментации в сегментологии, оформляющейся сейчас в специальную область общей и прикладной фонетики;
пополнением новых данных о звуках русской речи для разработки Фонетического фонда русского языка как подсистемы создающегося в настоящее время Машинного фонда современного русского языка;
актуальностью решения теоретических и прикладных проблем оценки и измерения качества речи в системах передачи, анализа и синтеза речи.

Целью работы являлось получение новых фонетических сведений об акустических параметрах микросегментов звучащей русской речи, выработка рекомендаций для увеличения надежности автоматического распознавания речи и повышения натуральности синтезированной по правилам речи.

Для достижения указанной цели необходимо было последовательно решить следующие задачи:

1) выбрать акустические параметры речевого сигнала, позволяющие расширить и углубить полноту исследований на мик.роеег;/>_нтнг,м уровне;

выбрать программно-аппаратные средства, позволяющие корректно измерять эти акустические параметры речевого сигнала;
построить и проанализировать распределения акустических параметров в звучащей монологической неспонтанной стилистически нейтральной литературной речи на длительной речевой выборке;
разработать правила построения фонетического анализатора речи и провести его испытания;
получить экспериментальные измерения и выявить основные закономерности по взаимодействию акустических параметров речевого сигнала на звуках и слогах русской речи;
сопоставить результаты, полученные на материале естественной речи, с данными синтезированной речи;
сформулировать требования к имитатору тонального источника, позволяющего повысить качество звучания речи, синтезированной по правилам;

8) ввести понятийные компоненты естественности речи.
Научная новизна работы заключается в том, что в рамках новых

методик и нетрадиционных машинных средств исследованы малоизученные акустические параметры речевых звуков и получены новые сведения о структурированности микросегментов русской речи.

Методы. Программные и аппаратные средства.

В процессе анализа, построения и экспериментальной проверки моделей применялись

фундаментальные методы исследования и анализа в области теоретической и прикладной лингвистики, общей и прикладной фонетики;

методы и модели теории восприятия звуковых образов и измерений качества речи;

методы и модели теории колебаний, включая линейную модель ре-чеобразования, измерение акустических параметров речевого тракта и источника звука;

методы теории вероятностей и математической статистики (построение распределений, оценки средних величин).

В экспериментальном исследовании были использованы следующие программы анализа речевого сигнала:

поиск резонансных частот и ширин речевого тракта на интервале свободных колебаний;

измерение относительной длительности импульсов возбуждения тонального источника;

измерение частоты основного тона;

измерение интенсивности источника .возбуждения на временных интервалах вынужденных колебаний;

сегментация речевого сигнала на статические / динамические / паузальные участки с помощью видоизмененной фонетической функции;

программа гистограммных расчетов;

визуализация осциллограмм измеренных акустических параметров;

анализ речевой волны методом линейного предсказания на коротких временных интервалах, разработанным в Институте языка и литературы АН ЭССР.

Материалы естественной и синтезированной речи анализировались с помощью аналого-цифрового процессора "МассиЕ - 2". разработанного в НИИ "КВАНТ" , позволяющего проводить широкий диапазон измерений, не всегда доступных для традиционных методов спектрального анализа. Обработка материалов производилась на ПК АТ-286. В качестве устройства для записи и воспроизведения речевых фрагментов

использовался магнитофон "Олимп-004", запись производилась через динамический микрофон D-19 и для проведения конкретного эксперимента - через угольный микрофон МК-10.

Теоретическая значимость работы состоит в получении новых данных о мало изученных акустических параметрах звучащей речи и систематизации взаимосоответствия этих параметров на микросегментном уровне, что позволяет расширить научные сведения о характеристиках сегментного состава звучащей русской речи. Построены вероятностные распределения акустических параметров на длительной речевой выборке для монологической стилистически нейтральной литературной русской речи. Полученные результаты создают условия для проведения широких теоретических и практических исследований естественности речи, автоматического распознавания речевых образов, а также качественного звучания синтеза речи по правилам.

Практическая ценность исследования обеспечивается тем, что пополняются фонетические сведения о звуках речи, вырабатываются новые правила для автоматического распознавания речевых сигналов и верификации диктора, пополняется арсенал методов фоноскошческих исследований в криминалистической фоноскопии, обнаруживаются и подтверждаются новые сведения для синтеза речи и теории речеобра-зования, уточняется взаимодействие акустических параметров речевого сигнала в норме (вырабатываются критерии естественности речи), создаются предпосылки для разработки новых устройств и программ анализа речи.

Разработан алгоритм фонетического анализатора для измерения естественност;; звучания русской речи.

Сформулированы требования к трехпараметрическому имитатору

тонального источника для синтеза речи, который был впоследствии изготовлен радиоинженерами.

Результаты теоретических и экспериментальных исследований можно предложить как составные компоненты для решения научных и прикладных задач в следующих областях знания:

экспериментальная фонетика;

автоматическое распознавание речи;

криминалистическая фоноскопия (фонография);

диагностика патологии в речевом тракте и гортани;

синтез речи по правилам;

верификация диктора речевого сообщения;

верификация языка речевого сообщения.

Полученные результаты могут быть использованы в лекционных курсах и учебных материалах высших учебных заведений при изучении звучащего текста. В настоящее время сдано в печать учебное пособие для высшей школы МВД.

Материал. Для гистограммного анализа длительной речевой выборки материалом послужила монологическая неспонтанная стилистически нейтральная литературная речь 18 дикторов. Общая длительность проанализированного материала составила 1 час 20 минут. В качестве текста были выбраны программы новостей. Для выявления инвариантных характеристик речевого звука, минимально зависимых от канала передачи, звучащий текст записывался с космических линий связи, с ЧМ радиовещания и с радиотрансляции. Поскольку в предмет исследования на данном этапе входила сама материя речевого звука, то на подбор исследуемого материала не налагалось других ограничений, кроме нормативного пр^чзношения для возрастной группы 20-

50 лет. Общее количество проанализированных измерений составило более одного миллиона.

Выявленные закономерности порождения естественной речи проверялись на материале синтезированной по правилам речи синтезаторов с традиционным тональным источником возбуждения и с трехпараметри-ческим источником возбуждения, алгоритм работы которого учитывал результаты исследования данной работы по тональному источнику возбуждения, а также на ограниченном материале компилятивного синтеза, разработанного на филологическом факультете МГУ.

Для исследования взаимодействия акустических параметров речевого сигнала на звуках и слогах русской речи анализ проводился на изолированных гласных звуках, изолированных открытых слогах, изолированных двусложных псевдословах типа ГСГ с попеременным ударением на начальном и конечном гласном (типа "аза"', "а'за"), а также на звуках и слогах, выделенных из слитной речи. Лингвистическим материалом послужили фразы из испытательных артикуляционных таблиц [ГОСТ 16600-72], произнесенные 8-ю дикторами, носителями литературной орфоэпической нормы. Объемы анализированных выборок звуков русской речи были следующими: для гласных звуков - несколько сотен, для остальных звуков и слогов - несколько десятков.

Достоверность полученных результатов обеспечивается: статистической достаточностью объема анализируемой речевой выборки; использованием апробированных методов экспериментально-фонетических исследований; компьютерной обработкой акустических параметров речи; применением аппаратных и программных средств анализа речи, прошедших апробацию.

Основными положениями, выносимыми на защиту, являются:

закономерности взаимосоответствия способа образования звука и значения ширины резонансов;

особенности изменения ширин первого и второго резонансов в звуковых образованиях СГ и ГСГ;

правила корреляции резонансных частот звуков с интенсивностью в зависимости от способа образования звука;

правила временного изменения параметров импульса тонального источника как основного фактора натуральности звучания русской речи;

создание фонетического анализатора для измерения естественности звучания речи;

доказательство неоднородности и относительности естественности речи.

Апробация Основное содержание работы докладывалось на Всесоюзных семинарах "Автоматическое распознавание слуховых образов" (Москва, 1991; Ижевск, 1992 ), Международных конференциях "Информатизация правоохранительных систем" (Москва, 1993,1994,1995,1996) на Всероссийской научной конференции "Проблемы гуманитарного образования" (Ставрополь-Пятигорск,1995), Российско-американском научном симпозиуме "Массовая коммуникация" (Москва,1996). Отдельные аспекты акустических параметров речи освещались также в докладах на научных конференциях Челябинского государственного университета (Челябинск.1984,1985), Всесоюзной конференции молодых ученых "Человек; перспективы исследования" (Пермь,1987), Всесоюзной конференции молодых научных работников (ИЯ АН СССР) "Типы коммуникации и содержательк "л аспект языка" (Москва,1987).

Подготовлено и сдано в печать учебное пособие "Речевые технологии в криминалистической фоноскопии" для слушателей и адъюнктов-высших учебных заведений МВД, в которое вошли материалы диссертационного исследования.

Результаты фонетических исследований звуков и слогов русской речи были использованы при разработке решающих правил по декодированию звуковых единиц из слитной речи в различных устройствах и алгоритмах НИИ "КВАНТ", Академии МВД РФ, Научно-техническом центре по безопасности полетов Межгосударственного авиационного комитета.

Выполненные работы были внедрены в Академии МВД, НИИ "КВАНТ", ТОО "ЭЯТОС".

Структура и объем работы. Диссертация состоит из введения, 3 глав, заключения, изложенных на 244 стр. машинописного текста, иллюстраций на 59 рис., списка используемой литературы (222 наименования) и приложения.