Введение к работе
Изучение звучащей речи на микросегментном уровне позволяет пополнить современные фонетические представления о порождении речи и способствует решению прикладных задач автоматического распознавания и синтеза речи.
Актуальность диссертационной работы обеспечивается
-
разработкой новых фонетических сведений о звуках для микросегментации в сегментологии, оформляющейся сейчас в специальную область общей и прикладной фонетики;
-
пополнением новых данных о звуках русской речи для разработки Фонетического фонда русского языка как подсистемы создающегося в настоящее время Машинного фонда современного русского языка;
-
актуальностью решения теоретических и прикладных проблем оценки и измерения качества речи в системах передачи, анализа и синтеза речи.
Целью работы являлось получение новых фонетических сведений об акустических параметрах микросегментов звучащей русской речи, выработка рекомендаций для увеличения надежности автоматического распознавания речи и повышения натуральности синтезированной по правилам речи.
Для достижения указанной цели необходимо было последовательно решить следующие задачи:
1) выбрать акустические параметры речевого сигнала, позволяющие расширить и углубить полноту исследований на мик.роеег;/>_нтнг,м уровне;
-
выбрать программно-аппаратные средства, позволяющие корректно измерять эти акустические параметры речевого сигнала;
-
построить и проанализировать распределения акустических параметров в звучащей монологической неспонтанной стилистически нейтральной литературной речи на длительной речевой выборке;
-
разработать правила построения фонетического анализатора речи и провести его испытания;
-
получить экспериментальные измерения и выявить основные закономерности по взаимодействию акустических параметров речевого сигнала на звуках и слогах русской речи;
-
сопоставить результаты, полученные на материале естественной речи, с данными синтезированной речи;
-
сформулировать требования к имитатору тонального источника, позволяющего повысить качество звучания речи, синтезированной по правилам;
8) ввести понятийные компоненты естественности речи.
Научная новизна работы заключается в том, что в рамках новых
методик и нетрадиционных машинных средств исследованы малоизученные акустические параметры речевых звуков и получены новые сведения о структурированности микросегментов русской речи.
Методы. Программные и аппаратные средства.
В процессе анализа, построения и экспериментальной проверки моделей применялись
фундаментальные методы исследования и анализа в области теоретической и прикладной лингвистики, общей и прикладной фонетики;
методы и модели теории восприятия звуковых образов и измерений качества речи;
методы и модели теории колебаний, включая линейную модель ре-чеобразования, измерение акустических параметров речевого тракта и источника звука;
методы теории вероятностей и математической статистики (построение распределений, оценки средних величин).
В экспериментальном исследовании были использованы следующие программы анализа речевого сигнала:
поиск резонансных частот и ширин речевого тракта на интервале свободных колебаний;
измерение относительной длительности импульсов возбуждения тонального источника;
измерение частоты основного тона;
измерение интенсивности источника .возбуждения на временных интервалах вынужденных колебаний;
сегментация речевого сигнала на статические / динамические / паузальные участки с помощью видоизмененной фонетической функции;
программа гистограммных расчетов;
визуализация осциллограмм измеренных акустических параметров;
анализ речевой волны методом линейного предсказания на коротких временных интервалах, разработанным в Институте языка и литературы АН ЭССР.
Материалы естественной и синтезированной речи анализировались с помощью аналого-цифрового процессора "МассиЕ - 2". разработанного в НИИ "КВАНТ" , позволяющего проводить широкий диапазон измерений, не всегда доступных для традиционных методов спектрального анализа. Обработка материалов производилась на ПК АТ-286. В качестве устройства для записи и воспроизведения речевых фрагментов
использовался магнитофон "Олимп-004", запись производилась через динамический микрофон D-19 и для проведения конкретного эксперимента - через угольный микрофон МК-10.
Теоретическая значимость работы состоит в получении новых данных о мало изученных акустических параметрах звучащей речи и систематизации взаимосоответствия этих параметров на микросегментном уровне, что позволяет расширить научные сведения о характеристиках сегментного состава звучащей русской речи. Построены вероятностные распределения акустических параметров на длительной речевой выборке для монологической стилистически нейтральной литературной русской речи. Полученные результаты создают условия для проведения широких теоретических и практических исследований естественности речи, автоматического распознавания речевых образов, а также качественного звучания синтеза речи по правилам.
Практическая ценность исследования обеспечивается тем, что пополняются фонетические сведения о звуках речи, вырабатываются новые правила для автоматического распознавания речевых сигналов и верификации диктора, пополняется арсенал методов фоноскошческих исследований в криминалистической фоноскопии, обнаруживаются и подтверждаются новые сведения для синтеза речи и теории речеобра-зования, уточняется взаимодействие акустических параметров речевого сигнала в норме (вырабатываются критерии естественности речи), создаются предпосылки для разработки новых устройств и программ анализа речи.
Разработан алгоритм фонетического анализатора для измерения естественност;; звучания русской речи.
Сформулированы требования к трехпараметрическому имитатору
тонального источника для синтеза речи, который был впоследствии изготовлен радиоинженерами.
Результаты теоретических и экспериментальных исследований можно предложить как составные компоненты для решения научных и прикладных задач в следующих областях знания:
экспериментальная фонетика;
автоматическое распознавание речи;
криминалистическая фоноскопия (фонография);
диагностика патологии в речевом тракте и гортани;
синтез речи по правилам;
верификация диктора речевого сообщения;
верификация языка речевого сообщения.
Полученные результаты могут быть использованы в лекционных курсах и учебных материалах высших учебных заведений при изучении звучащего текста. В настоящее время сдано в печать учебное пособие для высшей школы МВД.
Материал. Для гистограммного анализа длительной речевой выборки материалом послужила монологическая неспонтанная стилистически нейтральная литературная речь 18 дикторов. Общая длительность проанализированного материала составила 1 час 20 минут. В качестве текста были выбраны программы новостей. Для выявления инвариантных характеристик речевого звука, минимально зависимых от канала передачи, звучащий текст записывался с космических линий связи, с ЧМ радиовещания и с радиотрансляции. Поскольку в предмет исследования на данном этапе входила сама материя речевого звука, то на подбор исследуемого материала не налагалось других ограничений, кроме нормативного пр^чзношения для возрастной группы 20-
50 лет. Общее количество проанализированных измерений составило более одного миллиона.
Выявленные закономерности порождения естественной речи проверялись на материале синтезированной по правилам речи синтезаторов с традиционным тональным источником возбуждения и с трехпараметри-ческим источником возбуждения, алгоритм работы которого учитывал результаты исследования данной работы по тональному источнику возбуждения, а также на ограниченном материале компилятивного синтеза, разработанного на филологическом факультете МГУ.
Для исследования взаимодействия акустических параметров речевого сигнала на звуках и слогах русской речи анализ проводился на изолированных гласных звуках, изолированных открытых слогах, изолированных двусложных псевдословах типа ГСГ с попеременным ударением на начальном и конечном гласном (типа "аза"', "а'за"), а также на звуках и слогах, выделенных из слитной речи. Лингвистическим материалом послужили фразы из испытательных артикуляционных таблиц [ГОСТ 16600-72], произнесенные 8-ю дикторами, носителями литературной орфоэпической нормы. Объемы анализированных выборок звуков русской речи были следующими: для гласных звуков - несколько сотен, для остальных звуков и слогов - несколько десятков.
Достоверность полученных результатов обеспечивается: статистической достаточностью объема анализируемой речевой выборки; использованием апробированных методов экспериментально-фонетических исследований; компьютерной обработкой акустических параметров речи; применением аппаратных и программных средств анализа речи, прошедших апробацию.
Основными положениями, выносимыми на защиту, являются:
закономерности взаимосоответствия способа образования звука и значения ширины резонансов;
особенности изменения ширин первого и второго резонансов в звуковых образованиях СГ и ГСГ;
правила корреляции резонансных частот звуков с интенсивностью в зависимости от способа образования звука;
правила временного изменения параметров импульса тонального источника как основного фактора натуральности звучания русской речи;
создание фонетического анализатора для измерения естественности звучания речи;
доказательство неоднородности и относительности естественности речи.
Апробация Основное содержание работы докладывалось на Всесоюзных семинарах "Автоматическое распознавание слуховых образов" (Москва, 1991; Ижевск, 1992 ), Международных конференциях "Информатизация правоохранительных систем" (Москва, 1993,1994,1995,1996) на Всероссийской научной конференции "Проблемы гуманитарного образования" (Ставрополь-Пятигорск,1995), Российско-американском научном симпозиуме "Массовая коммуникация" (Москва,1996). Отдельные аспекты акустических параметров речи освещались также в докладах на научных конференциях Челябинского государственного университета (Челябинск.1984,1985), Всесоюзной конференции молодых ученых "Человек; перспективы исследования" (Пермь,1987), Всесоюзной конференции молодых научных работников (ИЯ АН СССР) "Типы коммуникации и содержательк "л аспект языка" (Москва,1987).
Подготовлено и сдано в печать учебное пособие "Речевые технологии в криминалистической фоноскопии" для слушателей и адъюнктов-высших учебных заведений МВД, в которое вошли материалы диссертационного исследования.
Результаты фонетических исследований звуков и слогов русской речи были использованы при разработке решающих правил по декодированию звуковых единиц из слитной речи в различных устройствах и алгоритмах НИИ "КВАНТ", Академии МВД РФ, Научно-техническом центре по безопасности полетов Межгосударственного авиационного комитета.
Выполненные работы были внедрены в Академии МВД, НИИ "КВАНТ", ТОО "ЭЯТОС".
Структура и объем работы. Диссертация состоит из введения, 3 глав, заключения, изложенных на 244 стр. машинописного текста, иллюстраций на 59 рис., списка используемой литературы (222 наименования) и приложения.