Введение к работе
Актуальность темы
Естественное, языковое общение является для человека самым удобным и привычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет решают проблему речевого общения человека и машины. Основная задача речевого интерфейса - понимать человеческую речь и правильно реагировать на нее. Проблема состоит в том, чтобы научить устройство понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового сигнала речи. Этим и занимается технология распознавания речи.
Эта задача поставлена более 60 лет назад, но полученные решения ещё не совершенны. Это показывает, что распознавание речи является сложной проблемой. Таким образом, проблема исследования распознавания речи человека является актуальной с практическим применением даже в частных решениях.
Цель диссертационной работы
Основная цель диссертационной работы заключалась в исследовании методов распознавания речи и разработке программ автоматического распознавания ограниченного набора команд вьетнамской речи. Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:
-
Обзор существующих методов автоматического распознавания речи.
-
Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.
-
Разработка методов и алгоритмов распознавания вьетнамской речи.
-
Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.
Методы исследований
В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей.
Научная новизна
Научная новизна диссертационной работы заключается в том, что предложено нескольких новых методов:
-
Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.
-
Предложен метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.
-
Предложен метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
-
Предложен метод формирования динамики формант по результатам спектрального анализа. Отображение их в графическом виде может применяться для изучения произношения и разработки методов распознавания слов и фраз.
-
Предложен метод формирования эталонов для распознавания слов и фраз, основанный на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.
Практическая ценность диссертации
Предложены новые методы анализа речевого сигнала, новые методы распознавания ограниченного набора речевой команд на вьетнамском языке. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.
Разработаны программы отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.
Апробация работы
Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.).
Личный вклад диссертанта
Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом.
Публикации
По материалам диссертации опубликовано 3 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.
Структура и объём работы
Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.