Введение к работе
Актуальность тош. Проблема двухстороннего человеко-ма-инного взаимодействия посредством голоса занимает особое мес-о в программах научно-технического прогресса. Речевой вод-вывод создает возможность организации естественной связи ежду человеком и машиной, как непосредственно, так и по теле-ону. Его применение позволяет повысить качество управления ехническими устройствами благодаря высокому быстродействию, озможности высвобождения для других целей глаз и рук человека пригодности для использования в темноте, невесомости и при начительных перегрузках.
Проблема речевого взаимодействия решается на основе исс-едований и разработок устройств распознавания и синтеза речи, настоящему времени достигнуты значительные успехи в разра-отке устройств синтеза, но задачу распознавания нельзя счи-ать окончательно решенной. Процессы восприятия речи при их ехнической реализации оказываются чрезвычайно сложными из-за юльшого разнообразия голосов, стилей произношения, неустойчи-ости и случайности параметров речевого сигнала. В связи с ітим, можно считать принципиально решенной только задачу рас-юзнавания изолированных слов с настройкой на конкретного дик-ора.
Вместе с тем, применение устройств речевого ввода в раз-шчных системах массового обслуживания требует решения задачи іикторонєзависимого распознавания речи. Одним из перспективных юдходов к ее решению является распознавание на основе анализа ;имвольных последовательностей, но связанные с этим вопросы ізучєньї недостаточно.
Работа представляет собой часть плановых исследований кафедры Систем автоматического управления БГТУ, выполненных в іамках программы "Университеты России".
Цель работы: Усовершенствовать методы распознавания сим-зольных последовательностей и разработать на их основе экспе-)иментальную дикторонезависимую систему распознавания изолиро-занных слов.
Основные задачи исследований:
3. Выявить основные недостатки существуэщия дикторонезави-симых систем распознавания изолированных слов на основе анализа символьных последовательностей и наметить пути их устранения.
-
Разработать алгоритмы для создания лингвистического декодера с применением скрытых марковских "left-to-right" моделей варьируемой продолжительности, позволяющих учитывать временные характеристики речевого сигнала.
-
Исследовать возможность учета временных характеристик при сопоставлении символьных последовательностей и разработать алгоритмы для создания лингвистического декодера на основе эталонных символьных последовательностей.
-
Разработать экспериментальную дикторонезависимую систему распознавания изолированных слов и выполнить ее исследования с целью проверки эффективности предлояенных алгоритмов (точности, быстродействия и помехозащищенности).
Методы исследований. Для выполнения поставленных задач использовались методы распознавания образов, теории вероятностей, статистической теории связи, теории информации и цифровой обработки сигналов. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.
Научная новизна исследования состоит в том. что:
1. Разработан комплекс алгоритмов для реализации лингвис
тического декодера на основе анализа скрытых марковских
"left-to-right" моделей варьируемой продолжительности, в рам
ках которого
создан алгоритм расчета функции правдоподобия с рекуррентным вычислением одного из слагаемых, позбопящий реализовать лингвистический декодер в реальном времени;
предлоаєн эвристический способ установки начальных приблияєний параметров моделей, обеспечивающий качественную настройку;
разработаны алгоритм распознавания сжатых последовательностей и способ учета погрешности векторного квантования.
2. Предложены алгоритмы расчета меры сходства и обучения
при использовании символьных последовательностей в качестве эталонов, позволяющие учитывать ограничения на число вставок и выпадений подряд.
-
Создана экспериментальная дикторонезависимая система распознавания изолированных слов с использованием скрытых марковских моделей варьируемой продолжительности и предложен способ повышения ее быстродействия на основе применения акустической сегментации речевого сигнала по отклонению от скользящего среднего.
-
В ходе исследований системы распознавания изолированных цифр:
получена зависимость критерия качества обучения от количества состояний скрытой марковской модели и определено оптимальное число этих состояний в зависимости от длины фонетической транскрипции;
предложен способ определения значения порога отклонения от скользящего среднего и получены данные об увеличении быстродействия системы за счет сегментации;
разработана модель акустического шума и получены данные о помехозащищенности системы и влиянии ее подстройки под шум на точность.
Достоверность научных положений, полученных результатов и выводов базируется на корректном применении общепринятого математического аппарата и подтверждается экспериментальными данными по распознавании контрольной выборки.
Практическая ценность заключается в разработке:
-
Комплекса программ, позволяющего организовать распознавание символьных последовательностей любого происхождения на основе анализа скрытых марковских "left-to-right" моделей варьируемой продолжительности.
-
Программного комплекса для распознавания символьных последовательностей путем их сопоставления с эталонными.
-
Системы первичной обработки нестационарного сигнала, в том числе его описания, сегментации и преобразования в символьную последовательность.
4.Экспериментальной дикторонезависимой системы распозна-
вания изолированных цифр.
Полученные практические результаты позволяют создавать различные дикторонезаоисимые системы. Разработанные алгоритмы и программы могут применяться для обработки сигналов разной природы, например сейсмограмм, электрокардиограмм и электроэнцефалограмм.
Результаты внедрения. Созданные алгоритмы и программы легли в основу канала анализа символьных последовательностей дикторонезависимой системы распознавания изолированных слов, разрабатываемой в рамках темы "Методы и средства построения систем речевого общения", что отражено в отчетах по НИР N У4-03-3509 за 1994, 19S5 и 1996 годы. Комплекс программ и методика их применения переданы на кафедру Систем автоматического управления БГТУ. Результаты работы также нашли применение:
в закрытом акционерном обществе "Автоматизация мониторинга технологий" при разработке перспективных систем, использующих новую форму человеко-машинного взаимодействия посредством голоса;
в Государственном научно-производственном предприятии "Севморгео" при составлении алгоритмов и программ обработки геофизических, и в частности, сейсмических материалов;
в учебном процессе на факультете Систем управления БГТУ.
Апробация работы. Основные результаты работы докладывались на IV Санкт-Петербургской международной конференции "Региональная информатика - 95", Санкт-Петербург, 1995; на II Межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", Пушкин, 1995; на V Санкт-Петербургской международной конференции "Региональная информатика - 96", Санкт-Петербург, 1996; на международном семинаре "Речь и компьютер", Санкт-Петербург, 1998; на научно-технической конференции "Системы управления, конверсия, проблемы", Ковров, 1996; на семинаре кафедры цифровой обработки сигналов Государственного университета телекоммуникаций им. М.А. Бонч-Бруе-вича, Санкт-Петербург, 1996.
Пубджацйи. По материалам диссертации опубликовано 8 печатных работ.
Объем и структура диссертации. Работа состоит из введения, пяти глав, заключения, списка литературы из 87 наименований и четырех приложений. Основная часть изложена на 107 страницах машинописного текста, имеет 8 рисунков и 13 таблиц.