Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Дикторонезависимое распознавание изолированных слов на основе анализа символьных последовательностей Маховиков, Алексей Борисович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Маховиков, Алексей Борисович. Дикторонезависимое распознавание изолированных слов на основе анализа символьных последовательностей : автореферат дис. ... кандидата технических наук : 05.13.14 / Балтийский гос. техн. ун-т им. Д. Ф. Устинова.- Санкт-Петербург, 1997.- 18 с.: ил. РГБ ОД, 9 97-4/2276-6

Введение к работе

Актуальность тош. Проблема двухстороннего человеко-ма-инного взаимодействия посредством голоса занимает особое мес-о в программах научно-технического прогресса. Речевой вод-вывод создает возможность организации естественной связи ежду человеком и машиной, как непосредственно, так и по теле-ону. Его применение позволяет повысить качество управления ехническими устройствами благодаря высокому быстродействию, озможности высвобождения для других целей глаз и рук человека пригодности для использования в темноте, невесомости и при начительных перегрузках.

Проблема речевого взаимодействия решается на основе исс-едований и разработок устройств распознавания и синтеза речи, настоящему времени достигнуты значительные успехи в разра-отке устройств синтеза, но задачу распознавания нельзя счи-ать окончательно решенной. Процессы восприятия речи при их ехнической реализации оказываются чрезвычайно сложными из-за юльшого разнообразия голосов, стилей произношения, неустойчи-ости и случайности параметров речевого сигнала. В связи с ітим, можно считать принципиально решенной только задачу рас-юзнавания изолированных слов с настройкой на конкретного дик-ора.

Вместе с тем, применение устройств речевого ввода в раз-шчных системах массового обслуживания требует решения задачи іикторонєзависимого распознавания речи. Одним из перспективных юдходов к ее решению является распознавание на основе анализа ;имвольных последовательностей, но связанные с этим вопросы ізучєньї недостаточно.

Работа представляет собой часть плановых исследований кафедры Систем автоматического управления БГТУ, выполненных в іамках программы "Университеты России".

Цель работы: Усовершенствовать методы распознавания сим-зольных последовательностей и разработать на их основе экспе-)иментальную дикторонезависимую систему распознавания изолиро-занных слов.

Основные задачи исследований:

3. Выявить основные недостатки существуэщия дикторонезави-симых систем распознавания изолированных слов на основе анализа символьных последовательностей и наметить пути их устранения.

  1. Разработать алгоритмы для создания лингвистического декодера с применением скрытых марковских "left-to-right" моделей варьируемой продолжительности, позволяющих учитывать временные характеристики речевого сигнала.

  2. Исследовать возможность учета временных характеристик при сопоставлении символьных последовательностей и разработать алгоритмы для создания лингвистического декодера на основе эталонных символьных последовательностей.

  3. Разработать экспериментальную дикторонезависимую систему распознавания изолированных слов и выполнить ее исследования с целью проверки эффективности предлояенных алгоритмов (точности, быстродействия и помехозащищенности).

Методы исследований. Для выполнения поставленных задач использовались методы распознавания образов, теории вероятностей, статистической теории связи, теории информации и цифровой обработки сигналов. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.

Научная новизна исследования состоит в том. что:

1. Разработан комплекс алгоритмов для реализации лингвис
тического декодера на основе анализа скрытых марковских
"left-to-right" моделей варьируемой продолжительности, в рам
ках которого

создан алгоритм расчета функции правдоподобия с рекуррентным вычислением одного из слагаемых, позбопящий реализовать лингвистический декодер в реальном времени;

предлоаєн эвристический способ установки начальных приблияєний параметров моделей, обеспечивающий качественную настройку;

разработаны алгоритм распознавания сжатых последовательностей и способ учета погрешности векторного квантования.

2. Предложены алгоритмы расчета меры сходства и обучения

при использовании символьных последовательностей в качестве эталонов, позволяющие учитывать ограничения на число вставок и выпадений подряд.

  1. Создана экспериментальная дикторонезависимая система распознавания изолированных слов с использованием скрытых марковских моделей варьируемой продолжительности и предложен способ повышения ее быстродействия на основе применения акустической сегментации речевого сигнала по отклонению от скользящего среднего.

  2. В ходе исследований системы распознавания изолированных цифр:

получена зависимость критерия качества обучения от количества состояний скрытой марковской модели и определено оптимальное число этих состояний в зависимости от длины фонетической транскрипции;

предложен способ определения значения порога отклонения от скользящего среднего и получены данные об увеличении быстродействия системы за счет сегментации;

разработана модель акустического шума и получены данные о помехозащищенности системы и влиянии ее подстройки под шум на точность.

Достоверность научных положений, полученных результатов и выводов базируется на корректном применении общепринятого математического аппарата и подтверждается экспериментальными данными по распознавании контрольной выборки.

Практическая ценность заключается в разработке:

  1. Комплекса программ, позволяющего организовать распознавание символьных последовательностей любого происхождения на основе анализа скрытых марковских "left-to-right" моделей варьируемой продолжительности.

  2. Программного комплекса для распознавания символьных последовательностей путем их сопоставления с эталонными.

  3. Системы первичной обработки нестационарного сигнала, в том числе его описания, сегментации и преобразования в символьную последовательность.

4.Экспериментальной дикторонезависимой системы распозна-

вания изолированных цифр.

Полученные практические результаты позволяют создавать различные дикторонезаоисимые системы. Разработанные алгоритмы и программы могут применяться для обработки сигналов разной природы, например сейсмограмм, электрокардиограмм и электроэнцефалограмм.

Результаты внедрения. Созданные алгоритмы и программы легли в основу канала анализа символьных последовательностей дикторонезависимой системы распознавания изолированных слов, разрабатываемой в рамках темы "Методы и средства построения систем речевого общения", что отражено в отчетах по НИР N У4-03-3509 за 1994, 19S5 и 1996 годы. Комплекс программ и методика их применения переданы на кафедру Систем автоматического управления БГТУ. Результаты работы также нашли применение:

в закрытом акционерном обществе "Автоматизация мониторинга технологий" при разработке перспективных систем, использующих новую форму человеко-машинного взаимодействия посредством голоса;

в Государственном научно-производственном предприятии "Севморгео" при составлении алгоритмов и программ обработки геофизических, и в частности, сейсмических материалов;

в учебном процессе на факультете Систем управления БГТУ.

Апробация работы. Основные результаты работы докладывались на IV Санкт-Петербургской международной конференции "Региональная информатика - 95", Санкт-Петербург, 1995; на II Межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", Пушкин, 1995; на V Санкт-Петербургской международной конференции "Региональная информатика - 96", Санкт-Петербург, 1996; на международном семинаре "Речь и компьютер", Санкт-Петербург, 1998; на научно-технической конференции "Системы управления, конверсия, проблемы", Ковров, 1996; на семинаре кафедры цифровой обработки сигналов Государственного университета телекоммуникаций им. М.А. Бонч-Бруе-вича, Санкт-Петербург, 1996.

Пубджацйи. По материалам диссертации опубликовано 8 печатных работ.

Объем и структура диссертации. Работа состоит из введения, пяти глав, заключения, списка литературы из 87 наименований и четырех приложений. Основная часть изложена на 107 страницах машинописного текста, имеет 8 рисунков и 13 таблиц.