Введение к работе
;
Актуальность темы. Диссертационная работа относится к тому направлению научных исследований, которое принято называть распознаванием образов в системах искусственного интеллекта, а в рамках этого направления - к разделу распознавания речевых сигналов. Большинство известных работ, относящихся к указанному разделу, ориентировало на решение задачи распознавания речевых сигналов в отсутствие помех. Созданные распознающие системы, удовлетворительно оперирующие со словарями до десятков и сотен тысяч слов, когда помехи отсутствуют, оказываются малопригодными в ситуации, когда распознаваемый словарь содержит несколько десятков слов, но голосовое управление сопровождается интенсивными помехами.
Слабая помехозащищенность современных систем распознавания речи сдерживает их применение в тех широко распространенных практических приложениях, для которых голосовое управление каким-либо объектом является средством повышения эффективности и комфортности управления или работы человека. К таким приложениям относятся, например, системы голосозоію управления, устанавливаемые на. борту разнообразных транспортных средств - летательных аппаратов, автомобилей, электропоездов и т.п. В указанных приложениях потребность голосового управления, при использовании весьма небольших по объему словарей, сопровождается жесткими требованиями к помехоустойчивости, а также к габаритам и янергоресурсам устройства распознавания. Последние требования, по существу, являются требованиями минимизации временной и емкостной сложности алгоритмов обработки и распознавания речевых сигналов.
Среди множества возможных помех, имеющих место при применении голосового управления на борту транспортных средств, ключевое место занимают внешние акустические шумы и вибрации. Поскольку к настоящему времени вопросы разработки минимальных по сложности средств речевых информационных технологий, устойчивых к одновременному воздействию фоновых шумов и вибраций, изучены недостаточно, тема диссертационной работы представляется актуальной.
Цель работы и задачи исследований. Целью работы является разработка и исследование алгоритмических и программных средств минимальной временной и емкостной сложности, обеспечивающих решение проблемы распознавания речевых сигналов в условиях одновременного воздействия фоновых шумов н вибраций на человеко-машинную распознающую систему.
Для достижения цели решаются следующие задачи:
- анализ известных способов решения проблемы;
'Работа вып^лн^на в рамках проектов Х*94-("Ч-П0169аи №У7-0]-П0Я'3^6, псдд->р:кр.нных РФФИ.
исследование свойств речевых сигналов, искаженных одновременным воздействием фоновых шумов и вибраций;
исследование устойчивости систем распознавания речевых сигналов к виброискажениям и шумам;
поиск, разработка и исследование алгоритмов обработки речевых сигналов, обеспечивающих устойчивость системы голосового управления к шумам и виброискажениям, и не требующих больших вычислительных затрат,
создание макетов и опытных образцов речевых интерфейсов, реализующих разработанное математическое и программное обеспечение.
Методы исследований. В диссертационной работе использованы методы теории вероятностей и математической статистики, оптимизации и теории графов, распознавания образов и математического моделирования, а также; методы цифровой обработки речевых сигналов. Работа является частью общего направления исследований по созданию средств цифровой обработки речевых сигналов в условиях нелинейных искажений, развиваемого Кельмановым Л.В.
Научная новизна работы состоит в следующем:
1. Диссертация является первой научной работой в области рече
вых информационных технологий, в которой исследованы проблемы
построения минимальных по сложности систем распознавания рече
вых сигналов, способных функционировать в условиях виброискаже
ний сигнала при наличии фоновых помех.
2. В работе представлены приоритетные результаты по исследо
ванию свойств речевых сигналов, образующихся в результате воздей
ствия на человека и его речеобразующий тракт вибраций в диапазоне
частот 5-25 Гц; выяснена степень влияния вибропомех на распознаю
щие системы при различных частотах виброискажений.
3. В диссертации найдено новое решение задачи распознавания рече
вых сигналов, искаженных вибропомехами и фоновыми шумами, осно
ву кошрою (оставляют:
- предложенный способ первичного описания речевого сигнала в ви
де последовательности двоичных векторов, получаемых в результате
дихотомическою кодирования оценок спектральной плотности сигна
ла; найденное, первичное описание, в отличие 01 известных, устойчи
во к ниоропомехам, позволяет компенсировать стационарные фоновые
шумы и г ребус/ примерно в о' раз_меньших затрат по памяти;
- разработанный эффективный алгоритм оценивания двоичных
спектральных признаков при наличии виброномех и фоновых шумов,
в котором сокращение времени вычислений более чем на порядок до
спи ную за счет применения двухгюлупериодного линейного дегекти-
ронания;
- нлюритм распознавания, минимизирующий время принятия реше-
4 і
ния, базирующийся на принципе максимального правдоподобия и методе динамического программирования; в этом алгоритме для ускорения вычислений применяется пошаговая процедура сокращения числа проверяемых гипотез, опирающаяся на методы статистического последовательного анализа.
4. Разработанные алгоритмы: а) обеспечили создание первого в СССР миниспецпроцессора динамического программирования, ориентированного на решение в реальном времени задач распознавания устной речи, б) положены в основу программного обеспечения первого отечественного речевого интерфейса "Сибирь-3", способного с 95%-й надежностью распознавать несколько десятков устных команд в условиях воздействия вибропомех в диапазоне 5-6 и 10-25 Гц, а также шумов интенсивностью 115 дБ, в) являются ядром портативного устройства сбора и обработки геодезической информации, управляемого при помощи голоса.
Практическая ценность результатов работы состоит в том, что предложенное в ней алгоритмическое и программное обеспечение позволяет создавать более совершенные продукты в области речевых технологий, сохраняющие свою работоспособность при наличии виброискажений и внешних акустических шумов. Повышение помехоустой-чипости систем распознавания позволило расширить круг применения устройств голосового управления.
Разработанное математическое обеспечение является составной частью помехоустойчивых систем распознавания, внедренных в ряде организаций России, Словакии, Монголии, Латвии. Наиболее значимыми являются внедрения результатов на предприятиях: АНПК "МИГ" им. Микояна, ГосНИИАС, НЭЦ АУВД ГА, ТОО "Пеленг".
Связь с государственными программами и НИР. Работы по теме диссертации проводились в рамках следующих НИР, выполненных по Правительственным постановлениям: "СЕРГАЧ-САНДОМИР" (1984-1987гг), "КАРАУЛ-РВО" (1986-1990гг), "СЕВЕЖ-2-МАП" (1986-1989гг), "СУМЫ-1-МО" (1986-1989 it), "КИСЕТ-ОБ" (1989-1993 гг), "КАЗУАР" (1991-1995 гг), "ЧИНАРА-СО" (1994-1996 гг). Часть исследований выполнена в соответствии с координационными планами АН СССР, РАН и Минвуза (Ж№>Гос.рег. 78005359, 78053888, 01826001234, 01870014595). Кроме того, проведение работ осуществлялось по плану ГКНТ СССР - МНВШ и ТП "Перспективные информационные технологии" (конкурсные проекты "ОБЩЕНИЕ" и "ГОЛОС"), и при поддержке РФФИ (проекты №94-01-00169-а и №97-01-00866).
Апробация работы. Защищаемые результаты автора были отмечены: в составе системы распознавания речи "Сибирь-1", демонстрировавшейся на ВДНХ СССР - как системы, показавшей абсолютно лучший результат по распознаванию "тяжелых" словарей в соревновании с
отечественными аналогами (I!)s3i.l; в госта не помехоустойчивых речевых интерфейсов і системы распознавания речи "Сибирь-'J" и "Сибирь 3") - Дипломом '_'-и степени в конкурсе прикладных работ СО ЛН <.'< -СР |19*Нг); в перечне важнейших прикладных результатов Института математики СО РАН (lil^iir); в составе комплекса научных разработок ИМ СО РАН - ОСНОВНЫМ призом - компьютером VKCTRA/IHfJ - в конкурсе алгоритмов распознавания, проведенном фирмой IIKWI.H'iT-РЛСКАКН (США), среди научных коллективов СССР (1992г); и составе помехоустойчивого речевого интерфейса - малой ЗОЛОТОЙ медалью на Международной выставке-ярмарке "Сибробот-93" (1993г).
Результаты работы докладывались на четырех Международных, семи Всесоюзных и Российских симпозиумах и конференциях, а также обсуждались на научных семинарах Института математики СО РАН, Вычислительного центра СО РАН, Института кибернетики АН Украины, Института технической кибернетики АН Беларуси, Института кибернетики АН Чгтонни. Московского и Новосибирского Государственных униворапетов, Каунасского Политехнического института.
Личный пк;іад. Соискателю принадлежит разработка, обоснование, исследование и практическая реализация минимального но сложности алгоритмического и программного обеспечения человеко-машинной сиси'мы распознавания речевых команд, устойчивой к одновременному воздействию фоновых шумов и вибраций. Создание макетов и опытных образцов речевых интерфейсов выполнено совместными усилиями сотрудников ИМ СО ['ЛИ и ИГУ при непосредственном участии автора.
Публикации. Результаты исследований изложены в 33 работах, включая 9 оїчеіоіі по поисковым и научно-исследовательским работам.
На защиту lil.llliii » іся:
J. Совокупность результатов исследований свойств речевых сигналов, искаженных виброномехами, и результатов исследований помехо-.усюйчивосіи человеко-машинной системы распознавания при одновременном воздействии на нее внешних акустических помех и вибраций.
2. Комплекс, научно-технических средств, обеспечивший создание и внедрение действующих речевых интерфейсов к интеллектуальным системам, включающий:
маїематическое и программное обеспечение системы распознавания речевых сигналок, устойчивое к одновременному воздействию фоновых шумов и вибраций;
новые конструктивные решения функциональных блоков распо-ліанішей сік'ісмьі и набор технологических приемов, направленных на реали іацию работы алгоритмов в реальном времени на процессорах с малой производительностью.
ииы'м и структура работы. Диссертационная работа изложена
на 1Г)5 страницах и состоит in введения, четырех глав, заключения и двух приложений. Основной текст занимает 123 страницы, приложения - 31 страницу. Иллюстративный материал включает 27 рисунков и одну таблицу. Список литературы состоит из ІВД наименовании.