Введение к работе
Актуалънось темы дисертации. Одаовременно с ростом числа и объема задач, решаемых с помощью ЭВМ, все острее ощущаются недостатки традиционных форм человеко-машинной коммуникации, все заметнее несоответствие между огромной производительностью ЭВМ и чрезвычайно низкой эффективностью традиционного ручного ввода, все больше осознается необходимость организации более естественного диалога с ЭВМ. В этом плане большие перспективы имеет речевая форма диалога с машиной за счет ряда преимуществ таких, как высокая скорость и точность ввода в естественной и удобной форме, высвобождение рук и зрения пользователя, возможность управлять в экстремальных условиях, сокращение сроков подготовки специалистов по автоматизированному управлению. Возникает, наконец,.принципиальная возможность постепенного отказа or различных языков-посредников между человеком и машиной и восстановления законного статуса естественного языка как универсального средства выражения целей и желаний человека Таким образом, создание средств автоматического распознавания и понимания речи является важной народнохозяйственной проблемой, которая призвана резко повысить эффективность труда в в самых различных сферах деятельности.
Значительный вклад в решение данной проблемы внесли такие организации,как ИМ СО РАН, ИК АН Украины, НИИ Счетмаш, ВЦ РАН, ШЛИ РАН и др.
Надо сказать, что созданные на сегодняшний день прототипы и модели речевого ввода значительно уступают по основным параметрам речеслуховой системе человека, особенно при вводе фраз. Надежность ввода фраз оказывается ниже надежности слов (по известному закону перемножения вероятностей). Человек, напротив, демонстрирует надежность восприятия фраз выше, чем слов, что говорит о значительных неиспользуемых резервах речи и слуха.
Основной причиной, сдерживающей дальнейшее развитие и внедрение средств речевого диалога с машиной является недостаток знаний о процессах речевой коммуникации, недостаточное развитие моделирования процессов распознавания, понимания и смысловой интерпретациии речи. Следовательно, для осуществления эффективного речевого управления на первый план выступает
проблема адекватного представления и совместной обработки разнородной речевой и неречевой информации для обеспечения надежной и устойчивой связи человека с машиной в реальных условиях.
При распознавании смысла устного высказывания основную трудность представляет процесс согласования входной информации с различными видами априорной информации (например, акустической, лексической, синтаксической, семантической, прагматической ) в условиях существенной неопределенности. Созданные на сегодня модели как правило используют на низших уровнях вероятностно-статистические процедуры, хорошо зарекомендовавшие себя в теории распознавания речи, и на высших уровнях (синтаксис, семантика, прагматика) - детерминированные, типичные для работ в области машинной лингвистики. Но последние плохо согласуются с мягкой (размытой, нечеткой, вероятностной) природой языка и речи,что и не позволяет достичь нужного эффекта в ходе распознавания смысла. Положение усугубляется отсутствием объективных критериев качества алгоритмов и систем понимания речи (как и систем искусственного интеллекта вообще).
Целью данной работы явилось создание методов смысловой интерпретации фраз в управляющих человеко-машинных системах за счет объединения компонентов знаний из различных научных областей на единой непротиворечивой основе.
Для достижения этой цели в работе решаются следующие конкретные задачи:
создание концептуальной основы для адекватного представления речевого сообщения и синтеза алгоритмов, имитирующих распознавание смысла сообщения;
разработка комплекса взаимосогласованных моделей речевого сообщения, процессов его разноуровневой обработки (акустико-лексической, синтаксической, семантический, прагматической) и интеграции этих уровней;
разработка методов объективной оценки эффективности систем распознавания смысла фраз;
решение узловых вопросов внедрения разработанных методов о практику речевого управления устройствами, системами и процессами.
Основными источниками знаний о природе речи и слуха явились психология, психоакустика, лингвистика.
Методы исследований. При решении перечисленных задач в данной диссертации использованы методы теории информации (в частности, теории избыточных структур и корректирующих кодов), теории динамического программирования, теории разборчивости речи, системного анализа, теории машинного моделирования, методологии экспертных систем.
Научная новизна работы заключается в следующем:
-
Создана концептуальная модель речевого сообщения как естественного многоуровневого корректирующего кода, позволяющего за счет естественной избыточности устойчиво передавать смысл сообщений в условиях значительных разнородных дестабилизирующих факторов. Модель опирается на статистические закономерности теории разборчивости речи и теорию избыточного кодирования и дает адекватный методический подход к решению задач.
-
Предложена и исследована модель сквозного понимания речи для стадии смысловой интерпретации. Модель позволяет:
объединить разнородные источники априорной речевой и вне-речевой информации на основе интегрального критерия качества гипотез за счет взвешенного суммирования частных показателей;
существенно повысить точность интерпретации фраз за счет отказа от концепции "послойного разбора" в пользу интегральной обработки.
2.1. В качестве одного из наиболее важных компонентов
модели сквозного понимания предложен и исследован метод
ассоциативной семантико-синтаксической обработки речи
как альтернатива принципу "исчисления высказываний", что
позволяет:
включить семантико синтаксический компонент в интегральную оценку гипотез наряду с акустико-лексическим и прагматическим компонентами,
для каждого альтернативного высказывания получить количественную меру семантико-синтаксического соответствия;
упорядочить гипотезы по их качеству;
корректно ограничивать множество гипотез, подлежащих интегральной оценке.
2.2. В качестве одного из неотъемлемых компонентов моде
ли сквозного понимания предложен и исследован метод
прагматической обработки речи на основе согласования гипотез с текущей деловой ситуацией, помещеной в более широкий ситуативный контекст, что позволяет:
включить прагматический компонент в интегральную оценку гипотез;
для кавдого альтернативного высказывания получить меру прагматического соответствия;
упорядочивать гипотезы по данному критерию;
ограничивать множество гипотез.
Вопросы, выносимые на защиту
-
Концепция квантитативного метода распознавания смысла фраз на базе феномена сквозного понимания, позволящая на единой количественной основе решать задачи представления и совместной обработки разнородной речевой и неречевой информации;
-
Комплекс взаимосвязанных моделей, построенных в рамках этой концепции, включающий в себя:
-
Модель речевого сообщения как естественного многоуровневого корретирущего кода;
-
Модель процесса смысловой интерпретации фраз на основе феномена сквозного понимания, включающая в себя:
метод интеграции разнородных знаний;
модель акустико-лексического уровня;
модель семантико-синтаксического уровня на основе механизма ассоциаций;
модель прагматического уровня на основе ситуативного представления предметной области;
3. Критерии качества алгоритмов распознавания смысла фраз.
Достоверность научных положений , выводов и практических рекомендаций подтверждается их реализацией в моделях и системах, хорошей согласованностью результатов машинного моделирования с расчетными данными, полученными на основе аналогий со слуховой системой человека.
Практическая ценность работы
1. Разработаны принципы построения систем речевого управления на базе модели сквозного понимания, позволявшие сущест-
венно улучшить основные параметры устройств речевого ввода за счет интегральной обработки разноуровневой информации и более адкватного представления этой информации.
-
Разработаны архитектурные решения и комплекс программ для реализации моделей и систем сквозного понимания, ориентированные на персональные ЭВМ и сопроцессоры.
-
Сформулированы требования к методу проектирования промышленных систем смысловой интерпретации речи на основе проведенного анализа затрат машинных ресурсов, необходимых для реализации задач различной сложности.
-
Разработаны алгоритмы и программы заполнения ситуативной базы данных, позволяющие оперативно адаптировать модель или систему речевого управления к данной предметной области.
-
Разработаны алгоритмы и программы заполнения ассоциативной базы данных, позволявдие оперативно адаптировать модель и систему к предметно-ограниченному языку заданной предметной области.
-
Предложены методики объективной оценки качества смысловой интерпретации, позволяющие оценить степень улучшения системы за счет привлечения информации высокого уровня.
Реализация результатов работы Основные научные результаты работы реализованы под руководством и при участии автора в виде действующих программно-аппаратных моделей, включающих аппаратные средства (для предварительной обработки речевого сигнала и сравнения образов) и программные комплексы (для решения в целом задач смысловой интерпретации речи). Они реализованы в ряде работ:
-
В работе, проходившей в ЛЖАН в 1986-1988 гг. согласно Распоряжению Президиума АН СССР от 23.01.86 А 10103-137 "Разработка и проведение испытаний в составе опытной зоны Академсети системы речевого диалога пользователя в информационно-вычислительных сетях",которая показала, в частности, что предложенные метода ввода речи в 5-10 раз снижвют вероятность ошибки интерпретации по сравнению с традиционными решениями.
-
В Институте физиологии РАН для задач автоматизации научного эксперимента.
-
В стендово-моделирующем комплексе кабины самолета для эргономических исследований процессов речевого управления в
НИИ авиационного оборудования, где также подтверждены теоретические положения о высокой надежности ввода управляющих фраз.
-
В системе информационной поддержки оператора в составе стенда управления энергетическим объектом в Научно-исследовательском конструкторском институте энергетической техники, где подтверждена высокая точность ввода фраз и установлено сокращение в 2-3 раза затрат труда на формализацию знаний о языке диалога в заданной предметной области.
-
На основе материалов данной работы поставлен специальный курс лекций и лабораторный стенд в Санкт-Петербургском электротехническом университете.
Практическое использование результатов диссертационной работы подтверждено документами о внедрении.
Апробация работы. Основные результаты работы были доложены на IX, XIY, XY.XYI Всесоюзных семинарах "Автоматическое распознавание слуховых образов" (Минск, 1976 г., Каунас, 1986 г., Таллинн, 1989 г., Суздаль-Москва, 1991 г.), на ІУ Всесоюзной конференции "Диалог человек-ЭВМ" (Киев, 1985 г.), YIII Всесоюзной конференции "Планирование и автоматизация эксперимента" (Ленинград, 1986 г.) Всесоюзном совещании по проблеме автоматического распознавания и^синтеза речи (Киев, 1988 г.), на Международном симпозиуме "Информатика 1989" (Минск, 1989 г.), 4-й Всесоюзной конференции "Математические методы распознавания образов" (Рига, 1989 г.), 5-м Ленинградском симпозиуме "Адаптивные и экспертные система в управлении" (1991 г.), Германской акустической конференции DAGA 94, Международной конференции "Региональная информатика" РИ-94 (Санкт-Петербург, 1994 г.).
Публикации. В изданиях, ^рекомендуемых ВАК для опубликования научных результатов докторских диссертаций, непосредственно по теме диссертации опубликовано более 30 печатных работ, в том числе одна монография.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав,4 заключения, списка использованной литературы, включающего 89 работ отечественных и зарубежных авторов ' и приложений. Объем работы 220 стр. текста, из них рисунки ж список литературы на 20 стр.