Введение к работе
Актуальность темы исследований. В связи с широким распространием персональных компьютеров и мобильных устройств сильно возросла роль приложений с поддержкой голосового интерфейса. Голосовой интерфейс на упрощенном естественном языке делает приложения доступнее для слабо подготовленных пользователей В случае компактных мобильных устройств, таких как смартфон и Pocket PC, голосовой интерфейс является наиболее удобным и эффективным из-за малых размеров стилуса, клавиатура и других средств ввода информации.
Также существует ряд приложений, в которых голосовой интерфейс является единственной альтернативой ввода данных (центры обработки вызовов, IP-телефония) или наиболее предпочтителен (например, бортовой компьютер автомобилей).
Точность распознавания слитной дикторозависимой речи, которая обеспечивается современными промышленными системами, достигает 99% (система Dragon Naturally Speaking 9 0) Но существующие стандарты, такие как Voice XML и SAPI не допускают прямого использования многих возможностей естественного языка для управления приложениями Диалоги, которые допустимо создавать при помощи этих интерфейсов, являются жестко фиксированными и не передают гибкость естественного языка
Поэтому в последнее время одной из наиболее актуальных является проблема связи семантического уровня с компонентами распознавания речи и упрощение разработки приложений с голосовым интерфейсом. При реализации новых подходов к созданию систем общения необходимо учитывать наличие множества функционирующих в настоящее время приложений на основе стандарта Voice XML и обеспечить совместимость с ними
Цель работы и задачи исследования
Целью работы является разработка программного комплекса для поддержки разработки приложений с голосовым интерфейсом на упрощенном естественном языке, основанных на современных промышленных стандартах Для достижения поставленной цели в диссертационной работе определены и решены следующие задачи
Анализ подходов к созданию систем общения на упрощенном естественном языке
Разработка методов общения с пользователем на упрощенном естественном языке в рамках основного промышленного стандарта для приложений с голосовым интерфейсом Voice XML
Разработка программного комплекса для создания систем общения на упрощенном естественном языке
Методы исследований
Для решения поставленных задач используются обобщенная теория неопределенности и методы искусственного интеллекта. Реализация разработанных методов проводилась с использованием методов объекто-ориентированного и компонентно-ориентированного программирования.
Научная новизна работы состоит в следующем-
1 Предложен метод использования крупномасштабной базы знаний OMCS как для автоматического расширения существующих приложений с целью поддержки новых команд, так и для использования базы знаний в в процессе адаптации системы общения на упрощенном естественном языке под конкретную предметную область
2. Предложен метод поиска объекта с использованием набора связанных критериев и персонализации Данный метод позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению В основе разработанного метода лежит использование персонализации и обобщенной теории неопределенности
Обоснованность и достоверность научных положений и основных результатов диссертации достигается путем анализа разработок в данной области, тестированием эффективности предложенных методов в составе разработанного программного продукта на основе общепринятой методике и представлением основных теоретических результатов на научных конференциях и в печатных трудах
Практическая ценность работы
Разработанный метод использования знаний из базы OMCS дает возможность улучшать с ее помощью произвольную систему общения, т.к. база содержит общие знания, используемые в диалогах в большинстве предметных областей. Метод был реализован в рамках компонента на распространенной платформе NET и может быть использован в качестве специализированного интерфейса к OMCS для разработчика системы общения.
Задача поиска объектов возникает при разработке любой системы общения, тк. для интерфейса на упрощенном естественном языке поиск является основной операцией, предшествующей их дальнейшей обработке Предложенный в работе метод поиска объекта с использованием ряда критериев и персонализации полезен для систем, которые включают задачи многокритериального поиска объекта на достаточно крупном базовом множестве (более 1000 элементов)
Реализация результатов работы
Разработанные методы были использованы для экспериментальной разработки голосового интерфейса к программному продукту
«Коммуникатор». Данный продукт является частью корпоративной системы компании ЗАО «Таркетт Рус» и предназначен для предоставления удобного интерфейса пользователя к корпоративной телефонии Голосовой интерфейс позволяет организовать в рамках клиентского приложения быстрый запуск часто используемых функций, доступ к которым сложно реализовать при помощи стандартного подхода на основе форм
Также полученные теоретические результаты были использованы для разработки программного продукта «Talk and Drive» компании Ambient Voice Technologies, представляющего собой голосовой интерфейс системы общения на упрощенном естественном языке для бортового компьютера автомобиля
Апробация результатов работы
Основные положения были представлены на Первой Международной конференции "Системный анализ и информационные технологии" САИТ-2005 (ИСА РАН, 2005), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», конференции «Научная сессия МИФИ 2005»
Публикации
Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах
Структура и объем работы