Введение к работе
Актуальность темы. В настоящее время большое распространение имеют различные информационно-управляющие системы. Эти системы особенно удобны, когда оператор может общаться с ними естественным для себя образом -на родном языке с помощью речевых команд (РК). Поэтому большое внимание исследователей уделяется созданию речевых информационно-управляющих систем (РИУС). Такие системы особенно полезны на транспорте и производстве, когда требуется управлять исполнительными механизмами, получать информацию об их состоянии и окружающей обстановке и снизить нагрузку на оператора. Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра и т.д.). Поэтому актуальны исследования в области распознавания РК на фоне сильных шумов. В настоящее время существуют системы распознавания РК, работоспособные при малых шумах, однако они не пригодны в шумной среде. Те же системы, которые рассчитаны на работу в условиях интенсивных шумов, относятся, в основном, к закрытым военным разработкам, и, судя по доступным сведениям, не вполне удовлетворяют требованиям пользователей. В связи с этим распознавание РК на фоне шумов остаётся важной научно-технической проблемой.
В условиях сильных шумов обычно применяется дикторозависимое распознавание РК с использованием библиотеки эталонов речевых команд (ЭРК), и, как показывают эксперименты, качество распознавания в существенной мере зависит от того, насколько удачно сформирована эта библиотека.
Эта библиотека должна отражать изменчивость (вариативность) произнесения РК и не быть слишком большой, то есть каждая РК не должна иметь много эталонов. Задача выбора эталонных элементов рассматривается в теории распознавания образов и имеет много общего с задачей кластеризации (тогда эталоны - центры кластеров). Однако задача кластеризации рассматривалась, в основном, для элементов в некотором пространстве количественных признаков. Центр кластера (эталон) при этом обычно не является элементом этого кластера, это какой-то усреднённый элемент. В то же время существуют работоспособные алгоритмы распознавания РК, для которых не удается указать евклидово пространство признаков. В таких алгоритмах для каждой пары РК некоторым образом вычисляется степень их «несхожести», то есть некоторое подобие метрики (расстояния) между этими РК. Алгоритм относит распознаваемую РК к ближайшей ЭРК в смысле этой метрики. Поэтому актуальной задачей является разработка методов формирования библиотеки ЭРК для таких алгоритмов распознавания. Особенность здесь в том, что заданы только расстояния между РК и в качестве эталонов можно брать только начитанные РК.
При проектировании РИУС иногда бывает возможным выбор словаря, то есть самих РК из множества допустимых синонимов. Отсюда возникает задача оптимизации этого словаря.
Таким образом, тема диссертации, связанной с повышением качества работы РИУС за счёт оптимизации словаря и библиотеки ЭРК, является актуальной.
Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение. В частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.
Целью диссертации является разработка методов, алгоритмов и программного обеспечения формирования словаря и библиотеки ЭРК, повышающих качество распознавания РК в условиях интенсивных шумов, а также моделирование процесса распознавания РК со сформированными библиотеками ЭРК.
Для достижения поставленной цели решаются следующие задачи.
- Исследование влияния состава библиотеки ЭРК на качество распознавания
РК.
Разработка модели, адекватно описывающей вариативности речи и позволяющей имитировать множество произнесений РК из одного её произнесения диктором.
Исследование различимости фонем русского и английского языков с использованием полученных данных для формирования словаря РК из допустимых синонимов.
Исследование различимости РК алгоритмически и на слух в зависимости от уровня вариативности РК и интенсивности шумов.
Разработка алгоритмов формирования словаря РК.
Разработка алгоритмов формирования библиотеки ЭРК, учитывающей вариативность произношения и соотношения между различными РК.
Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.
- В диссертации также рассмотрена задача, связанная с обучением операторов
и других учащихся иностранным языкам. Если обучение проводит один
преподаватель, то учащиеся привыкают к его произношению и в последствии не
сразу воспринимают иностранную речь других людей, что было, в частности,
причиной авиакатастроф. Предложено устранение этого недостатка обучения с
помощью моделей вариативности речи.
Отметим, что в задачи диссертации не входит разработка или совершенствование самих алгоритмов распознавания РК. Целью является повышение качества распознавания заданного алгоритма за счёт рационального выбора словаря и библиотеки эталонов.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, оптимизации, математического анализа, численные методы, математическое и статистическое моделирование с применением вычислительной техники.
Научная новизна положений, выносимых на защиту.
Состав библиотеки ЭРК очень сильно влияет на качество распознавания РК -диапазон изменения вероятности правильного распознавания достигает десятков процентов. Поэтому следует оптимизировать эту библиотеку для повышения вероятности правильного распознавания.
Предложенная модель вариативности речи позволяет получать варианты произнесения РК из одного её произнесения диктором.
Проведенные исследования различимости фонем русского и английского языков позволяют определять различимость РК, что позволяет оптимизировать формирование словаря команд из множества допустимых синонимов.
Разработанные алгоритмы формирования словаря и библиотеки РК обеспечивают вероятность правильного распознавания более высокую по сравнению со случайным формированием.
Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.
Практическая значимость. Предложенные алгоритмы и реализующие их программы дают разработчикам РИУС возможность повысить надежность систем распознавания РК на фоне интенсивных шумов за счет рационального выбора словаря и библиотеки эталонов РК. Предложенный метод обучения с использованием моделей вариативности речи позволяет ускорить процесс понимания иностранной речи, произносимой разными людьми.
Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения.
Апробация работы. Основные результаты работы докладывались на 2-й Международной конф. «ICCSA'2006» (UK, Glasgow, 2006); 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007); 8-й Международной научно-техн. конф. PRIA-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 62-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященной Дню радио (Москва, 2007); и на ежегодной конференции профессорско-преподавательского состава Ульяновского государственного университета в 2006 г.
Публикации. По теме диссертации опубликовано 9 статей, одна статья опубликована в издании из перечня ВАК.
Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 112 наименований и приложения. Общий объем 138 страниц.