Введение к работе
Актуальность темы. В настоящее время, в силу значительного развития наземных, водных и воздушных транспортных систем, с целью обеспечения их надежной и безаварийной работы большое внимание уделяется оптимизации контроля и управления этими системами. В связи с этим активно ведется разработка технических средств, позволяющих повысить управляемость транспортных систем и снизить нагрузку на оператора (водителя или пилота). В частности, в авиации очень остро стоит вопрос о снижении эмоциональной и физической нагрузки летчиков. В большой степени решению этого вопроса способствует разработка систем, позволяющих осуществлять управление и контроль над бортовым оборудованием с помощью естественного для пилота языка - речевых команд (РК). Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра, системы воздухообеспечения и т.д.). Исследования показывают, что качество распознавания очень сильно зависит от точности определения моментов начала и конца РК. Особенно это важно при распознавании РК по их эталонам, так как в случае неточного определения границ РК их сравнение с эталонами (а границы эталонов определены точно, поскольку они записаны без шума) происходит несогласованно - сопоставляются разные звуки эталона и РК. Поэтому весьма актуальными являются исследования в области обнаружения РК на фоне интенсивных шумов. В системах сотовой связи преимуществом системы кодирования речи GSM является использование того, что в условиях обычного разговора каждый человек в среднем говорит менее чем 40% длительности разговора. При использовании детектора речевой активности система GSM работает в режиме прерывистой передачи. Благодаря тому, что на интервалах тишины не осуществляется передача, экономится заряд аккумулятора. Детекторы речевой активности используются в системах подавления шума, явления эхо, а также в системах голосового набора номера.
Первые работы по обнаружению разладки принадлежат А.Н. Колмогорову, А.Н.Ширяеву и А.Вальду. Большой вклад в решение этой проблемы внесли А.А. Бутов, Э.Л. Пресман, Г.Роббинс, И.В. Семушин, А.И. Яшин и другие. Обнаружению именно речевого сигнала препятствует сложная структура и высокая нестационарность. Этой проблеме посвящены работы Ю. Жао, Ф.Мекурла, О. Мизуно, Д. Нельсона, В.Г. Санникова и других. Однако проведенные испытания предложенных в этих работах алгоритмов показали, что они дают неудовлетворительные результаты на малых отношениях сигнал/шум. Поэтому тема диссертации, направленной на развитие методов обнаружения речевой активности (РА), является актуальной.
Об актуальности темы диссертации свидетельствует ее связанность с направлением ряда научных федеральных программ, в частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.
1,
/
Цель и задачи работы. Целью диссертации является разработка эффективных алгоритмов обнаружения границ РА на фоне интенсивных шумов для повышения качества распознавания РК.
Для достижения поставленной цели решаются следующие задачи:
Математическое моделирование существующих алгоритмов обнаружения РА с целью определения их эффективности;
Разработка более эффективных алгоритмов обнаружения РА и их статистическое моделирование;
Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, математического и статистического моделирования с применением вычислительной техники.
Научная новизна положении, выносимых на защиту.
Методом статистического моделирования определены характеристики PC, использование которых в алгоритмах обнаружения РА дает наилучшие результаты. Построенный на основе этих характеристик комплексный алгоритм позволяет существенно снизить дисперсию ошибки оценки границ РК.
Предложен ряд новых алгоритмов обнаружения РА с использованием двух микрофонов: в одном только шум, в другом шум и речевой сигнал (PC). Наилучший из них, использующий адаптивную калмановскую фильтрацию, на реальных PC и шумах имеет в несколько раз меньшее СКО ошибки, чем одноканальные алгоритмы.
На реальном речевом материале показано, что вероятность правильного распознавания РК можно повысить не только за счет повышения точности определения границ РК, но и за счет согласования оценок границ эталонов и границ распознаваемой РК. Последнее достигается путем повторного применения процедуры обнаружения границ к искусственно зашумленным эталонам.
Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.
Практическая значимость. Представленное описание алгоритмов дает разработчикам возможность их применения при проектировании систем, требующих обнаружения РА в реальном времени, в частности, систем распознавания РК на фоне интенсивных шумов.
Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения.
Апробация работы. Основные результаты работы докладывались на 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007); Международной конференции «Континуальные алгебраические логики, исчисления и нейроииформатика в науке и технике»
(Ульяновск, 2007); 19-й Международной конференции по исследовательским системам, информатике и кибернетике «InterSymp-2007» (Германия, Баден-баден, 2007); 4-й Международной конференции по проблемам прикладной математики и вычислениям «FICAMC-2007» (Болгария, Пловдив, 2007); 8-й Международной научно-техн. конф. PRIA-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 63-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. Л.С.Попова, посвященной Дню радио (Москва, 2008); 9-й Международной научно-техн. конф. PRIA-9-2008 «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (2006-2008 гг.).
Публикации. По теме диссертации опубликовано 12 статей, 3 из них опубликованы в изданиях из перечня ВАК.
Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 108 наименований и приложений. Общий объем 129 страниц.