Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование и распознавание речевых сигналов на фоне интенсивных помех Армер Андрей Игоревич

Моделирование и распознавание речевых сигналов на фоне интенсивных помех
<
Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех Моделирование и распознавание речевых сигналов на фоне интенсивных помех
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Армер Андрей Игоревич. Моделирование и распознавание речевых сигналов на фоне интенсивных помех : диссертация ... кандидата технических наук : 05.13.18.- Ульяновск, 2006.- 168 с.: ил. РГБ ОД, 61 06-5/2783

Содержание к диссертации

Введение

Глава 1. Методы представления, моделирования, обработки и распознавания речевых сигналов 7

1.1. Слуховое восприятие 7

1.2. Система речеобразования и фонетический состав речи 10

1.3. Способы представления PC 16

1.4. Представление помех 19

1.5. Модели PC 22

1.6. Задачи обработки PC 27

1.7. Улучшение качества PC 29

1.8. Задачи распознавания PC 32

1.9. Проблемы в области распознавания РК 34

1.10. Методы распознавания РК 39

1.10.1. Спектральные методы распознавания РК 39

1.10.2. Методы, основанные на вейвлет-анализе 42

1.10.3. Статистические методы распознавания РК 45

1.10.3.1. Методы распознавания РК, основанные на использовании скрытых марковских цепей 45

1.10.3.2. Распознавание РК с использованием нейронных сетей 47

1.10.4. Методы распознавания РК, основанные на обработке изображений 49

1.10.5. Выбор метода распознавания РК 51

1.11. Способы повышения помехоустойчивости распознавания РК 51

1.12. Выводы 56

Глава 2. Моделирование изменчивости PC 57

2.1. Постановка задачи 57

2.2. Анализ изменчивости PC 58

2.2.1. Статистические характеристики изменчивости длительности произнесения PC 63

2.2.2. Статистические характеристики изменчивости громкости произнесения PC 67

2.2.3 Статистическое исследование непостоянства количества квазипериодов в вокализированных фонемах PC 70

2.2.3.1. Статистические исследования количества квазипериодов в произнесениях фонем 73

2.3. Моделирование изменчивости PC с использованием авторегрессионных моделей 75

2.3.1. Создание вариантов PC с помощью двумерной модели Хабиби 75

2.3.2. Моделирование вариантов PC вдоль строк изображения, полученного двумерной моделью Хабиби 79

2.3.3. Моделирование вариантов PC вдоль траектории на изображении, полученном двумерной моделью Хабиби 83

2.3.4. Определение параметров авторегрессионных моделей вариативности PC 87

2.4. Получение вариантов РК с помощью управления количеством квазипериодов в фонемах 90

2.5. Анализ акустического восприятия моделируемых вариантов PC 93

2.6. Использование моделей вариативности при статистическом различении РК 95

2.7. Выводы 102

Глава 3. Распознавание PC на фоне интенсивных шумов 103

3.1. Постановка задачи 103

3.2. Статистическое обнаружение и распознавание сигналов на фоне шумов 104

3.2.1. Обнаружение сигналов на фоне шумов 105

3.2.2. Зашумление эталонов при распознавании сигналов на фоне шумов 108

3.3. Распознавание PC через преобразование их в автокорреляционные портреты 112

3.3.1. Построение АКП PC 112

3.3.2. Свойства АКП PC 114

3.3.3. Взаимные искажения АКП, связанные с различным произнесением PC 118

3.3.4. Построение АКП по характерным точкам PC 121

3.3.5. Совмещение АКП 125

3.3.6. Совмещение АКП с использованием алгоритма динамического программирования 128

3.4. Распознавание PC на фоне шумов через преобразование их в АКП 133

3.4.1. Использование зашумленных эталонов при & распознавании АКП PC 134

3.5. Выводы 137

Глава 4. Программный комплекс и статистическое исследование алгоритма распознавания РК 139

4.1. Введение 139

4.2. Алгоритм распознавания РК на фоне шумов с использованием зашумления эталонов 140

4.2.1. Обнаружение границ РК 140

л 4.2.2. Зашумление эталонов 141

4.2.3. Построение АКП РК 142

4.2.4. Совмещение АКП 143

4.2.5. Принятие решения о принадлежности РК одному из классов эталонов 145

4.2.6. Графический интерфейс комплекса программ для распознавания РК на фоне шумов на ЭВМ 146

4.3. Статистические исследования алгоритма распознавания РК на фоне шумов 148

4.3.1. Статистическое исследование алгоритма на имитированном речевом материале 148

4.3.2. Статистическое исследование алгоритма на реальном речевом материале 149

4.4. Вычислительные затраты и аппаратные требования при

функционировании комплекса программ распознавания РК на фоне

шумов 151

4.4.1. Расчет времени распознавания РК 151

4.4.2. Аппаратные требования для системы распознавания РК на фоне шумов «Говорун» 152

4.4.3. Аппаратные требования для системы «Редактор речевых команд» 153

4.5. Выводы 153

Заключение 154

Список использованных источников 155

Приложение. Акт внедрения результатов диссертационной работы 163

Введение к работе

В настоящее время в силу значительного развития наземных, водных и воздушных транспортных систем с целью обеспечения их надежной и безаварийной работы большое внимание уделяется оптимизации контроля и управления этими системами. В связи с этим активно ведется разработка технических средств, позволяющих повысить управляемость транспортных систем и снизить нагрузку на оператора (водителя или пилота). В частности, в авиации очень резко стоит вопрос о снижении эмоциональной и физической нагрузки летчиков. В большой степени решению этого вопроса способствует разработка систем, позволяющих осуществлять управление и контроль над бортовым оборудованием с помощью естественного для пилота языка - речевых команд (РК). Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра, системы воздухообеспечения и т. д.). Поэтому весьма актуальными являются исследования в области распознавания РК на фоне интенсивных шумов. Развитие методов моделирования речи и речевых сигналов (PC) и, кроме того, разработка эффективных методов повышения помехоустойчивости распознавания РК в значительной степени способствует созданию надежных алгоритмов распознавания РК на фоне помех. Существуют системы распознавания, предназначенные для работы в условиях с пониженным шумом, однако они не выполняют своей функции в шумной среде кабины транспортного средства. Те же системы, которые рассчитаны на работу в условиях интенсивных шумов, относятся, в основном, к закрытым зарубежным военным разработкам. В связи с этим распознавание РК на фоне шумов является актуальной задачей.

Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение, в частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, конкурс на проведение фундаментальных научных исследований по областям знаний «Навигация, наведение и управление подвижными объектами», «Теория человеко-машинных систем управления» РФФИ и др.

Цель и задачи работы. Целью диссертации является разработка эффективных методов распознавания РК на фоне интенсивных шумов, построение алгоритмов и программ для ЭВМ, реализующих эти методы.

Для достижения поставленной цели решаются следующие задачи.

- Исследование характеристик изменчивости PC, являющейся одним из основных факторов, мешающих распознаванию РК.

- Разработка математических моделей изменчивости PC.

- Разработка методов снижения влияния шума на качество распознавания РК.

- Развитие алгоритмов распознавания РК, представленных в виде изображений.

Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.

Методы исследования. При решении поставленных задач применялись методы теории статистических решений, теории вероятностей, математической статистики, теории обработки изображений, методы оптимизации, математического анализа, математического и статистического моделирования с применением вычислительной техники.

Научная новизна положении, выносимых на защиту.

1. Впервые был предложен подход к моделированию изменчивости PC.

2. Разработан ряд авторегрессионных моделей изменчивости PC, применение которых позволяет имитировать варианты произнесения исходного PC. Использование данных моделей позволяет получить речевой материал для отладки и тестирования алгоритмов распознавания РК.

3. Предложен метод статистического различения РК, использующий модель изменчивости PC.

4. Получена новая форма записи отношения правдоподобия (ОП) при обнаружении или распознавании сигналов на фоне шумов. Данная форма ОП приводит к новому методу снижения влияния шума на качество обнаружения или распознавания, основанному на зашумлении эталонов.

5. Разработан новый метод построения автокорреляционных портретов (АКП) PC по характерным точкам (XT) сигнала, впервые применен метод динамического программирования при совмещении АКП.

Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.

Практическая значимость. Представленное описание алгоритмов дает разработчикам возможность их применения при проектировании надежных систем распознавания РК на фоне интенсивных шумов. Предложенный метод снижения влияния шума на качество обнаружения или распознавания сигнала может быть использован не только при распознавании РК на фоне шумов, но и в фазометрии, навигации и т. д.

Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета, в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения, а также используются в учебном процессе УлГТУ в курсе «Основы теории обработки изображений». По результатам работы получен патент РФ «Устройство распознавания речевых команд в условиях шумов» и получено положительное решение на получение патента РФ «Способ измерения фазового сдвига в условиях интенсивных помех».

Апробация работы. Основные результаты работы докладывались на 4-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2004); 7-й Международной научно-техн. конф. «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург, 2004); 2-й Международной конф. «Автоматизированный контроль и информационные технологии, IASTED 2005» (Новосибирск, 2005); Международной научно-техн. конф. «Next generation concurrent engineering, CE-2005» (USA, Lubboc, 2005); Международной конф. «ICCSA 2006» (UK, Glasgow, 2006); Международной конф. «Континуальные алгебраические логики, исчисления и нейроинформатика в науке и технике» (Ульяновск, 2006) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (2004-2006 гг.). •» Публикации. По теме диссертации опубликовано 12 печатных работ, в том числе 10 статей, 1 доклад на конференции и 1 патент на изобретение. д.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 119 наименований. Общий ,. объем 168 страниц.

В первой главе делается краткий обзор методов представления, моделирования и обработки PC. Дается обзор основных методов распознавания РК, методов, повышения помехоустойчивости систем распознавания РК. Определяются основные факторы, мешающие автоматическому распознаванию РК на фоне шумов.

Во второй главе представлены результаты исследования основных характеристик изменчивости PC. На основании результатов исследования изменчивости PC предлагается ряд авторегрессионных моделей изменчивости PC. Получен метод статистического различения РК с использованием моделей изменчивости PC.

Третья глава посвящена распознаванию РК на фоне шумов. Получен новый способ записи ОП при обнаружении или распознавании сигнала, приводящий к методу снижения влияния шума на качество распознавания РК, основанному на зашумлении эталонных РК. Развит метод распознавания РК, основанный на построении и совмещении АКП PC. Предложен новый способ построения АКП PC по XT. Предлагается при совмещении АКП PC использовать метод динамического программирования.

В четвертой главе предлагается описание полученного алгоритма распознавания РК на фоне интенсивных помех. По полученному алгоритму создан комплекс программ для ЭВМ, реализующий распознавание РК на фоне интенсивных помех. Приводятся результаты статистического исследования распознавания РК. Представлены результаты статистического исследования как на моделированном речевом материале, так и на реальных РК, произносимых диктором в реальном времени.  

Система речеобразования и фонетический состав речи

Из работ, посвященных физиологии человеческого речеобразования [78, 63, 72] известно, что система речеобразования является сложным комплексом органов, связанным с центральной нервной системой и охватывающим дыхательную систему, голосовой и носовой тракт.

Голосовой тракт человека (рис. 1.2) состоит из гортани и рта, начинается с прохода между голосовыми связками, называемого голосовой щелью, заканчивается у губ. Длина голосового тракта зависит от пола и возраста человека (у взрослого мужчины примерно 17 см). Площадь поперечного сечения голосового тракта переменна, она зависит от положения губ, языка, челюстей и небной занавески, изменяется от нуля (тракт полностью перекрыт) до примерно 20 см. Голосовая щель является первичным преобразователем воздушного потока. За счет изменения формы и напряжения голосовых связок происходит формирование звуковой волны с определенными акустическими свойствами, основные изменения которой происходят в голосовом тракте. Дыхательная система, включающая в себя легкие, бронхи, трахею - служит источником энергии для образования речи. Речь, таким образом, представляет собой акустическую волну, которая образуется при выталкивании воздуха из легких и затем изменяется в голосовом и носовом тракте. Носовой тракт начинается у небесной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость становится соединенной с голосовым трактом и участвует в образовании звуков речи.

В зависимости от степени влияния определенных частей речеобразующей системы на формирование звуков их можно классифицировать по различным группам [63]. Все звуки речи могут быть разделены на три четко выраженных класса по характеру их формирования: вокализированные звуки, фрикативные или невокализированные звуки и взрывные звуки.

Вокализированные звуки образуются при прохождении воздуха через голосовую щель одновременно с изменением ее параметров. При этом периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт. В силу своей природы вокализированные звуки имеют явно квазипериодический состав.

Фрикативные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. В голосовом тракте формируется источник широкополосного шума, образующий фрикативные звуки. При этом голосовые связки могут либо участвовать, либо не участвовать в образовании фрикативных звуков. Образованные при участии голосовых связок фрикативные звуки, также как и вокализированные звуки, имеют квазипериодическую структуру.

При образовании взрывных звуков голосовой тракт полностью закрывается (обычно в начале голосового тракта). Вследствие чего в голосовом тракте возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается.

Символическая информация, содержащаяся в речи, представлена языком (например русским, английским и т.д.), который в свою очередь описывается набором отдельных фонем [87]. В частности, в русском языке насчитывается 43 фонемы (таблица 1.1). Условно все фонемы русского языка делятся на две группы - гласные и согласные, и по характеру образования на классы губно-губные, губно-зубные, переднеязычные, заднеязычные, среднеязычные. Внутри групп также по характеру образования выделяют: среди гласных - верхние, нижние, средние; среди согласных - смычные, носовые, аффрикаты, фрикативы (шумные), сонанты (сонорные).

Статистические характеристики изменчивости длительности произнесения PC

Рассматривая, например, варианты произнесения РК «высота», можно заметить, что при изменении общей длительности некоторого варианта произнесения, длительность его участков, соответствующих фонемам, изменяется неравномерно. Например, при общем уменьшении длительности РК, длительность ударной вокализованной фонемы может увеличиться, а длительность остальных фонем уменьшиться. Для определения общих тенденций временных изменений произнесения PC необходим анализ реальных PC многократно произнесенных диктором. В частности, статистический анализ длительностей фонем в произнесениях отдельных слов дает сведения об общем поведении длительности произнесения. Статистические сведения о характеристиках изменчивости произнесения PC в дальнейшем могут быть использованы при построении модели вариативности PC.

Для определения статистических характеристик изменчивости длительности произнесения PC были проведены исследования произнесений всевозможных фонем русского языка. При этом материалом для исследования был набор слов, произнесения которых содержат все фонемы, встречающиеся в русском языке. Фонемы были классифицированы по пяти группам: гласные фонемы, согласные взрывные, согласные аффрикаты, согласные шипящие и звонкие согласные. Путем анализа определялись следующие характеристики: статистическое распределение длительностей произнесений фонем; оценки математического ожидания длительностей произнесений фонем; оценки дисперсии длительностей произнесений фонем. Все данные о статистическом распределении, математическом ожидании и дисперсии определялись отдельно для каждого вида произнесения фонемы. В эксперименте участвовали пять дикторов - два женских голоса и три мужских. Всего дикторами было произведено в среднем по семьдесят произнесений каждого слова, содержащего произнесение отдельной фонемы. Результаты статистического исследования представлены в таблице 2.1.

Анализ полученных данных выявил следующие характеристики. Длительности звуков распределены близко к нормальному закону. Оценки математических ожиданий т длительностей звуков изменяются в пределах от 0,042 до 0,429 сек. Оценки дисперсий звуков а2 изменяются в пределах от 0,0000228 до 0,0033. При этом отношение /л = а/т колеблется в пределах от 0,064 до 0,198 и в среднем равно /7 = 0,12. Поэтому можно считать отношение ju одинаковым для всех фонем, что делает возможным использование значения /7 = 0,12 при имитировании изменчивости длительности любых звуков, не выделяя из них определенных групп.

Полученная информация о статистических распределениях, а также определенные в результате исследования числовые значения далее будут использованы при моделировании изменчивости PC.

Замечено, что громкость произнесения может значительно меняться, даже если интервал между произнесениями одним диктором одного и того же PC достаточно мал. Вариативность громкости произнесения связана со многими факторами - эмоциональным состоянием диктора, смысловым контекстом фразы, условиями окружающей среды и т. д., и хорошо ощущается человеческими органами слухового восприятия. Для определения характеристик изменчивости громкости произнесения PC были проведены статистические исследования произнесений всевозможных фонем русского языка. Каждый звук был представлен цифровым сигналом, содержащим отсчеты звукового давления на мембрану микрофона, квантованные по уровню с глубиной 8 бит. Таким образом, громкость каждого отсчета цифрового сигнала отражалась цифрой от 0 до 255, максимальная громкость соответствует 255, тишина - 0.

Фонемы были классифицированы по пяти группам: гласные фонемы, согласные взрывные, согласные аффрикаты, согласные шипящие и звонкие согласные. В ходе исследования определялись следующие характеристики. Для каждого звука определялись оценки математического ожидание тп и дисперсии отсчетов С72л, отношение K--zr-. Для каждой группы величин тп к, соответствующей отдельному звуку, определялись: вид статистического распределения; оценки математического ожидания тк; оценки дисперсии ак2. В эксперименте участвовали пять дикторов: два женских голоса и три мужских. Всего дикторами было произведено в среднем по 70 произнесений каждого слова, содержащего определенную фонему. Результаты статистического исследования приведены в таблице 2.2.

В результате исследования были получены следующие характеристики. Величины к практически для всех звуков распределены близко к закону гамма-распределения. Оценки математических ожиданий тк изменяются в пределах от 0,0174 до 3,75 и в среднем равны 0,51. Дисперсии изменяются в пределах от 0,000029 до 1,94 и в среднем равны 0,09. Таким образом, значения оценок математического ожидания и дисперсии величин к практически у всех звуков относительно невелики. Это указывает на то, что поведение громкости звуков мало изменяется от произнесения к произнесению. Поэтому можно считать, что изменения громкости произнесения, имеющие ситуационный характер (разное удаление от микрофона, разная шумовая обстановка окружающей среды, эффект Ломбера) могут быть компенсированы с помощью автоматического регулятора уровня или нормирующим преобразованием. При этом в процессе имитирования изменений громкости произнесения должно быть учтено ее поведение, определяемое отношением у = ок1тк.

Как показывает проведенное исследование, отношение у колеблется в пределах от 0,16 до 0,65 и в среднем равно / = 0,4. Учитывая небольшое изменение у от фонемы к фонеме можно считать величину у одинаковой для всех фонем. Это дает возможность использовать значение / = 0,4 при имитировании изменчивости громкости любых звуков и, кроме того, слов целиком.

Статистическое обнаружение и распознавание сигналов на фоне шумов

Решение задачи обнаружения сигнала на фоне шумов может быть основано на общих принципах теории статистических решений [13, 30, 46, 64].

Обнаружение сигнала на фоне шумов может быть рассмотрено в виде двухальтернативного статистического решения [30]. В этом случае по наблюдениям z, содержащим или не содержащим сигнал, необходимо принять двухальтернативное решение, состоящее в выборе одной из гипотез: Я0 - нет сигнала или Я, - сигнал есть. Если известны условные совместные плотности распределения вероятностей (СПРВ) состояний P0(z) = P(z\H0) и Pl(z) = P(z\Hl) наблюдений z, то оптимальное решающее правило обнаружения сигнала S на фоне помех в определяется отношением правдоподобия (ОП): A(z) _Ш л0= #„ где Л0 - порог.

При распознавании сигнала по наблюдениям z необходимо принять решение, заключающееся в выборе одной из т + 1 статистических гипотез: Н0 - наблюдения не содержат сигнала, Нк - наблюдения содержат сигнал Sk, к = \,...,т. Оптимальное решающее правило в этом случае также основано на ОП. Если известны условные СПРВ состояний P0(z) = P(z\H0),Pl(z) = P(z\H,),...,Pk(z) = P(z\Hk), то нужно выбрать тот номер к, для которого ОП л,(г)=ад=щщ (3.2) P„(z) P(z\H0) максимально и превышает порог Л0. В каждом отдельном случае в зависимости от вида наблюдений z, характера априорной информации о СПРВ и функции потерь, ОП (3.1), (3.2) приводятся к соответствующему определенному виду.

Рассмотрим построение оптимального решающего правила при обнаружении сигнала 5", наблюдаемого на фоне помех [30]. Пусть обнаруживаемый сигнал известен. Кроме того, известна модель его взаимодействия с помехами в: z = вприН0, f(e,S)npuHl9 где z = f(e,S)- (3.4) функция, определяющая взаимодействие сигнала и помех. Задание модели (3.3) позволяет привести ОП (3.1) к более определенному виду. Используем то, что при отсутствии сигнала z = 0, и в этом случае СПРВ при Н0 будет плотностью распределения вероятности (ПРВ) помех в, т.е. P0(z) = Pe(z). Выразим Px(z) через Pe(z), для этого необходимо существование и дифференцируемость функции, обратной функции взаимодействия (3.4). Пусть 6 = r\z,S) (3.5) Рассматривая (3.5) как замену переменных, получим P z) = Pe(f- (z,S)]l(f-\z,S)] P« Zf (з.6) где l(f \z,S))=det —-— - якобиан преобразования (3.5), обратный к У dz ) якобиану преобразования (3.4). Таким образом, выраженное через ПРВ помех в ОП (3.1) примет вид Алл- f.{T4 .S)) P,(T( .S)) „_ Л PAz)\i(f(z,s)}-p,( WbV V 1 } а оптимальное решающее правило обнаружения сигнала S в композиции с помехами в будет Ae(z) A0. Отношение правдоподобия (3.7) получается путем выражения функций правдоподобия через ПРВ помех. Если же функции правдоподобия выразить через ПРВ композиции помех и сигнала, получится ОП другого вида. При выражении P {z) = Px{f{z9S))f{f{z9S)\ (3.8) где Рх ПРВ композиции сигнала и помех, ОП будет иметь вид: Л = Ш. (3 9) Отношение правдоподобия (3.9) также дает оптимальное правило принятия решения о наличии сигнала в наблюдениях: л(5 е)00 0 (3.10) Л0 = #,.

Отношения правдоподобия (3.7) и (3.9) эквивалентны, но между ними имеется принципиальная разница в технике обнаружения сигнала на фоне помех. Операция /_1(z,»S) в (3.6) соответствует «удалению» сигнала из наблюдений z. Если наблюдения действительно содержали сигнал, то в результате «удаления» сигнала получаются «чистые» помехи, ПРВ которых есть Р0. Поэтому числитель в (3.7) относительно велик. В знаменателе же значение z = f(0,S) относительно мало.

Алгоритм распознавания РК на фоне шумов с использованием зашумления эталонов

В процессе функционирования системы распознавания РК содержится в сигнале, поступающем с микрофона в реальном времени, и поэтому для дальнейшего анализа должны быть обнаружены ее границы. Обнаружение границ РК на фоне шумов является дополнительной задачей, требующей дополнительных алгоритмов и их исследований. Эта задача в диссертации не рассматривается, поэтому выберем для обнаружения границ РК самый простой метод, основанный на анализе среднего модуля сигнала в скользящем окне.

Процедура обнаружения выглядит следующим образом. Поступающий с микрофона и оцифрованный звуковой картой ПК с частотой дискретизации 11025 Гц и глубиной квантования 8 бит сигнал непрерывно анализируется: вычисляется средний модуль отсчетов в скользящем окне A-ifW- (4.1)

В случае превышения величиной Я порогового значения Я0 =12,5, отсчеты сигнала начинают сохраняться в динамической памяти ПК или, при подготовке библиотеки команд, на жестком диске ПК. После первого превышения порога запись ведется 2,5 с. Это время необходимо для того, чтобы полностью записать РК. Когда отрезок сигнала длительностью 2,5 с записан, его отсчеты, начиная с последнего, так же в скользящем окне из 20 отсчетов анализируются путем вычисления (4.1). Затем отсчеты, предшествующие первому превышению порога Л0, удаляются из памяти ПК. Далее сигнал поступает на последующую обработку (в случае распознавания), либо сохраняется в библиотеке (в случае подготовки эталонов).

В библиотеке эталонов РК содержатся в формате РСМ в виде файлов с расширением .wav. В процессе реализации алгоритма установлено, что использование двух эталонов каждой РК позволяет повысить вероятность распознавания РК. Поэтому в процессе подготовки эталонов каждая РК произносится и сохраняется в памяти ПК дважды.

В п. 3.4 рассмотрено использование метода снижения влияния шума на качество распознавания РК, предполагающего зашумление эталонных РК опорным шумом, имеющим близкие характеристики с фоновым шумом РК. Для применения данного метода необходима система из двух микрофонов. С первого микрофона, расположенного у губ диктора, поступает сигнал z,(z) = S(i) + 0,(0, где S(i) - речевой сигнал и 0,(0 - фоновый шум. Со второго микрофона, расположенного на удалении от диктора, поступает опорный шум z2(i) = 02 (0. Однако из-за отсутствия реальной системы из двух микрофонов, а также реальных двухканальных записей РК и опорного шума была использована имитация этой системы.

В качестве шумового фона РК и опорного шума используется реальный шум авиационного двигателя, записанный в режиме полета. Интенсивность шума динамически изменяется в пределах отношения сигнал/шум от 3 до О дБ. Фоновый шум 0,(0 представлен в виде цифровых отсчетов с частотой дискретизации 11025 Гц и глубиной квантования 8 бит. Опорный шум 02(j) оценивается по 0,(0, сдвинутому на q = 10 дискретных отсчетов: 0, С/) = 0, ( + ) +и, (0, (4.2) где «,(/) - независимые одинаково распределенные СВ с нулевым средним и дисперсией, равной трем. Сдвиг на q отсчетов имитирует задержку по времени в 0,9 мс, связанную с акустическими свойствами распространения звуковых сигналов, поступающих в удаленные друг от друга микрофоны. Процесс пх(ї) используется для имитации случайных искажений звукового поля и микрофонного тракта.

После определения границ РК отсчеты шума 0,(/) добавляются к отсчетам обнаруженной РК. Отсчеты шума 62{i) добавляются к отсчетам каждой эталонной РК. Схема подготовки шума и зашумления эталонов изображена на рис. 4.1.

Похожие диссертации на Моделирование и распознавание речевых сигналов на фоне интенсивных помех