Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Ахмад Хассан Мухаммад

Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора
<
Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ахмад Хассан Мухаммад. Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора : диссертация ... кандидата технических наук : 05.13.01 / Ахмад Хассан Мухаммад; [Место защиты: Владимир. гос. ун-т].- Владимир, 2008.- 157 с.: ил. РГБ ОД, 61 09-5/514

Содержание к диссертации

Введение

ГЛАВА 1. Обзор методов и систем распознавания диктора 13

1.1. Классификация систем определения индивидуальности диктора по голосу 13

1.1.1. Идентификация и верификация 14

1.1.2. Текстозависимое и текстонезависимое распознавание 18

1.1.3. Автоматические и экспертные системы 18

1.2. Научная сторона проблемы 20

1.2.1. Различительные признаки 20

1.2.1.1. Существенно индивидуальные особенности речи и голоса 21

1.2.1.2. Индивидуальные характеристики, связанные со строением и функционированием речеобразующего аппарата 21

1.2.1.3. Параметризация речевого сигнала 25

1.2.2. Способы описания речевого сообщения в целом 28

1.2.2.1. Динамическое искажение времени 28

1.2.2.2. Использование векторного квантования 29

1.2.3. Проблема эталона и его обновление 30

1.2.4. Решающие правила 31

1.2.5. Шумы, помехи, искажения 33

1.3. Критерии эффективности систем распознавания 34

1.4. Применение систем распознавания говорящего в промышленности. 38

1.5. Обзор современных программных продуктов распознавания 40

1.5.1. Зарубежные программы, организации, достижения 40

1.5.2. Состояние дел в России 41

1.6. Основные проблемы создания систем распознавания диктора 43

1.7. Выводы к главе 1 44

ГЛАВА 2. Методы построения признаковых описаний в задаче распознавания говорящего 45

2.1. Ввод речи и ее цифровое представление 45

2.2. Предварительная обработка и выделение первичных признаков 47

2.2.1. Дискретное преобразование Фурье 48

2.2.2. Цифровые фильтры 49

2.2.3. Использование оконных функций 52

2.3. Нормализация уровня сигнала 52

2.4. Выделение границ фразы в речевом сигнале 54

2.5. Определение высоты тона (частоты основного тона) 59

2.6. Методы получения признакового описания сигнала 62

2.6.1. Спектральные методы 62

2.6.2. Коэффициенты линейного предсказания 64

2.6.3. Кепстральное описание 65

2.7. Выделение наиболее информативных характеристик 69

2.7.1. Последовательный прямой поиск 71

2.7.2. Последовательный обратный поиск 71

2.8. Выводы к главе 2 72

ГЛАВА 3. Основные математические модели принятия решений в задачах распознавания говорящего 73

3.1. Системы распознавания дикторов, основанные на сопоставлении с эталонами 73

3.2. Мера сходства речевого сигнала с эталоном 74

3.2.1. Статистический подход 74

3.2.2. Меры сходства 77

3.3. Линейное выравнивание времени 78

3.4. Алгоритм динамического искажения времени (ДИВ) 80

3.4.1. Описание алгоритма ДИВ 80

3.4.2. Симметричный алгоритм ДИВ 81

3.4.3. Алгоритм поиска глобального наименьшего маршрута 85

3.4.4. Асимметричный алгоритм ДИВ 86

3.4.5. Система идентификации диктора с использованием алгоритма ДИВ 91

3.5. Векторное квантование и построение кодовой книги при решении

задач идентификации 91

3.5.1. Меры искажения 91

3.5.2. Алгоритмы построения эталона 94

3.5.3. Идентификация по кодовой книге 99

3.5.4. Система идентификации диктора с использованием весовых коэффициентов и кодовой книги 102

3.6. Выводы к главе 3 105

ГЛАВА 4 . Экспериментальные исследования 106

4.1. Цели и задачи экспериментов 106

4.2. Исследования методов признаковых описаний речевых сигналов в задачах распознавания 107

4.2.1. Выбор речевых характеристик

4.2.2. Измерение частоты основного тона 109

4.2.3. Выделение наиболее информативных характеристик ПО

4.3. Исследование свойств алгоритма динамического искажения

времени 111

4.3.1. Выбор метрики расстояния 113

4.3.2. Исследование влияния параметра степени искажения ДИВ

на качество идентификации 117

4.3.3. Исследование методов параметризации речевых сигналов на 118

основе алгоритма ДИВ

4.4. Результаты исследования идентификации дикторов на основе использования векторного квантования 121

4.4.1. Исследование зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера.. 121

4.5. Сравнительные результаты тестирования систем идентификации дикторов 125

4.6. Выводы к главе 4 127

ГЛАВА 5. Разработка программного обеспечения для реализации разработанных моделей систем

Идентифик ции 128

Заключение 129

Литература 131

Приложения 138

Введение к работе

Актуальность темы. В последние годы отмечается существенный рост интереса к автоматическим системам распознавания диктора по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется подтвердить или опознать определенную личность. Системы автоматического распознавания могут использоваться для следующих целей:

Задачи обеспечения безопасности (контроль за физическим доступом в помещения, доступ к базам данных, вычислительным системам и ПК, контроль над транспортными средствам и оружием);

Задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; идентификация «іелефонньїх хулиганов» по записи).

Задачи управления компьютером, бытовой техникой, различными запорными механизмами и промышленным оборудованием;

Особый интерес представляет собой использование систем распознавания на телефонных каналах, например, для получения баланса банковского счета, подтверждения денежных транзакций или оплаты услуг. Направление, связанное, с разработкой и исследованием систем

автоматической идентификации и верификации дикторов является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. И если не сегодня, то в ближайшем будущем такие системы будут востребованы в полной мере.

Точность распознавания в таких системах во многом зависит от выделяемых системой, при создании базы данных диктора, параметров (признаков) речевого сигнала и методов его обработки.

Существующие решения этой задачи в настоящее время не обеспечивают высокую точность распознавания диктора.

В связи с вышесказанным весьма актуальной задачей является разработка

и усовершенствование алгоритмов определения параметров речевого сигнала, применяемых в системах распознавания дикторов.

В работе проведен анализ моделей формирования признакового описания речевых сигналов и исследованы различные алгоритмы и методы обработки речевого сигнала в системах распознавания диктора.

Общее содержание диссертационной работы соответствует научному направлению «Распознавание образов и цифровая обработка речевых сигналов».

Цель и задачи диссертационной работы. Целью работы является исследование, разработка и усовершенствование алгоритмов параметризации речевого сигнала, применяемых в задачах распознавания дикторов и разработка системы распознавания дикторов.

Для достижения этой цели в диссертации решались следующие задачи:

  1. Анализ особенностей построения систем распознавания дикторов.

  2. Анализ и исследование алгоритмов построения различных признаковых описаний речевого сигнала в задачах распознавания дикторов.

  3. Разработка методика определения границ фразы в речевом сигнале.

  4. Усовершенствование алгоритма определения высоты тона (частота основного тона) голоса в речевом сигнале.

  5. Разработать алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.

  6. Разработка учебно-исследовательской системы распознавания дикторов на основе исследованных и разработанных алгоритмов.

Методы исследования. В диссертационной работе используется аппарат цифровой обработки речевых сигналов (преобразование Фурье, Линейное предсказание, векторное квантование, Ме1-кепстральное описание), теории распознавания образов, теории построения математических моделей и пакет прикладных программ MATLAB.

10 Научная новизна. Новизной диссертационной работы является

разработанные и модифицированные алгоритмы определения параметров речевого сигнала, а также разработанные модели систем распознавания дикторов, базирующихся на основе метода динамического искажения времени (ДИВ) и векторного квантования (ВК) с созданием кодовых книг голоса диктора.

В работе предложено:

  1. Модель системы распознавания дикторов на основе ДИВ.

  2. Модель системы распознавания дикторов на основе ВК с созданием кодовых книг голоса диктора.

  1. Модифицированный алгоритм векторного квантования Ллойда для текстонезависимого распознавания диктора, позволяющий существенно улучшить качество кодовых книг базы эталонов.

  2. Разработанная методика определения границ фраз при обработке речевого сигнала, позволяющая сократить время распознавания.

  3. Модифицированный алгоритм определения высоты тона в речевом сигнале, основанный на вычисление произведения гармоник спектра и снижении частоты дискретизации.

  4. Разработан алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.

Практическая ценность работы заключается в следующем:

Разработанные и модифицированные конкретные алгоритмы положены в основу создания систем распознавания дикторов.

Разработан пакет программного обеспечения для распознавания дикторов на основе исследованных и разработанных алгоритмов и моделей систем, который может быть полезным инструментом в учебном процессе по направлению «Обработка и распознавания речевых сигналов».

Показана возможность применения приложенных в работе алгоритмов в основу разработки коммерческих систем распознавания

диктора и платформ управления бытовой техникой и промышленным

оборудованием с помощью голоса. А также, в разработке систем

оперативного контроля и управления объектами диспетчеризации с

использованием голосовой информации.

- Проведено сравнительное экспериментальное исследование

разработанных в диссертации моделей систем распознавания,

позволившее выбрать наиболее эффективные модели построения

систем распознавания диктора.

Внедрение результатов работы. Результаты, разработанные

программные средства и методические материалы диссертационной работы,

внедрены и используются в учебном процессе при проведении лабораторных и

курсовых работ по курсу «Цифровая обработка сигналов» для студентов

специальностей ВлГУ (см. приложение 10). А также, приняты к использованию

в проектно-конструкторской деятельности предприятия ООО «КОНТЭЛ» г.

Владимира (см. приложение 9).

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях:

20-ая Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-20), Ярославль, РФ, 2007г.;

8-ая Международная.^ конференция «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-8-2007), Йошкар-Ола, РФ, 2007г.;

Вестник Тамбовского государственного технического университета, Тамбов, РФ, 2007-2008гг., входящий в перечень ведущих рецензируемых ВАК-ом научных журналов и изданий;

Издательство ВлГУ, 2008г. в рамках инновационной образовательной программы ВлГУ.

Публикации. По теме диссертации опубликовано 9 печатных работ, из них 6 в ведущем рецензируемом научном издании «Вестник ТамбовГТУ» , 2 доклада на международных и всероссийских научно-технических

12 конференциях и 1 учебное пособие в рамках инновационной образовательной

программы ВлГУ.

Объем диссертации. Диссертация состоит из введения, пяти глав и заключения, изложенных на 130 страницах и иллюстрированных 32 рисунками и 8 таблицами, а также списка литературы из 83 наименований и 10 приложений.

Классификация систем определения индивидуальности диктора по голосу

Системы определения индивидуальности диктора по речевым характеристикам развиваются4в последнее время очень активно. Интерес к решению прикладных задач в этом направлении вполне понятен. Прежде всего, он определяется наличием широкого круга практических приложений, которые могут быть разделены на два основных класса:

1. Проверка прав доступа к различным информационным системам, как каналы связи, вычислительные системы, базы данных, банковские счета, служебные и индивидуальные помещения ограниченного пользования (секретность, материальные ценности и т.п.), различные устройства и механизмы (транспортные средства, оружие и т.п.).

Преимущества установления индивидуальности по голосу при решении подобных прикладных задач заключается в следующем: голос не отчуждаем от человека (в отличие от ключа, магнитной карты и даже пальца с его отпечатками); голос не требует непосредственного контакта с пропускной системой (как это необходимо для отпечатка пальца, ладони, подписи), возможно использование телефонного канала.

2. Криминалистическая экспертиза: анализ записей переговоров при различных аварийных ситуациях (например, авиационных катастрофах); анализ записей телефонных переговоров при санкционированном их прослушивании; доказательства в суде.

В последнее время интерес к распознаванию диктора по голосу усилился в связи с нарастающим использованием автоматических речевых технологий в таких применениях как: запросы о состоянии банковских счетов и банковские расчеты по телефону; запросы информации из баз данных по телефону; автоматическая оплата междугородних телефонных переговоров. речевое общение человека и машины — управление промышленным оборудованием.

Многие варианты использования речевых технологий предполагают автоматическое распознавание пользователя. Прежде всего, это касается использования речевых технологий в телефонных сетях, где приходится решать все задачи обработки и распознавание личности диктора.

Обобщающий термин «распознавание диктора» относится к любой задаче опознавания человека по характеристикам голоса. В рамках этого общего определения выделяются две конкретные задачи, которые интенсивно изучаются: идентификация диктора и его верификация. Суть различия между идентификацией и верификацией весьма проста: в первом случае задача состоит в том, чтобы классифицировать непомеченную звуковую лексему как произнесенную одним из N дикторов эталонного множества (с N возможными исходами). Во втором же случае необходимо решить, принадлежит ли некоторая непомеченная звуковая лексема конкретному эталонному диктору (при двух возможных исходах: лексема либо считается принадлежащей данному лицу, либо отвергается по причине принадлежности «злоумышленнику») [72]. Типичные схемы задач идентификации и верификации изображены на рис. 1.1 и рис. 1.2, соответственно.

Задача идентификации может найти свое применение, например, в криминалистике, где по записи речи на магнитофонной ленте следует отождествить голос говорящего с голосом одного из многих подозреваемых.

В отличие от процесса идентификации, в котором говорящий не называет или даже скрывает свою личность, процесс верификации подразумевает установление подлинности той личности, за которого выдает себя говорящий. Таким образом, в первом случае ответ на вопрос «кто он?», должен быть найден ЭВМ, тогда как во втором случае диктор добровольно сотрудничает с машиной, называя себя, а машина подтверждает, он это или нет. На практике задача верификации стоит в контрольно-пропускных пунктах учреждения, при проведении операций личного счета в банке через телефонные каналы связи и т.п.

Следует отметить, что количество информации, которое необходимо получить в задаче идентификации (это пропорционально количеству дикторов), оказывается, как правило, больше, чем при решении задачи верификации. Поэтому естественно ожидать, что при прочих равных условиях качество распознавания (т.е. вероятность принятия правильного решения) в случае верификации будет выше, чем в случае идентификации. Критическим параметром задачи идентификации является число дикторов в эталонном множестве: при бесконечно большом числе дикторов вероятность ошибки стремится к единице. В то же время качество верификации голоса не зависит от числа дикторов в эталонном множестве. На рис. 1.3. дается зависимость ожидаемых ошибок идентификации и верификации от объема выборки говорящих,

Ввод речи и ее цифровое представление

Для обработки и анализа речи с использованием вычислительных систем, необходимо преобразовать ее в форму, понятную для этих систем [81]. Самый распространенный способ — это представление речевого сигнала в цифровой форме. Речь человека, представляющая собой акустические волны, с помощью микрофона преобразуется в электрический сигнал, который затем квантуется по амплитуде и времени при помощи аналого-цифрового преобразователя (АЦП), (рис.2Л).

Аналоговый сигнал xaif) дискретизуется при помощи дискретизатора, т.е. амплитудно-импульсного элемента, реагирующего на дискретные равноотстоящие значения сигнала в моменты t = nT, п = 1,2,... (Г— период сигнала ). На выходе дискретизатора образуется последовательность выборок х(пТ)«xa(0L_ г- Наоборот, восстановление аналогового сигнала xa(t) по его дискретному представлению — последовательности выборок х(пТ) — сводится к использованию различных интерполяционных процедур или фильтров.

При выполнении некоторых условий, определяемых теоремой отсчетов (теоремой Котельникова), операции дискретизации и восстановления взаимно-обратные, т.е. можно считать, что преобразование аналогового сигнала в цифровой не ведет к искажению и потере информации, содержащейся в нем. Согласно этой теореме: если аналоговый сигнал xa(t) имеет ограниченный (финитный) спектр 1д(; й)), т.е. такой, что Jfa(y7y) = 0, при гу у0 то такой сигнал можно однозначно представить последовательностью выборок х(пТ), и = 1,2,3,...,при Т = 27г/а , где co = 2nfd 2co — частота дискретизации и fd — основная частота сигнала. При этом по дискретному сигналу х(пТ) может быть восстановлен аналоговый сигнал xa{t) по формуле со smci)()(t-nT) ха(0= I х{пТ) —. (2.1)

Иными словами частота дискретизации определяет максимальную частоту сигнала, который можно представить в цифровом виде. Другим важным параметром оцифровки является количество разрядов АЦП. Это этого параметра зависит точность представления амплитуды и ее рабочий динамический диапазон. Естественно чем больше частота дискретизации и разрядная сетка АЦП, тем точнее и с наименьшими потерями представляется звуковой сигнал, но тем больше требуется памяти и вычислительной мощности для хранения и обработки такого сигнала [62,81].

Речевой сигнал, поступающий в систему распознавания, подвергается предварительной обработке с целью компенсации погрешностей ввода звука и учета специфики сигнала. Как правило, такая обработка заключается в очистке сигнала от шума (например, отсечением неинформативных участков спектра), фильтрации, нормализацией .до некоторого установленного уровня. Затем необходимо выделить информативные признаки речевого сигнала, т.е. те, которые наиболее полно описывают сигнал в наиболее краткой форме. Очевидно, эффективность этого этапа определяет эффективность дальнейшей обработки сигнала и его распознавание.

Для представления речи в спектральной форме используют набор полосовых фильтров, настроенных на выделение различных частот, дискретное преобразование Фурье [52] . Затем полученный спектр подвергается различным преобразованиям, например, логарифмическое изменение масштаба (как в пространстве амплитуд, так и\в пространстве частот), сглаживание спектра с целью выделения его огибающей.

Как правило, полное описание речевого сигнал только его спектром невозможно. Наряду со спектральной информацией, необходима ещё и информация о динамике речи.

Полученные таким образом параметры речевого сигнала считаются его первичными признаками и представляют сигнал на дальнейших уровнях его обработки. Основными методами получения первичного описания речевых сигналов являются: Дискретное преобразование Фурье; Цифровая фильтрация; Использование оконных функций. Одним из наиболее известных методов первичной обработки речевых сигналов является дискретное преобразование Фурье [71]. Известно, что для тех случая, когда последовательность отсчетов сигнала периодична, ее можно представить рядом Фурье. Итак, рассмотрим периодическую последовательность хр{п) с периодом в N отсчетов.

Системы распознавания дикторов, основанные на сопоставлении с эталонами

Существуют различные методы распознавания речи [56], основным из них является метод сопоставления с эталоном. Это связано главным образом с прогрессом в области электронных компонентов, в частности, с увеличением вычислительной мощности процессоров и объемов памяти. При сопоставлении с эталоном, описания речевых сигналов сравниваются с заранее запасенными эталонными описаниями, и вычисляется степень их подобия. Результатом распознавания является наиболее похожий эталонный образ.

При распознавании речи путем сопоставления возникает несколько проблем, среди которых наиболее типичными являются следующие: - временные изменения характерных речевых сигналов. Причиной изменений является различная скорость произнесения одних и тех же звуков, то есть непостоянство длительности. Даже одни и те же слова, произносимые одним и тем же человеком, каждый раз меняются по длительности. - влияние размеров органов речи. Размеры органов речи у людей различны. Поэтому, даже если слова произносятся органами одинаковой формы, их резонансные частоты могут различаться.

Первая проблема связана с необходимостью подстраивать временные интервалы (временная нормализация). Известно много способов согласования длительностей, которые сильно различаются по эффективности и объему вычислений. В некоторых допускаются пропуски некоторых элементов эталона, в некоторых разрешены пропуски элементов реализации, иногда накладывается ограничение на множество вариантов растяжения реализации и эталона, позволяющие учесть ограничения на вариации темпа произнесения слова [65].

Проблема изменений, связанных с говорящим, чрезвычайно сложна. В настоящее время наметился ряд путей ее частичного решения. Некоторые из них будут рассмотрены ниже Пусть реализация слова представляется последовательностью элементов Xi = (х\,..., Xj,..., Xj). Распознаваемая реализация последовательно сравнивается с эталонными реализациями слова [65]. При сравнении реализации с эталоном оба элемента растягиваются путем повторения отдельных элементов реализации и эталона до некоторой общей длины одним из методов нормализации.

Пусть Xi и X/ - две реализации некоторого слова к. Естественной мерой близости является условие р[Х[ ,Х[ к\ общности происхождения этих реализаций. Предположим, что множество всевозможных реализаций Xt к-го слова порождается из некоторого эталонного сигнала Eq = I е\,..., es,..., eq J, длина которого q и состав (значения компонент es ) нам неизвестны. Известно только, что Ед короче всех возможных реализаций Х[ к -го слова. В данной модели учитываются нелинейные вариации темпа произнесения слова, описываемые набором W[q,l) операторов растяжения w [65]. Задав конкретные значения т и М, можно сузить множество W(q,l), не допуская чрезмерных искажений темпа произнесения слова. В сигнале Xi с прототипом Ei — wEq имеется q сегментов (крайний левый элемент s -го сегмента xw _ +1, крайний правый - xw ), которые соответствуют фонемам или частям фонем слова к.

Достаточно широкий класс распределений p(hj) описывается выражением Выбор меры сходства d{xhe ) зависит от применяемого описания речевых сигналов и в значительной степени определяется удобствами вычислений. В [53] рассмотрены примеры наиболее употребительных мер сходства.

1) сі(х-,еА = -Н(х;,еА,Н(х-,еА — Хэммингово — расстояние (количество несовпадающих компонент), если х- и е- имеют двоичные компоненты, например, знаки разностей энергий в соседних спектральных полосах.

2) d(х-,еА = -а(х- jlxj,Є() , где (х-,еЛ - скалярное произведение векторов х- и е-, а а(хА - скаляр, зависящий от х-. Такая мера сходства используется, если речевые сигналы описываются посредством авторегрессионной модели

Самый простой способ согласования длительностей эталонного элемента и распознаваемой реализации слова — линейное сопоставление, в результате которого сигнал равномерно сжимается или растягивается до величины эталона. Он требует небольшого объема вычислений, и поэтому, несмотря на то, что не гарантирует адекватной сопоставляемости речевых отрезков.

В процессе речеобразования длительность различных фонем изменяется в различной степени, в более широких пределах для гласных и шипящих согласных звуков и в меньшей степени для взрывных и аффрикат. В [5] предложен следующий метод нелинейной нормализации.

На квазистационарных участках скорость изменения параметров минимальна и максимальна на переходных участках. Поскольку темп произношения влияет на длительность квазистационарных участков в большей степени [5], то необходимоч растягивать переходные участки и сжимать стационарные, причем степень растяжения можно выбрать исходя из скорости изменения нормализуемого сигнала.

Таким образом, нелинейная нормализация требует нелинейного преобразования масштаба времени, зависящего от скорости изменения нормализуемого сигнала

Выбрав а - Ts /Tw , где Ts — длительность эталонного описания слова, Т - длительность распознаваемого слова, можно перейти к линейному программированию. Варьируя отношение a/j3 можно получить различную степень нелинейности изменения масштаба времени при нормализации.

В таком описании скорость изменения вектора параметров стремиться к постоянной величине, что и отражает эффект нормирования. Однако, полностью исключать информацию об исходном масштабе времени в некоторых случаях нецелесообразно, поскольку этот масштаб определяется просодическими характеристиками, имеющими важное значение для распознавания, особенно при распознавании слитной речи. Сохранить просодическую информацию в нормированном векторе можно введя в него дополнительную компоненту — скорость изменения масштаба параметров, также предоставляемую в масштабе нелинейного временного аргумента. Такой метод нормирования достаточно просто реализуется программно и аппаратно.

Линейные алгоритмы наиболее простые в реализации и могут применяться как для растяжения, так и для сжатия последовательности речевых характеристик. Существует несколько видов реализаций этих алгоритмов, но все они основываются на одном и том же подходе равномерного удаления некоторых элементов последовательности для сжатия и равномерного добавления новых — для растяжения. Главный недостаток этих методов заключается в том, что при удалении или добавлении новых элементов не учитывается их значимость в речевой последовательности, а это ведет к неадекватной сопоставимости двух речевых участков.

Исследования методов признаковых описаний речевых сигналов в задачах распознавания

Автоматические системы распознавания, которые работают в реальной жизни, должны работать при различных акустических условиях. Но, большинство этих акустических условий не похожи на те, которые используются в тестовых данных. Если обучающие записи речи чистые (в том смысле, что специально подбирается тихое окружение), шум, который существует при распознавании, приведет к несоответствию тестовых и обучающих условий. Такое несоответствие приводит к ухудшению процесса распознавания.

В этой главе описано исследование уменьшения негативного влияния различия условий записи на процесс распознавания. Использование речевых характеристик, которые менее чувствительны к шуму является одним из путей решения поставленной задачи.- Кепстральные коэффициенты как представление спектральных характеристик наиболее часто используются как в задачах распознавания диктора, так как они обеспечивают наиболее точное представление речи как тихих условиях, так и под воздействием шумов. Кроме того, кепстральные коэффициенты образуют ортогональное множество, что полезно для вычисления Евклидового расстояния между векторами.

Результаты экспериментов по выбору наилучших характеристик представлены ниже в таблицах. При этом все результаты были получены для 10 из 15 дикторов, и для каждого из этих 10 дикторов выбиралось 5 записей. При распознавании, использовались все записи всех дикторов. Таким образом, системе предъявлялись записи злоумышленников (незарегистрированные), о которых она ничего не знала, что максимально приближает условия эксперимента к реальным условиям применения системы распознавания.

В таблице 4.1 показана эффективность работы системы распознавания для трех рассмотренных ранее типов характеристик. В этом эксперименте

Опять результаты показывают значительное преимущество Mel шкалы. Однако теперь видно, что добавление производных несколько уменьшает вероятность появления ошибок для Mel БПФ КК, и почти не влияют на результаты КЛП КК. Так как для простых КЛП кепстральных коэффициентов полученные результаты намного хуже, чем для Mel коэффициентов.

Дальше исследуем влияние количества кепстральных коэффициентов на эффективность распознавания. Сначала будем рассматривать одни кепстральные коэффициенты без производных. В таблицах 1 и 2 (см. приложения 3) представлены результаты эффективности системы распознавания при разном числе Mel кепстральных коэффициентов вычисленных с использованием КЛП и БПФ.

По ошибкам пропуска и ошибкам отклонения трудно определить, какие из Mel-кепстров дают лучшие результаты. Для этого используется определение функции стоимости DET рассмотренной в предыдущей главе. Результаты в этой колонке получены при стоимости ошибки пропуска и стоимости ошибки отклонения равной 1. Изучение полученных данных показывает, что Mel КПП кепстр для любого числа коэффициентов кроме 16 заметно уступает Mel БПФ кепстру, что опровергает сделанное ранее предположение о превосходстве модели линейного предсказания. Возможно, это объясняется тем, что модель линейного предсказания содержит больше информации о содержании речевой фразы и в меньшей мере информации об индивидуальности диктора. Также, при большей зашумленности исходных речевых записей баланс эффективности типа коэффициентов может сместиться в другую сторону. Тем не менее, наилучший результат был получен для первых 22 Mel БПФ кепстральных коэффициентов.

Далее рассмотрим, как добавление первых производных к кепстральным коэффициентам влияет на результаты распознавания дикторов, таблица 1 (см. приложения 4). Из результатов таблицы 5 видно, что добавление производных улучшает результаты только при 16 кепстральных коэффициентах. В остальных случаях использование одних коэффициентов без их производных эффективнее.

Похожие диссертации на Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора