Содержание к диссертации
Введение
ГЛАВА 1 . Обзор методов и систем распознавания дикторов 11
1.1. Классификация систем определения индивидуальности говорящего по речи 11
1.1.1. Идентификация и верификация 12
1.1.2. Групповая идентификация 16
1.1.3. Текстозависимые и текстонезависимые распознавание 16
1.1.4. Автоматические и экспертные системы 18
1.2. Научная сторона проблемы 20
1.2.1. Различительные признаки 20
1.2.2. Способы описания речевого сообщения в целом 28
1.2.3. Проблема эталона и его обновление 30
1.2.4. Решающие правила 30
1.2.5. Шумы, помехи, искажения 33
1.3. Критерии эффективности систем верификации 34
1.4. Обзор современных программных продуктов '.... 38
1.4.1. CAVE 39
1.4.2. PICASSO 40
1.4.3. CV-UCP 42
1.4.4. SpeakEZ 42
1.5. Основные проблемы создания систем распознавания дикторов 43
1.6. Выводы 44
ГЛАВА 2. Методы построения признаковых описаний в задаче автоматического распознавания дикторов 46
2.1. Ввод речи и ее цифровое представление 46
2.2. Предварительная обработка и выделение первичных признаков... 47
2.2.1. Дискретное преобразование Фурье. 48
2.2.2. Цифровые фильтры 49
2.2.3. Использование оконных функций 53
2.3. Нормализация уровня сигнала 55
2.4. Выделение границ фразы 56
2.5. Методы получения признакового описания сигнала 61
2.5.1. Спектральные методы 61
2.5.2. Коэффициенты линейного предсказания 63
2.5.3. Кепстральное описание 66
2.6. Выделение наиболее информативных характеристик 69
2.6.1. Последовательный прямой поиск (ППП) 70
2.6.2. Последовательный обратный поиск (ПОП) 70
2.7. Выводы 71
ГЛАВА 3 . Основные математические модели принятия решений в задачах распознавания дикторов 73
3.1. Системы распознавания дикторов, основанные на сопоставлении с эталонами 73
3.2. Мера сходства речевого сигнала с эталоном 74
3.2.1. Статистический подход 74
3.2.2. Некоторые меры сходства 76
3.3. Линейное выравнивание времени 77
3.4. Алгоритм динамического искажения времени(ДИВ) 78
3.4.1. Описание алгоритма ДИВ 78
3.4.2. Принцип оптимизации Беллмана и Динамическое программирование 82
3.4.3. Симметричный алгоритм ДИВ 86
3.4.4. Алгоритм поиска глобального наименьшего маршрута 87
3.4.5. Ассиметричный алгоритм ДИВ 88
3.5. Скрытые марковские модели 92
3.5.1. Статистическое распознавание речи 92
3.5.2. Структура системы распознавания СММ 94
3.5.3. Вычисление вероятности появления последовательности наблюдений в СММ 96
3.5.4. Обучение СММ 99
3.5.5. Распознавание при помощи СММ 100
3.5.6. Архитектура системы распознавания дикторов на основе CMM 101
3.6. Нейронные сети 104
3.6.1. Алгоритм обратного распространения ошибки 106
3.6.2. Алгоритм обучения RProp ПО
3.6.3. Полносвязная нейронная сеть 112
3.6.4. Нейронная сеть с локальными связями 114
3.7. Векторное квантование и построение кодовой книги при решении задач текстонезависимой верификаций/идентификации 116
3.7.1. Меры искажения 118
3.7.2. Алгоритмы построения эталона 119
3.7.3. Идентификация по кодовой книге 123
3.8. Выводы 125
ГЛАВА 4. Модели устранения влияния шумового окружения в задачах распознавания дикторов 127
4.1. Классификация помех в речевом канале 127
4.2. Методы оптимальной фильтрации в задаче подавления стационарных шумовых помех 128
4.3. Спектральное вычитание 131
4.3.1. Метод 131
4.3.2. Описание алгоритма 133
4.4. Методы адаптивной фильтрации в задаче шумоочистки речевых сигналов 133
4.5. Wavelet-преобразование в задаче шумоочистки речевых сигналов 136
4.5.1. Использование дискретного вейвлет-преобразования для подавления шумов в речевом сигнале 137
4.5.2. Совместное использование вейвлет-преобразования и оптимальной фильтрации 142
4.6. Выводы 143
ГЛАВА 5. Экспериментальные исследования 144
5.1. Цели и задачи экспериментов 144
5.2. Исследование методов верификации дикторов на основе использования нейронных сетей 145
5.2.1. Общая схема разработанной системы верификации для НС. 145
5.2.2. Выбор речевых характеристик 147
5.2.3. Выделение наиболее информативных фарактеристик 150
5.2.4. Исследование структуры НС 151
5.2.5. Исследование влияния размера входного слоя НС 152
5.3. Исследование свойств алгоритмов динамического искажения времени (ДИВ) 153
5.3.1. Выбор метрики расстояния 154
5.3.2. Исследование влияния параметра степени искажения ДИВ на качество верификации 158
5.3.3. Исследование методов параметризации речевых сигналов на основе алгоритма динамического искажения времени 159
5.4. Экспериментальное исследование верификации дикторов на основе использования скрытых марковских моделей (СММ) 162
5.4.1. Выходные параметры системы " НММ Person Verification"... 162
5.4.2. Оценка эффективности системы верификации критерий принятия решения в системе " НММ Person Verification " 163
5.4.3. Исследование методов уменьшения числа гипотез при работе алгоритма Витерби 169
5.4.4. Выбор топологии СММ 174
5.4.5. Исследование влияния числа итераций при обучении на качество верификации 175
5.5. Результаты исследования идентификации дикторов на основе использования векторного квантования (ВК) 176
5.5.1. Исследование зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера 176
5.6. Сравнительные результаты тестирования различных систем верификации дикторов 181
5.7 . Исследование влияния шумовых помех на эффективность распознавания дикторов 182
5.8. Выводы 192
ГЛАВА 6. Разработка программного обеспечения для решения задач распознавания дикторов 194
6.1. "Neuro-D" - программа для верификации дикторов на основе модели нейронной сети 194
6.2. "DWT-speech" - программа для исследования моделей динамического искажения времени 197
6.3. " НММ Person Verification" - программа для моделирования распознавания дикторов на основе использования скрытых марковских моделей 199
6.4. Реализация системы "VC - recognition" для автоматической идентификации диктора на основе векторного квантования 201
6.4.1. Особенности реализации 201
6.4.2. Пользовательский интерфейс 202
Заключение 205
Список литературы 207
Приложение
- Классификация систем определения индивидуальности говорящего по речи
- Методы получения признакового описания сигнала
- Принцип оптимизации Беллмана и Динамическое программирование
- Полносвязная нейронная сеть
Введение к работе
Актуальность темы. В последние годы отмечается существенный рост интереса к автоматическим системам опознавания (идентификации и верификации) говорящего по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется подтвердить или опознать определенную личность. Системы автоматического распознавания говорящего могут использоваться для следующих целей: задачи обеспечения безопасности (контроль за физическим доступом в помещения; доступ к базам данных, вычислительным системам и ПК; управление различными запорными механизмами; контроль над транспортными средствам и оружием; доступ к банковским счетам), задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; идентификация «телефонных хулиганов» по записи). Особый интерес представляет собой использование систем опознавания на телефонных каналах, например, для получения баланса банковского счета, подтверждения денежных транзакций или оплаты услуг.
Направление, связанное с разработкой и исследованием систем автоматической идентификации и верификации дикторов является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. И если не сегодня, то в ближайшем будущем такие системы будут востребованы в полной мере.
В связи с вышесказанным весьма актуальным является разработка моделей и методов распознавания дикторов для различных условий применения.
Существующие решения этой задачи в настоящее время не обеспечивают достаточно высокой надежности распознавания дикторов. Поэтому актуальной задачей является сравнительное исследование различных моделей распознавания дикторов и определение наиболее перспективных направлений их создания. В работе проведен анализ моделей формирования признакового описания речевых сигналов и исследованы различные модели систем распознавания дикторов. Важное внимание уделено рассмотрению задачи распознавания дикторов в условиях помех.
Общее содержание диссертационной работы соответствует научному направлению "Распознавание образов и обработка изображений" Государственной научно-технической программы "Перспективные информационные технологии".
Цель и задачи диссертационной работы. Целью работы является разработка и исследование моделей и алгоритмов для решения задач распознавания дикторов в различных условиях. Для достижения этой цели в диссертации решались следующие задачи:
Анализ особенностей построения распознающих систем для распознавания дикторов в различных условиях.
Исследование моделей построения различных признаковых описаний в задачах распознавания дикторов.
Разработка алгоритмов распознавания дикторов, основанных на использовании алгоритмов динамического искажения времени (ДИВ), скрытых марковских моделей (СММ), нейронных сетей (НС) и векторного квантования (ВК).
Разработка методов распознавания дикторов в условиях шумового искажения речевого сигнала.
Разработка программного обеспечения для распознавания дикторов, реализующего рассмотренные в работе теоретические модели.
Проведение сравнительного экспериментального исследования разработанных алгоритмов и программных средств при обработке сигналов реальных речевых баз.
Методы исследования. В диссертационной работе используется аппарат теории вероятностей, случайных процессов, математической статистики, цифровой обработки сигналов, теории распознавания образов, теории построения математических моделей.
Научную новизну работы составляет:
Модель слоистой нейронной сети для верификации дикторов, обеспечивающая существенное снижение вычислительных затрат по сравнению с полносвязной сетью.
Модель системы верификации дикторов на основе скрытых марковских моделей, обладающая высокой потенциальной эффективностью.
Модифицированный алгоритм векторного квантования Ллойда для текстонезави-
симой идентификации дикторов, позволяющий существенно улучшить качество ко
довых книг базы эталонов.
Подход к построению системы верификации дикторов в условиях шумового ок
ружения, основанный на совместном использовании оптимальной фильтрации и
вейвлет-преобразования для подавления шумов.
Практическая ценность работы заключается в следующем:
Разработаны конкретные алгоритмы, положенные в основу создания систем верификации/идентификации дикторов.
Разработан комплекс программного обеспечения для распознавания дикторов на основе различных теоретических моделей .
Проведено сравнительное экспериментальное исследование разработанных в диссертации моделей верификации/идентификации дикторов, позволившее выбрать наиболее эффективные модели построения систем распознавания дикторов
Предоженные в работе модели и алгоритмы могут быть положены в основу разработки коммерческих систем распознавания дикторов
Внедрение результатов работы. Работа выполнялась в рамках Федеральной целевой научно-технической программы "Исследования и разработка по приоритетным направлениям развития науки и техники на 2000-2006 гг." - НИР "Методы распознавания образов, обработки сигналов и изображений для самоорганизующихся систем", выполняемой Государственным предприятием "Научно-инженерный центр СПбГЭТУ".
Разработанные программные средства и методические материалы использовались в учебном процессе при проведении лабораторных и курсовых работ по курсам «Системы цифровой обработки сигналов», "Распознавание речевых сигналов и изображений" для студентов специальностей 220400 и 010200 в СПбГЭТУ.
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях СПбГЭТУ в 2003-2004 гг.; на 6-ой международной конференции 'Таспознавание образов и анализ изображений: новые информационные технологии" (РОАИ-6-2002), Великий Новгород, 2002г.; на 5-ой международной научно-технической конференции 'Таспознавание-2003", Курск, 2003 г.; на 11-й Всероссийской конференции "Математические методы распознавания
10 образов" (ММРО-11), Москва, 2003 г.; на Международной конференции по мягким вычислениям и измерениям (SCM'2004), С.-Петербург, 2004 г., на 58-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, С.Петербург, 2003 г.; на 59-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, С.Петербург, 2004 г. ; на 9-ой Международной конференции "Speech and computer" (Specom 2004), С.Петербург, 2004 г.
Публикации. По теме диссертации опубликовано 9 печатных работ, из них 3 статьи , 4 доклада и тезисы к 2-м докладам на международных и всероссийских научно-технических конференциях,
Классификация систем определения индивидуальности говорящего по речи
Обобщающий термин «распознавание диктора» относится к любой задаче опознавания человека по характеристикам голоса. В рамках этого общего определения выделяются две конкретные задачи, которые интенсивно изучаются: идентификация диктора и его верификация. Суть различия между идентификацией и верификацией весьма проста: в первом случае задача состоит в том, чтобы классифицировать непомеченную звуковую лексему как произнесенную одним из N дикторов эталонного множества (с JV" возможными исходами). Во втором же случае необходимо решить, принадлежит ли некоторая непомеченная звуковая лексема конкретному эталонному диктору (при двух возможных исходах: лексема либо считается принадлежащей данному лицу, либо отвергается по причине принадлежности «злоумышленнику»).
Задача идентификации может найти свое применение, например, в криминалистике, где по записи речи на магнитофонной ленте следует отождествить голос говорящего с голосом одного из многих подозреваемых. В отличие от процесса идентификации, в котором говорящий не называет или даже скрывает свою личность, процесс верификации подразумевает установление подлинности той личности, за которого выдает себя говорящий. Таким образом, в первом случае ответ на вопрос «кто он?», должен быть найден ЭВМ, тогда как во втором случае диктор добровольно сотрудничает с машиной, называя себя, а машина подтверждает, он это или нет. На практике задача верификации стоит в контрольно-пропускных пунктах учреждения, при проведении операций личного счета в банке через телефонные каналы связи и т.п.
Следует отметить, что количество информации, которое необходимо получить в задаче идентификации, оказывается, как правило, больше, чем при решении задачи верификации. Поэтому естественно ожидать, что при прочих равных условиях качество распознавания (т.е. вероятность принятия правильного решения) в случае верификации будет выше, чем в случае идентификации. Критическим параметром задачи идентификации является число дикторов в эталонном множестве: при бесконечно большом числе дикторов вероятность ошибки стремится к единице. В то же время качество верификации голоса не зависит от числа дикторов в эталонном множестве. На рис. 1.3. дается зависимость ожидаемых ошибок идентификации и верификации от объема выборки дикторов, вычисленная Додингтоном, путем моделирования задачи на ЭВМ [31].
Однако, хотя качество распознавания остается неизменным с увеличением количества дикторов, с задачей верификации связана одна трудность, которой нет в задачах идентификации. Дело в том, что при верификации требуется иметь гораздо более широкий набор отличительных признаков голоса. Так, например, если в задачах идентификации отыскание эталона, наиболее «близкого» к распознаваемой лексеме, может быть приемлемым результатом без статистического оценивания, то при отождествлении голоса с конкретным субъектом требуется характеризовать результаты этого процесса «степенью близости» в статистическом смысле [12].
Идентификация голоса в данном определении иногда еще называется идентификацией на замкнутом множестве, в отличие от той же процедуры на открытом множестве, когда существует определенная вероятность того, что неизвестный голос не принадлежит ни одному из субъектов эталонного множества. В последнем случае число возможных решений равно N+1, т.е. возможна классификация распознаваемой лексемы как не относящейся ни к одному из эталонов. Отсюда следует, что идентификация на открытом множестве представляет собой комбинацию задач идентификации и верификации, в которой сочетаются худшие случаи обеих задач: качество распознавания снижается из-за сложности идентификации, а возможность отнесения распознаваемого голоса к числу посторонних требует достаточно полного описания статистических характеристик речи.
Таким образом, процессы идентификации и верификации являются принципиально различными по своей природе процессами, хотя и ставят перед собой схожие задачи. Эти различия сохраняются во всех своих нюансах даже в том случае, когда на ЭВМ возлагаются задачи верификации группы голосов (например, на КПП). Независимо от размеров этой группы программа верификации при каждом предъявлении голоса будет осуществлять однократную процедуру решения «допустить» или «отвергнуть» и не будет связана с увеличением времени принятия решения. Эта особенность вызвана тем обстоятельством, что перед системой стоит задача не перебора всевозможных эталонов для установления личности произносящего пароль, а проверки истинности заявителя путем сравнения голоса последнего только с эталоном той личности, за которую он себя выдает. С точки зрения обработки сигналов обе задачи почти совпадают. Основное отличие заключается в тех параметрах, которые используются для построения меры различимости. Решение, формируемое системой при идентификации диктора, сводится к выбору того диктора, чье эталонное описание наиболее близко к описанию, полученному по входному сигналу. При верификации требуется решить задачу бинарного выбора, т.е. принять или отклонить утверждение о том, что голос опознаваемого диктора идентичен данному эталону, и это достигается на основе сравнения значения меры различимости с выбранным порогом.
Методы получения признакового описания сигнала
Речевой сигнал может быть описан с использованием следующих систем признакового описания: спектральные методы; использование коэффициентов линейного предсказания; методы анализа кепстра.
Спектральные методы используют признаки, полученные путем вычисления спектра сигнала. Также, помимо вычисления спектра сигнала напрямую через БПФ, используют его аппроксимацию, которая представляет сумму сигналов на выходе банка полосовых фильтров. Это связано с тем, что информативность различных частей линейного спектра неодинакова: в низкочастотной области содержится больше информации чем в высокочастотной. Поэтому для предотвращения излишнего расходования ресурсов, необходимо уменьшать число элементов, получающих информацию с высокочастотной области, или, что то же самое, сжать высокочастотную область спектра в пространстве частот. Наиболее распространенный метод [87] - логарифмическое сжатие или приведение к Mel шкале.
Обычно эту шкалу применяют в банке фильтров (рис 2.9.) для усреднения в области Mel шкалы. При этом каждый фильтр в банке имеет треугольную полосу пропускания частотной характеристики и длина этой полосы постоянна в Mel шкале и различна в линейной шкале. Полосы пропускания фильтров в банке наполовину перекрываются. Количество фильтров в банке соответствует числу барковских частотных полос. Обычно используют около (18-20) таких фильтров, чтобы равномерно покрыть диапазон до 11 кГц.
В идеале, пространство характеристик должно быть невысокой размерности и натянуто на базис независимых параметров с малой дисперсией для одного человека, и существенно большой для разных людей. Кроме того, характеристики должны быть легко вычислимы из естественной речи, быть стабильными во времени и быть как можно меньше подвержены влиянию здоровья диктора, окружающего шума, качества передачи и наконец защищены от подражания. Хотя преставления в пространстве признаков, удовлетворяющих всем этим условиям, возможно, не существует, некоторые существующие представления удовлетворяют подмножеству этих критериев.
Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала [21,22]. Этот метод является доминирующим при оценке основных параметров речевого сигнала, таких, как, например период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее передачи и хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений.
Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом, определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями. Коэффициенты предсказания — это весовые коэффициенты, используемые в линейной комбинации.
Очевидное достоинство этой модели в том, что ее точность напрямую зависит от порядка предсказания, так как можно более точно предсказывать будущие значения сигнала, основываясь на большем наборе предыдущих измерений. Также можно показать, что модель линейного предсказания эффективно моделирует спектр сигнала как сглаженный спектр. Уравнение (2.21) может быть переписано в z-представлении и показано как операция линейной фильтрации.
Учитывая то, что квадратичная ошибка должна быть минимальна (желателен поиск решения, которое дает нам минимальную ошибку энергии), коэффициенты уравнения (2.24), кроме aLP{0), могут быть получены из следующей матрицы. Эти уравнения называются ковариантным методом, где Ф - ковариантная матрица, фпО ,к) - ковариантная функция для s(n). Существует три основных пути подсчета коэффициентов предсказания: ковариантные методы базируются на ковариационной матрице (также известной как метод наименьших квадратов) и периодические (или гармонические методы). Автокорреляционный метод в распознавании речи используется почти исключительно из-за его вычислительной эффективности и присущей ему стабильности. Автокорреляционный метод всегда производит фильтр предсказания, чьи нули лежат внутри круга в z-плоскости. Из-за того, что длина должна быть конечной, наложение окна на сигнал имеет важное значение. Обычно для этого используют окно Хэмминга. Из-за быстрых изменений в сигнале на концах окна могут возникать искажения. При перекрывающем анализе гарантируется гладкий переход от кадра к кадру оцененных параметров.
Определение периода основного тона и классификация тон/шум могут быть осуществлены на основе использования ряда методов. Для вокализированных звуков хорошо подходит модель, содержащая только полюсы (чисто полюсная) в своей передаточной функции, но для носовых и фрикативных звуков требуется учитывать еще и нули. Однако из дальнейшего будет ясно, что если порядок модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметры, так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов.
Речевой сигнал может моделироваться путем свертки трех компонент: последовательности импульсов, составляющих основной тон р(п), импульса возбуждения е(п) и импульсной характеристики голосового тракта u(n). Пусть w(n) -весовая функция (окно) конечной длительности, служащее для выделения участков речевого сигнала.
Принцип оптимизации Беллмана и Динамическое программирование
Алгоритмы Динамического программирования, основанные на принципе Беллмана - мощные инструментальные средства, которыми мы и воспользуемся, чтобы уменьшить вычислительную сложность
Предположим, что мы отбыли из (/0,у0) и пусть &-тый узел пути будет (ik,jk). Цель состоит в том, чтобы вычислить минимальный вес, требуемый, для достижения последнего узла. Переход к (ik,jk) должен иметь место от одного из
возможных узлов, который может быть в (к-ї) -ой позиции пути (то есть, (/ _,,Л-) узел). Это важно. Для каждого узла сетки мы предполагаем, что имеется набор возможных предшественников, определяя так называемые локальные ограничения. Принцип Беллмана сводится к:
Действительно, полный минимальный вес, для достижения узла (ik, jk) -минимальный вес до узла (4_,,У4_і) плюс дополнительный вес перехода от {ik_x, jk_x) к (ik,jk). Кроме того, поиск минимума ограничивается только в пределах набора допустимых предшественников для (ik,Jk) узла. Эта процедура выполняется для всех узлов сетки. Однако, во многих случаях не все узлы сетки используются, и оптимальный путь ищется в их подмножестве, которые определены через так называемые глобальные ограничения. Результирующий алгоритм известен как динамическое программирование. Уравнение должно соответственно измениться, если вес D дается в мультипликативной форме и или если требуется максимизация.
Рассмотрим, как используется рекурсивное уравнение (3.1) для создания оптимального полного пути. Рисунок 3.2 иллюстрирует процедуру. Набор узлов, используемых в оптимизации (глобальные ограничения) обозначен как темные точки, и локальные ограничения, определяющие допустимые переходы среди этих узлов показываются на рисунке тонкими строками. Приняв решение искать полный путь и предположив D (0, 0) = 0, соответствующий вес D(/,,7,) для всех используемых узлов, участвующих в шаге к = 1 вычислен через (3.1) (в нашем случае, только два допустимых узла, 0 (1, 1) и 0 (1, 2)). Затем, вычисляются веса этих (трех) узлов при шаге к = 2, и процедура повторяется, пока мы не достигаем конечного узла (I, J). Последовательность переходов, ведущих к минимуму D (I, J) конечного узла определяет минимальный вес пути, обозначенный толстой линией. Рис. 3.2. Оптимальный путь
Оптимальный узел соединения, между тестовым и связанным образцами, может тогда быть выявлен, отслеживая в обратном порядке оптимальный путь. В примере рис. 3.2 каждый шаг к рекурсии использует только узлы с той же самой координатой абсциссы, которая отражает локальные принятые ограничения. Вообще, это - не необходимо и может использоваться более вовлеченная топология. Однако, философия поиска минимума остается прежней.
Однако возникает вычислительная проблема. Можно оценить все возможные варианты, но это чрезвычайно неэффективно, так как количество возможных вариантов растет экспоненциально с ростом длины последовательностей. Поэтому на путь накладываются ограничения. Каждый кадр входного сигнала должен быть использован в процессе сравнения; Существуют пределы сжатия/растяжения тестового сигнала, называемые глобальными ограничениями; Пути не могут идти назад во времени (так называемые локальные ограничения).
Глобальные ограничения определяют область узлов, по которым ищется оптимальный путь. Узлы вне этой области не рассматриваются. В основном глобальные ограничения определяют полное протяжение или сжатие, определенное для процедуры согласования. Пример показан на рис. 3.3. Они известны как ограничения Итакуры. Допустимые узлы тогда расположены в пределах параллелограмма, показанного на рис. 3.3 сплошной линией. Пунктирная линия обусловлена глобальным ограничением, когда приняты ослабленные конечные ограничения, упомянутые прежде.
Локальные Ограничения. Эти ограничения определяют набор предшественников и допустимых переходов к данному узлу сетки. В основном, они ограничивают пределы за максимальные расширения/сжатия, которых последовательные переходы могут достигать. А свойство, которому должны соответствовать любые локальные ограничения -монотонность. Существует два алгоритма ДИВ - симметричный и ассиметричный. Принципиальной разницы в этих алгоритмах нет. Различаются лишь рекуррентные уравнения, задающие так называемые локальные ограничения, налагаемые на искомый минимальный путь на матрице весов.
Основным свойством симметричного алгоритма является то, что результат сравнения шаблона с тестовой последовательностью не зависит от того, какая из входных последовательностей является эталоном, а какая подвергается тестированию. Но основной принцип алгоритма — каждый характеристический элемент тестового вектора должен быть учтен - выполняется. С учетом симметрии симметричного алгоритма ДИВ, также подвергается сравнению каждый элемент эталонного вектора.
При тех же глобальных ограничениях, рассмотрим набор наиболее используемых рекуррентных уравнений, задающих симметричный ДИВ. С физической точки зрения, каждое рекуррентное уравнение задает допустимую степень сжатия/растяжения обоих подвергающихся сравнению векторов.
Здесь на диаграмме переходов жирными линиями показаны возможные пути, которыми можно попасть в текущую точку на весовой матрице. G(i, j) — текущий глобальный путь, a d(i J) - соответствующий весовой коэффициент матрицы.
В вычислительном отношении формула может быть рекурсивно запрограммирована. Тем не менее, если язык программирования не оптимизирован под рекурсии, этот метод может быть медленным, даже для относительно малых размеров эталонов. Другой метод, быстрый и требующий меньше памяти, использует два вложенных цикла. Этот метод нуждается только в двух массивах, которые содержат смежные столбцы временной матрицы.
Полносвязная нейронная сеть
Каждая группа моделей нейронных сетей может быть использована для решения лишь некоторого ограниченного класса практических задач. Так многослойные и полносвязные нейронные сети с сигмоидальными передаточными функциями используются для распознавания образов и адаптивного управления; нейронные сети с локальными связями - для обработки изображений и некоторых других частных задач. Для решения задач линейной алгебры используются многослойные сети с особыми передаточными функциями.
Лишь для небольшого числа моделей нейронных сетей существует строгое математическое обоснование возможности их применения для решения конкретных практических задач [25]. В наибольшей степени теоретически проработаны трехслойные нейронные сети с сигмоидальными передаточными функциями. На основе теоремы Колмогорова-Арнольда доказано, что такие сети могут реализовывать любые отображения входного сигнала в выходной. К построению многопараметрических отображений сводится большинство задач распознавания, идентификации и т.д.
Наиболее распространенным видом нейронной сети в задачах распознавания речи является трехслойный полносвязный персептрон [17, 32]. Узлы входного слоя из служат для подачи сети вектора характеристик голоса, а выходы узлов выходного слоя используются для принятия окончательного решения.
Одной из проблем при использовании НС является выбор числа нейронов скрытого слоя. Чем больше нейронов в скрытом слое, тем более сложную поверхность решений может формировать НС. Однако, слишком большое их количество приведет к тому, что сеть будет стараться "запомнить" каждый входной вектор, что может привести к потере обобщения и, следовательно, ухудшению распознавания новых векторов, на которых сеть не обучалась. Хотя и существуют общие рекомендации по выбору числа нейронов скрытого слоя, на сегодняшний день оптимальное число нейронов в большинстве случаев выбирается для каждой задачи методом проб и ошибок.
В задаче верификации решением является пропуск или отказ человека, следовательно, в выходном слое нейронной сети достаточно будет одного нейрона, который бы для клиента выдавал бы 1, а для злоумышленника -1. Кроме того, для каждого клиента строится и обучается собственная НС, которая обучается так, чтобы максимально выделить характеристики заданного клиента.
Основной проблемой полносвязной сети является ее размер. Этот фактор становиться особенно важным в практической реализации, когда время обучение не может быть слишком долгим. Чем больше и сложнее структура НС, тем больше времени тратиться на ее обучение, и тем дольше проходит процесс верификации.
В общем случае не известно сеть какого размера наилучшим образом подходит для решения данной задачи, и эта проблема вряд ли будет решена, так как каждая задача предъявляет к НС различные требования. Одни из подходов к уменьшению размера сети состоит в том, чтобы, начиная с полносвязной сети, последовательно удалять отдельные связи скрытого слоя. Удалению подлежат те связи, у которых веса близки к нулю и которые мало влияют на решение. Другой подход предполагает выбирать структуру НС на основе априорных знаний о входных данных. Архитектура сети в этом случае может быть построена таким образом, чтобы отражать структуру входных данных. Обычно эти архитектуры схожи в том, что входы нейронной сети группируются по зонам, которые соединяются с одним или несколькими нейронами скрытого слоя. В настоящей работе автором предлагается подход к построению архитектуры НС на основе использования слоистой структуры.
Общая структура выглядит следующим образом. Входной слой делится на независимые участки - каждый для определенного вектора характеристик. Каждый участок делится на перекрывающиеся зоны. Нейроны скрытого слоя также делятся на участки, соответствующие участкам входного слоя, а каждый нейрон определенного участка связан с одной зоной входного слоя того же самого участка. Следующий нейрон этого участка скрытого слоя связан со следующей зоной, и т.д. Выходной слой состоит из одного нейрона, который связан со всеми нейронами скрытого слоя (рис.3.14 ).
Входными данными для такой сети является М векторов или участков длины N, где М - число используемых речевых характеристик, а М- число элементов в последовательности одной из характеристик, которая получена прохождением окном по всему речевому фрагменту. Нейроны скрытого слоя также делятся на М участков, каждый из которых связан только с соответствующим участком входа и не связан ни с одним другим участком входного слоя. Такое деление на участки предполагает, что все используемые речевые характеристики независимы между собой, что почти верно для кепстральных коэффициентов как это было показано ранее. Кроме того, входной слой тоже делится на зоны, которые могут перекрываться. Таким образом, каждый нейрон входного слоя связан с одним или несколькими соседними нейронами скрытого слоя.
Предварительная оценка эффективности слоистой архитектуры НС. Как было описано раньше, основной проблемой полносвязной сети является ее размер. Так как входная последовательность характеристик имеет довольно большую длину, то эта проблема становится весьма актуальной. Например, для слова"распознавание" при обработке 25 мс. окном с шагом 10 мс и при выборе 16 кепстральных коэффициентов и их 16 производных в каждом окне входной вектор, подаваемый на нейронную сеть будет иметь длину порядка 3000. Даже если число нейронов скрытого слоя будет в 6 раз меньше, общее число весовых коэффициентов полносвязной сети составит порядка 1500000. Хотя время работы сети и не будет заметно большим, обучение такой НС займет не менее 2-7 минут в зависимости от скорости ПК. Модель клиента, для которого хранятся все весовые коэффициенты обученной сети и эталон будет занимать больше 10 Мб. Хотя приведенные выше цифры несколько завышены, так как не все 32 характеристики будут использоваться для формирования входного вектора, необходимость выбора другой архитектуры очевидна. Для решения упомянутых проблем в данной работе предлагается использовать слоистую архитектуру НС.
Если воспользоваться цифрами из приведенного выше примера и ширину зоны входного слоя принять за 4 с перекрытием в 3 нейрона, то общее число коэффициентов для такой сети составит около 14000, что более в 100 раз меньше, чем для полносвязной сети.