Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Юрков Павел Юрьевич

Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов
<
Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Юрков Павел Юрьевич. Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов : дис. ... канд. техн. наук : 05.13.19, 05.13.17 Таганрог, 2006 167 с. РГБ ОД, 61:07-5/1132

Содержание к диссертации

Введение

1. Анализ существующих методов биометрической аутентификации по голосу и разработка системы, затрудняющей проведение replay-атаки, с использованием изменяемого множества ключевых слов 11

1.1 Классификация существующих биометрических сие і ем распознавания пользователя по голосу 11

1.2 Анализ возможных атак злоумышленника на биометрические системы аутентификации 21

1.3 Выбор структуры системы аутентификации но юлосу, затрудняющей проведение геріау-атаки 24

1.4 Определение состава сисіемьі биомегрической аутентификации по голосу с использованием изменяемого множества ключевых слов 30

1.5 Выводы 39

2. Разработка модели ре ч ев ос приятия с использованием вейвлет-преобразования и методов формирования векторов речевых признаков 41

2.1. Обоснование выбора модели представления речевого сигнала 41

2.2. Использование непрерывного вейвлет-преобразования для обработки речевых сигналов 53

2.3. Разработка модели речевосприяшя на основе вейвле і-преобразования 65

2.4. Разработка мет ода формирования речевых векгоров признаков 74

2.5. Выводы 86

3. Разработка методов распознавания фонем и слов для подсистемы контроля ключевых слов 88

3.1. Раірабоїка метода распознавания фонем для акуешко-фонетического модуля 88

3.2. Разработка метода распознавания слов 106

3.3. Результаты экспериментов 115

3.4. Выводы 116

4. Разработка текстонезависимой подсистемы ауіенгификации диктора и экспериментальные исследования параметров распознавания 118

4.1. Выбор математической модели представления речевою сшнала для подсистемы аутентификации диктора 118

4.2. Выбор модели предсіавления диктора для решения задачи аутентификации диктора 123

4.3. Экспериментальные исследования зффективных параметров распознавания для решения задачи аутентификации голоса диктора 126

4.4. Выводы 136

Заключение 138

Список использованных источников

Введение к работе

Аюуалыюсть темы.

Системы автоматической аутентификации и идентификации личное і и по биометрическим параметрам в последнее время являюіся бурно развивающейся отраслью. Широкое применение данных систем обусловлено тем, что биометрические признаки уникальны для каждого человека и, как считалось до последнего времени, не отчуждаемы от владельца, т.е. в отличие ог ключа, счарі- карт, брелков и пр. их невозможно украсть. Однако широкое применение іаких систем влечет за собой повышенный интерес со сюроны злоумышленников, направленный на разработку атак по их взлому. Наиболее час і о применяемой является replay-атака, суть которой заключается в том, что в систему передаются биометрические признаки, предъявленные ранее. Например, системы, основанные на сканировании отпечатков пальцев, можно обойти, предъявив силиконовый муляж, а для голосовых систем, предъявив магнитофонную запись парольной фразы. Таким образом, разработку систем биометрической аутентификации/идентификации необходимо вести с учетом защиты их от этих атак.

Особое место среди систем биометрической аутентификации занимают системы, основанные на юлосовых биометрических признаках. Досюинсіво их заключается, прежде всего, в том, что для проведения аутентификации не требуется непосредственного контакта пользователя с аппаратурой. Поэтому данные системы применимы там, где использование других методов практически невозможно, например, для предоставления удаленного доступа к базам данных, банковским ечеіам, вычислительным системам, системам дистанционного обучения по телефонным каналам или через Internet.

В настоящее время в области распознавания речи ведеіся интенсивный поиск новых методов описания речевого сиінала в пространстве признаков. Разрабатываются методы, позволяющие наиболее эффективно распознавать речевой сигнал независимо от голоса диктора, с друюй стороны ведется поиск методов, позволяющих выделять индивидуальные особенности говорящего. Кроме того, разрабатываюіся новые решающие правила, дающие лучшие результаты, чем используемые в настоящее время. Как правило, основаны они на статистических методах или выполняются на основе аппарата искусственных нейронных сетей.

По мнению автора, перспективной с точки зрения защиты от геріау-атак можеі быть система аутентификации, основанная на предъявлении случайно сформированной последовательности ключевых слов из словаря фиксированного размера. Тогда задачи, решаемые іакой системой, можно разделить на две части.

Первая - собственно решение задачи голосовой аутентификации, при этом разрабатываемый метод должен быть контекано-независимым. Вторая заключается в решении задачи распознавания изолированных слов независимо ог голоса диктора. При этом в системе предусматривается возможность смены всех ключевых слов.

Для повышения качества распознавания предлагается разрабоїаіь систему правил, являющихся комбинацией нейросетевых методов и методов нечеткой логики. Необходимо отметить, что методы нечеткой логики лрсдставляюі собой мощный инструмент распознавания и позволяют формировать решающие правила в наиболее удобной для понимания человеком форме.

Разработке новых методов обработки и распознавания речевых сигналов при аутешификации посвящена данная работа.

Цели и задачи работы.

Целью диссертационной работы является разработка и исследование методов и средств формирования признаков речевых сигналов, распознавания фонем и слов, предназначенных для построения безопасных систем аутентификации по голосу, а так же определение оптимизированных параметров процедуры аутентификации для понижения уровня равновероятной ошибки,

В соответствии с поставленной целью необходимо решить следующие задачи:

выработать требования и разрабоїаіь структуру системы аутешификации, эффективно решающей задачу распознавания голоса диктора и затрудняющей проведение геріау-агаки;

- разработать модель речевосприятия на основе меіодов вейвлет-анализа с целью формирования информативных векюров речевых признаков для решения задачи распознавания изолированных слов независимо оі юлоса диктора;

- разработать метод распознавания фонем, основанный на комбинации нечетких и нейросетевых принципов классификации с использованием информации об акустической классификации звуков для решения задачи распознавания изолированных слов;

разработать эталонную модель и метод распознавания изолированных слов, позволяющих выполняв распознавание без процедуры обучения;

разрабоїать подсистему текеюнезависимой аутентификации голоса и провести экспериментальные исследования для нахождения опшмизированных параметров векюров биометрических признаков и размеров нейронной сети (НС), позволяющих понизить процент равновероятной ошибки при решении задачи ауіентификацни.

Объект исследования.

Объектом исследования диссєріации являются системы аутентификации по голосу, речевой сигнал и модель представления слова. Исследования проводятся на предмет усовершенсівования методов формирования векторов признаков речевою сигнала и эффективною решения задачи распознавания изолированных слов с возможностью быстрой смены словаря с целью построения безопасных сисіем аутентификации и понижения уровня равновероятной ошибки при решении задачи распознавания голоса диктора.

Методы исследования.

В работе использованы основные положения теории цифровой обработки сигналов, спекірального анализа, теории цифровой филырации и вейвлет-аиализа, основы теорий речеобразования и физиологии воспршмия речи человеком, а также методы распознавания образов, а именно, аппарата искусственных нейронных сегей и теории нечеткой логики. При программной реализации системы распозпапания использовались методы струкгурного и обьекіно-ориентированноіо программирования.

Научная новизна работы заключается в сочетании усовершенствованных методов распознавания голоса диктора и разработанных новых методах обработки и распознавания слов, базирующихся на вейвлет-апализе, нейро-нечетком распознавании фонем и методах формирования шаблона эталонного слова без этапа обучения, что в результате позволяет разрабатывать безопасные сисіемьі аутентификации, затрудняющие проведение replay-атаки, и понижает процент равноверояїной ошибки при решении задачи распознавания голоса диктора.

Основные научные результаты;

1. Выработаны требования и разработана структура системы аутентификации, состоящая из подсистемы текстонезависимой аутентификации голоса и дикгоронезависимой подсистемы контроля ключевых слов и затрудняющая проведение геріау-атаки.

2. Разработана новая математическая модель системы речевосприятия на основе методов вейвлет-анализа и базирующийся на ней метод формирования векторов речевых признаков. Полученная модель имеег компактное и простое математическое представление, что позволяет быстро перенастраивать ее под іребонания решаемой задачи. Благодаря объединению вейвлет-функций с функцией компенсации громкосш впервые появилась возможность получения модели первичной обработки сигнала в системе речевосприятия в виде единого преобразования. За счет использования нейронных сетей с узким горлом, использующих нелинейные активационные функции, впервые получены компактные векторы признаков, основанные на модели системы речевосприятия, которые сохраняют информацию как о частотных, так и о временных составляющих речевого сигнала, что является более информаїивньш при распознавании по сравнению с традиционными методами.

3. Разработан метод распознавания фонем, основанный на сочетании нейросетевых методов и алгоритмов нечеткого вывода. Разработанный метод обеспечивает более качественное распознавание фонем по сравнению с чист нейросегевым. При этом благодаря использованию акустической классификации звуков получена возможность разделения множества фонем по дихотомическому принципу, что уменьшает сложность разделяющей гиперплоскости пространства признаков и как следствие повышает точность распознавания; уменьшает размер и время обучения нейронных сетей,

4. Разработаны эталонная модель и метд распознавания слов, основанные на методах нечеткой логики и нечеткого динамического программирования, которые позволяют выполнять распознавание, минуя процедуру обучения, и как следствие обеспечивают возможность операгивной смены рабочего словаря в системе аутентификации, что затрудняет проведение геріау-атаки, г.к. уменьшает имеющееся у злоумышленника время для формирования базы ключевых слов.

5. Экспериментальным путем получены оптимальные параметры векторов биомегрических признаков и размеров нейронной сети, позволяющие существенно понизить процент равновероятной ошибки до 1.3% при решении задачи ауіепіификации.

Практическая значимость работы состоит в следующем.

Разработанные методы и проіраммьі можно исполь іоваїь при построении безопасных систем текстонезависимой биометрической аутентификации голоса пользователя различного назначения, например, для предоставления удаленного доступа к ресурсам и услугам по телефонным каналам или Internet

На защиту выносятся следующие результаты:

- требования, предъявляемые к структуре и реїламеніу работы систем биометрической аутентификации пользователя по голосу, позволяющие максимально затруднить злоумышленнику возможность проведения геріау-атак;

- модель речевоспринтия на основе методов вейвлет-анализа и метод формирования векторов речевых признаков для распознавания фонем, основанный на данной модели;

- нейро-нечеткий метод распознавания фонем;

- методы формирования эталонной модели слова и распознавания изолированных слов, основанные на методах нечеткой лоїики и нечеткого динамического программирования;

- полученные экспериментальным путем параметры формирования векторов биомегрических признаков и нейронных сетей, позволяющие существенно снизить процент равновероятной ошибки.

Реализация результатов работы.

Материалы диссертационной работы были использованы в следующих рабоіах:

- в х/д НИР №16107 - «Разработка инженерно-технических решений по защпіе оі ПСД к аппаратным средствам, программам и данным рабочей станции» использованы методы, алгоршмы и программы іекстопезависимой аутеншфикации пользователя по голосу;

- в г/б НИР №г.р. І6І53 «Разработка и исследование неиросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"» использованы методы, модели и программы подсистемы контроля ключевых слов;

- меюды и программы текстопезависимой аутентификации пользователя по голосу использованы в лабораюрном стенде по изучению методов и систем биометрической аутентификации курса Программно-аппаратная защита информации", читаемого на кафедре БИТ.

Использование результатов диссертационной работы подтверждено актами внедрения, которые приводятся в приложениях. Апробация работы. Основные научные результаты работы докладывались и обсуждались;

- на Всероссийской научно-технической конференции с международным участием «Компьюгерпые гехиолоіии в инженерной и управленческой деятельности», Таганрог, 1999;

- на втором научно-практическом семинаре "Информационная безопасность - Юг России", Таганрог, 2000;

- на XLVI научно-технической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таїанрог, 2001;

- на научно-практической конференции "Информационная безопасность", Таганрог, 2001;

- на научно-практической конференции "Информационная безопасность", Таганрог, 2002;

- на X Всероссийская научно-пракіическая конференция «Проблемы информационной безопасносш в системе высшей школы», Москва, 2003;

- на ХІЛХ научно-технической и научно-методической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таганрог, 2003;

на V международной конференции "Информационная безопасность1 , Таганрог, 2003;

- на VI Международной научно-практической конференции "Информационная безопасность", Таганрог, 2004;

- на международной научной конференции "Моделирование устойчивого регионального развития", Нальчик, 2005.

Публикации.

По резулыатам диссертационной работы опубликовано 13 печатных работ из них 7 гезисов докладов и 6 статей; 4 работы опубликованы в журнале "Известия ТРТУ" и 1 в журнале "Нейрокомпьютеры. Разработка, применение", входящих в перечень, рекомендованный ВАК РФ для публикации резулыатв диссертационных работ.

Структура и объем работы,

Диссертационная работа содержит введение, 4 раздела и заключение общим объемом 140 страниц. В рабоїе приведены: ірафический материал в объеме 39 рисунков, 59 формул, 3 таблицы. Библиографический список состоит из 109 наименований.

Вя m первом разделе диссертации проводится аналитический обзор сущесівующих систем аутентификации по голосу и рассматриваются варианіьі возможных действий злоумышленника по взлому систем данною типа. Вырабашваются требования к системе аутентификации по голосу, способной максимально затруднить (в идеале - предотвратить) возможность проведения злоумышленником replay-атаки. Разрабатывается структура системы аутентификации, удовлетворяющая данным требованиям.

Вои втором разделе диссертации осуществляется разрабоїка модуля цифровой обработки сигналов для подсистемы контроля ключевых слов. С этой целью рассматриваются существующие модели представления речевого сигнала и разрабатывается модель речевосприятия, в основе которой лежат методы вейвлеі-анализа. Разрабатывается меюд формирования векюров речевых признаков на основе предложенной модели речевосприячия. Полученный таким образом вектор речевых признаков содержит в себе информацию как о частотных, гак и о временных характеристиках речевого сигнала. Для устранения избыточности полученного вектора признаков предлагается использоваїь нейронные сети с узким і орлом.

D третьем разделе диссеріации осуществляем разработка акуеіико-фонешческого модуля и модуля распознавания слов для подсистемы контроля ключевых слов. Основу первого модуля составляет нейро-нечеткий метод распознавания фонем, главной особенностью которого является выполнение процедуры фаз зификации с помощью нейронных сетей, что дает возможность ишерпретапии многомерных векторов речевых признаков в виде нечетких переменных и дальнейшего распознавания фонем с помощью процедур нечеткого вывода. При разработке модуля распознавания слов иредлаї ается новая модель слова, основанная на нечегких функциях. Основной особенностью этой модели является возможность формирования эталона без этапа обучения. Разрабатываются методы формирования эталона и распознавания слов на основе методов нечеткого динамического проіраммирования.

В _, четвертом разделе диссертации проводшея разработка тскстонсзависимой подсистемы аутентификации голоса пользователя. Осуществляется выбор математической модели представления сигнала для модуля формирования биометрических признаков, а шкже выбор математической модели представления диктора для проведения процедуры текстонезавнеимой аугетификации. Проводятся экспериментальные исследования с целью выбора параметров формирования биометрических веюоров признаков и числа нейронов скрытого слоя, позволяющие существенно снизить процент равновероятной ошибки,

R заключении работы подводятся итоги и делаются выводы об основных научных результатах, полученных в диссертации.

Анализ возможных атак злоумышленника на биометрические системы аутентификации

Как было отмечено во введении, широкое распространение систем биометрической аутентификации влечет за собой повышенный интерес со стороны злоумышленников по их взлому.

На сегодняшний момент можно считать уже классическими следующие 8 типов аіак [23,24], которые на рисунке 3 обозначены цифрами.

Первый тип атак заключается в подаче муляжа сканируемого объекта на сенсор системы аутентификации. Данный тип атак наиболее распространен в системах аутентификации по отпечатку пальцу. Завладев копией ошечаїка пальца, злоумышленник может создать абсолютно идентичный силиконовый муляж пальца. Так же данный тин атак может быть использован при сканировании формы ладони, подписи или лица.

Второй тип атак состоит в передаче в систему ранее записанного цифрового образа биометрического сигнала. При этом передача данных осуществляется минуя сенсор и АЦП. Примером может являться передача в сисіему оцифрованной копии отпечатка пальца или записанного фрагмента речевою сиінала диктора. Данный тип атак принято называть replay-атакам и. Следует оімеїиіь, что в случае систем аутентификации по голосу атаки первою и віороіо іипа пракіически не отличаются друг ог друга. Если в первом случае записанный ранее речевой сигнал воспроизводится с помощью цифрового маїниюфона и записывается микрофоном (сенсором), то во втором случае оцифрованный речевой сигнал передается непосредственно в память системы. Несмотря на то, что реализация данных атак несколько отличается друг от друга, тем не менее, для их осуществления необходимо иметь запись голоса зарегистрированного пользователя. Поэтому в дальнейшем в случае систем ауіеніификации по голосу под replay-атакой будем подразумевать атака первою и вюроготипов.

Атака третьего типа направлена на рабогу модуля формирования биометрических векторов признаков. В данном случае код модуля изменяется таким образом, чтобы он формировал требуемое злоумышленнику множество векторов признаков.

Четвертый тип атак основывается на замене входной последовательности биометрических векторов признаков. После того как входной сигнал был обработан в модуле формирования биометрических векторов признаков, полученная последовательное может быть заменена на синтезированную злоумышленником (предполагается, чю плотность распределения векторов признаков известна). Как правило, модуль формирования векторов признаков и модуль сравнения неразделимы, поэтому проведение данного типа атак в значительной сіеиени затруднено. Тем не менее, если последовательность векторов признаков передается по открытым каналам связи удаленному серверу для сравнения, то данный тип атак вполне возможен.

Пятый гип атак направлен на модуль сравнения. В данном случае в результате атаки модуль посюянно выдает искусственно завышенное или заниженное значение степени близосіи.

Атака шестого типа состой і в изменении биометрического эталона в базе данных. База данных биометрических зі& іоном может быть доступна локально или удаленно. Так же она может бьпь распределена на нескольких серверах. При атке данною іина злоумышленник пытается изменить сохраненный биометрический эталон таким образом, чтобы в результаїе был допущен под чужим именем незарегистрированный пользователь, или, в крайнем случае, система аутентификации отказала в доступе зарегистрированному пользователю.

Атака седьмою типа направлена на канал передачи данных между базой данных биометрических эталонов и модулем сравнения. В данном случае передаваемые по каналу биометрические эталоны могут быть заменены другими до юго как попадут в модуль сравнения.

Агака восьмого типа направлена на модуль принятия решения. Как правило, выходные данные этого модуля могут принимать два значения "I" или "О" ("Да" - "Нет"). Это одно из наиболее уязвимых мест в системе аутентификации. Поэтому если злоумышленник может получить контроль над этим модулем, то работа всей системы аутентификации может быть нарушена независимо от качества и надежности используемых алюриімов обрабоїки и распознавания сигналов.

Рассмотренные типы атак являются общими для всех типов систем биометрической аутентификации. Проведем оценку возможности проведения этих атак для систем аутентификации по голосу.

Использование непрерывного вейвлет-преобразования для обработки речевых сигналов

В ей влет-анализ - сравнительно молодое (примерно 15 лет) направление в области цифровой обработки сигналов. Тем не менее, в настоящее время он является одним из самых перспективных и популярных направлений в данной области. С выходом в начале 1990-х гг. книги И. Дюбеши [62] вейвлет-анализ нашел широкое применение в цифровой обрабоїке изображения, обработке сиі налов, при анализе и сжатии данных.

Термин вейвлет (от английского wavelet) в буквальном переводе означает "маленькая волна", такое название объясняется формой функций, используемых в вей влет-анализе. Термин "вейвлет-анализ" по смыслу аналогичен термину "Фурье-анализ". В обоих случаях речь идет о представлении исследуемого процесса в виде линейной комбинации различных функций, именуемых базисом соответствующего преобразования. Для вейвлет-анализа характерно понятие масштаб (scale), даже графическое представление в виде диаграммы специального вида именуется скейлогтшмма или скалограмма (scalogramm) Под масштабом понимаются колебательные процессы различной периодичности, Вейвлет-анализ называют "микроскопом", поскольку он позволяет исследовать каждый масштаб с необходимой и достаточной для нею разрешающей способностью [63-80].

Вейвлет-преобразование может использоваться для анализа временных рядов, которые содержат непостоянную мощность в различных частотных диапазонах [66J. Предположим, что существует временной ряд, хПі с равноотстоящими отсчетами St и длиной интервала n=0,...,N l. Также предположим, что существует вейвлет-функция, %(г)), которая зависит oi безразмерного параметра "времени" ц. Рассмотрим условия, при которых эту функцию можно использовать как базисную для вейвлет анализа [61 ]. Ограниченность: (012 «;

Оценка хорошей локализации и ограниченности может быть записана в виде )4 /)] (l + J/j")"1 или Ф(йд)! (1+Лг — «JQI")"1, здесь й)0- доминашная частота вейвлета, число п должно быть возможно большим. Данные неравенства требуют, чтобы вейвлет-функция была ограничена по времени и по частоте. Нулевое среднее w(t)dt = 0; Самоподобие - все вейвлеты семейства имеют і о же число осцилляции, что и базисный вейвлет, поскольку получены из него посредством масштабных преобразований и сдвигов.

Примеры некоторых вейвлет-функций представлены в табл.1 и на рис.14.

Наиболее распространенным является вейвлет Морле (Morlet wavelet), состоящий из плоской волны, модулированной функцией Гаусса, %-безразмерная частота, наиболее часто используется 6, чтобы удовлеїворить условиию допустимости. График данной функции показан на рисунке 14 (а). Термин "функция вейвлет" используется как к ортогональным вейвлетам, так и не ортогональным вейвлегам. Термин "вейвлет-базис" применяется только к ортогональному набору функций. Использование ортогонального базиса подразумевает использование дискретною преобразования вейвлет, в то время как ортогональная функция вейвлет может быть использована и в дискретном, и в непрерывным вейвлет-преобразовании [65].

Для обработки речевых сигналов в данной рабоїе использовалось непрерывное вейвлет-преобразование.

Вейвлет-функции a) Morlet б) Раи! в) DOG (m=2), г) DOG (m=4). Левая часть каждого графика- временное представление (сплошная линия-действительная часть, пунктирная - минмая часть), правая часть каждого графика-частотное представление. N-\ n =0 Непрерывное вейвлет преобразование дискретной иоследоваїельносіи х„ определяется как свертка х„ с масштабируемым и переносимым вариантом функции %(ц): (п - n)St (6)

В выражении (6) знак обозначает сопряженную комплексную величину, s-масшгаб. Изменяя масштаб s вейвлет-функции и транслируя вдоль локализированного индекса времени п, можно создавать изображение, показывающее, с одной стороны, амплигуду особенностей сигнала на определенном масштабе и с другой, как эта амплитуда изменяется со временем. Нижний индекс 0 у Убыл пропущен, чтобы показать, что функция У также была нормализована. Не смотря на то, что вей влет-преобразование можно вычислять, используя формулу (6), однако значительно быстрее делать эти вычисления в просгранстве Фурье.

Для выполнения непрерывного вейвлет-преобразования, сверіка (6) должна бьпь выполнена N раз для каждого масштаба, где N - число точек во временном ряде [64, 67J (выполнение всех N сверюк необязательно, т.к. можно выбрать меньшее число, пропуская каждую вторую точку в п). Выбрав JV точек, в соответствии с теоремой о сверт ке можно выполни гь все JV сверток одновременно в пространстве Фурье, используя дискретное преобразование Фурье (ДПФ): к = ТГ 2 V (7) где k=0,...,N-l - индекс частоты. В непрерывном пределе, Фурье- преобразование функции 4і (t/s) обозначается как т (so). В соответствии с теоремой свертки, вейвлет-преобразование - это обратное Фурье преобразование произведения: Wn{s) = NtXxki? {Sa k)embnSt (8) к = где угловая частота щ определена как: к N 2ктт tok = NtS NtS

Используя выражение (8) и стандартную процедуру преобразования Фурье, можно эффективно вычислять непрерывное преобразование вейвлет. (для определенною масштабам) по всем п одновременно.

Разработка метода распознавания слов

В данном разделе будут разработаны эталонная модель слова и метод распознавания изолированных слов [109]. Разработанные модели и методы будут использоваться в модуле распознавания слов для построения подсистемы контроля ключевых слов с возможностью быстрой смены всего ключевого множества. Не смотря на то, что в данной области проведено большое количество исследований, универсального метода обладающего приемлемыми характеристиками скорости и точности в настоящее время в открытой печати не представлено.

Как уже отмечалось ранее, природа речи такова, что не существует прямого соответствия между акустической информацией и конкретным произнесенным словом. Окружающие шумы, индивидуальные различия говорящих, различия в речи одного и того же человека в разные моменты времени и вариации произношения затрудняют распознавание сказанного слова в потоке речи. В случае непрерывной речи акустический образец слова является частью общею образца фрагмента речи и в соответствии с этим так же может быть изменен. Это приводит к проблеме коартикуляции. Кроме того, слушатель интерпретирует акустическое событие не только на основании того, что содержится в высказывании, но также исходя из контекста, а так же из того, что он ожидает услышать.

При разработке модуля распознавания слов для подсистемы контроля ключевых слов необходимо решить три основные задачи. Первая задача состоит в разработке модели представления слова, которая используется при распознавании, при этом она должна быть компактной с точки зрения хранимых в ней эталонов слов. Вторая заключается в разработке метода, обеспечивающего возможность быстрого формирования эталонных моделей слов. В идеале необходимо разработать такую эталонную модель слова, которая позволит полностью или частично исключить этап обучения. Третья- в разработке метода сравнения входного слова с шаблоном.

Разработка модели представления слова, использующейся в системе, является связующим звеном между нижним акустико-фонетическим уровнем и модулем сравнения слов. Суть данной задачи заключается в выборе способа представления слов в системе. Идеальным вариантом было бы хранение слов в виде их фонетических транскрипций, при этом анализ и выделение фонем из речевого сигнала возлагается полностью на акустико-фонетический уровень. Тогда задачей алгоритма проверки слов было бы сравнение транскрипции, полученной в процессе распознавания, с эталонной транскрипцией слова. Однако, к сожалению, на данный момент не существует в достаточной степени надежных алгоритмов выделения границ между фонемами [95, 104], поэтому распознанные последовательности речевых векторов рассматриваются как фонетические последовательности, а для их трактовки разрабатываются более сложные модели представления слова. Данный вопрос был рассмотрен в параграфе 1.4.2, где было принято решение использовать модель представления слова, базовым элементом которой является все слово, т.к. эти модели обладают самым высоким качеством распознавания.

Основной задачей модуля распознавания слов является сравнение полученной в процессе работы акустико-фонетического модуля фонетической последовательности с эталонным шаблоном слова по правилам, зависящим от выбранной модели представления слова. Несмотря на то, что непосредственная реализация каждого алгоритма сравнения зависит ог выбранной модели представления слова, все они предназначены для решения одной общей задачи. Поскольку, из-за вариативности в произнесении одного и того же слова, практически всегда длина эталонной последовательности будет отличаться от длины исследуемой последовательности. Следовательно, задачей алгоритма проверки слов является приведение длины исследуемого слова к длине эталонного образца и определение их степени схожести.

Прежде чем перейти к разработке эталонной модели слова, реализованной в данной работе, напомним, что в акустико-фонетическом модуле осуществляется классификация сегментов речевого сигнала к множеству фонем на основе нейро нечеткого метода, предложенного в предыдущих параграфах. Результатом работы данного модуля является фонетический вектор, каждый компонент которого представляет собой нечеткую степень принадлежности входною вектора речевых признаков к соответствующей фонеме.

Рассмотрим пример. Пусть па вход системы распознавания подается речевой сигнал, соответствующий слову "ноль". Предположим, что на выходе акустико-фонетического блока была получена последовательность фонетических векторов. Таким образом, имеется возможность анализа степеней принадлежности всех тридцаш шести фонем. Рассмотрим поведение во времени степени принадлежности для группы согласных фонем [н], [л ] и для фонемы [О], показанное на рисунке 30.

Как видно из рисунка 30, степень принадлежности в начале фонемы возрастает, затем достигает определенного максимума в середине и убывает в конце. Возрастание и убывание степени принадлежности в начале и конце фонем объясняемся эффектами коартикуляции, т.е. движениями органов речеобразоваиия. При произнесении слова, в его начале и конце, а так же при переходе от одной фонемы к другой (интервалы 6-8 и 11-14) органы речеобразоваиия не успевают принять соответствующее положение для того, чтобы произвести соответствующий "чистый" звук. Поэтому образующийся звук, еще не потеряв признаков одного звука, приобретает признаки другого. Вследствие этою, закономерно ожидать увеличение и уменьшение степени принадлежности в начале и в конце фонемы, т.е. допускается возможность того, чю при распознавании в акустико-фонетическом блоке могут появляться ошибки.

Выбор модели предсіавления диктора для решения задачи аутентификации диктора

Модель представления диктора является важным компонентом системы аутентификации, основной задачей которой является хранение информации о распределении биометрических векторов диктора в пространстве признаков. Как уже упоминалось ранее в п. 1.1.5, для задач текстонезависимой аутентификации диктора основными являются модели гауссовых смесей (Gauss Mixed Models GMM) и нейросетевые модели. Рассмотрим кратко каждую из них.

Модели гауссовых смесей (GMM)

Пусть У={уі, У2,—,Уі} последовательность биометрических векторов признаков речевого сигнала, произнесенного заявленным диктором 5. При использовании GMM- моделей осуществляется проверка двух гипотез: НО- У принадлежит диктору S и НІ- У не принадлежит диктору S. Как правило это осуществляется с помощью отношения вероятностей, вычисляемого согласно следующему выражению: р(У\Н0) \ Є, принять Я 0 р(У\Н\) \ в, принять НІ ( или логарифма отношения вероятностей: \(y) = \ogp(y\H0)-\ogp(Y\m). (56)

Здесь в выражениях (55-56) p(Y\HO) функция плотносш распределения вероятности для гипотезы НО. Другими словами р(У\Н0) это вероятностное распределение признаков диктора 5 в векторном пространстве признаков. При этом р(У\И1)- вероятностное распределение векіоров признаков потенциального злоумышленника.

Для D-мерною вектора признаков у функция распределения вероятностей в виде смеси гауссианов определяется как: м РІУ U) = Z ,РЛУ) . (57) Здесь плотность распределения вероятностей р{у Л) в выражении (57) есть взвешенная линейная комбинация М унимодальных Гауссовых плотностей вероятности р,(у), представленных -мерным вектором средних значений рг и DxD -мерной ковариационной матрицей Г,:

РЛУ)- .. . „,, _ 1/2 е , (58) (2к)т 2, В выражении (57) набор весовых коэффициентов w, должен удовлетворять условию полноты w, =1. Соответственно, модель диктора при использовании GMM-моделей согласно выражению (58) можно представить как = ( ,,//,,2,), i \...M.

Для последовательности биометрических векторов признаков Y=(yhy2, ...,ут) логарифм вероятности р(У\Х) можно рассчитать следующим образом: log p(Y I Л) = -]Г log p(yt \Л), (59)

Модель обучается с помощью различного рода кластерных алгоритмов, таких как -внутригрупповых средних или ЕМ-алгоритма (Expectation Maximization) с целью максимизировать вероятность/ (ТЦД92].

GMM-модели относятся к классу статистических методов и, следовательно, имеют все достоинства и недостатки данных методов. Как было сказано в п. 3.1.2, верояшостные методы успешно работают в том случае, когда вектор признаков распознаваемого объекта имеет малую размерность, признаки статистически независимы и априорно известен вид функции распределения плотности вероятности. Поскольку при решении задачи аутентификации размерность векторов биометрических признаков велика, а также неизвестны зависимости между их отдельными компонентами, то предсказать достаточно удовлеіворительно аналитический вид функции плотности распределения вероятностей сложно. Также следует отметить, что для удовлетворительного обучения статистических моделей требуется достаточно представительная выборка обучающих данных.

Модели представления диктора на основе искусственных нейронных сетей

Модели данного типа также широко используются при решении задач текстонезависимой аутентификации пользователя по голосу [92, 93, 102, 103, 105]. Наиболее часто применяются многослойные персептроны (MLP), сети функций радиального базиса (RBF), а также нейросетевые алгоритмы векторного квантования (LVQ).

Модель диктора в данном случае описывается параметрами нейронной сети, которые хранят в себе информацию о распределении биометрических векторов пользователя в векторном пространсіве.

Как было отмечено ранее, аппарат искусственных нейронных сетей обладает рядом несомненных достоинств, а именно: позволяет в автоматическом режиме формировать гиперплоскости, отделяющие пространство признаков зарегистрированного пользователя от признаков потенциального злоумышленника; при достаточном количестве скрытых слоев формировать области решений более сложной формы, чем при использовании вероятностных методов, іаких как GMM; при равных обобщающих способностях нейросетевые модели требуют меньших затрат памяти, чем модели GMM, что очень важно для систем с ограниченным объемом памяти. Поэтому в разрабатываемой подсистеме аутентификации в качестве модели представления диктора был выбран аппарат искусственных нейронных сетей (ИПС) [102, 103, 105].

Одной из проблем, касающейся теории применения аппарата ИНС, является выбор оптимального количества нейронов в скрытом слое, необходимого для эффективного решения поставленной задачи. Известно, что чрезмерно большое или чрезмерно малое количество нейронов отрицаїельпо сказывается на обобщающих способностях сети. При этом недостаточное количество нейронов не позволяет создать разделяющую гиперплоскость с требуемыми характеристиками, что в результате даст большое значение ошибки при обучении и, как следствие, не удовлетворительные разделяющие способности сети. Однако чрезмерно большое количество нейронов в скрытом слое вызовет эффект переобученности, что дает малое значение ошибки при обучении (тж. нейронная сеть "запомнит" все поданные на нее векторы признаков) и плохие обобщающие способности (неправильные ответы на векторы признаков своего пользователя, которые не участвовали в обучении). Теоретические исследования не дают какого-либо ответа на этот вопрос, т.к. на данный момент не найдено каких-либо закономерностей, связывающих размерность векторов признаков, объем обучающей выборки и количество нейронов в скрытом слое. По-видимому, проблема здесь заключается не столько в объеме обучающей выборки, сколько в характере распределения вегаоров признаков, которое изначально не известно.

Таким образом, необходимо экспериментальным путем определить требуемое количество нейронов в скрытом слое, которое позволит эффективно решать задачу текстонезависимой аутентификации пользователя по голосу при выбранных параметрах биометрических векторов признаков,

Похожие диссертации на Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов