Содержание к диссертации
Введение
1. Анализ существующих методов биометрической аутентификации по голосу и разработка системы, затрудняющей проведение replay-атаки, с использованием изменяемого множества ключевых слов 11
1.1 Классификация существующих биометрических сие і ем распознавания пользователя по голосу 11
1.2 Анализ возможных атак злоумышленника на биометрические системы аутентификации 21
1.3 Выбор структуры системы аутентификации но юлосу, затрудняющей проведение геріау-атаки 24
1.4 Определение состава сисіемьі биомегрической аутентификации по голосу с использованием изменяемого множества ключевых слов 30
1.5 Выводы 39
2. Разработка модели ре ч ев ос приятия с использованием вейвлет-преобразования и методов формирования векторов речевых признаков 41
2.1. Обоснование выбора модели представления речевого сигнала 41
2.2. Использование непрерывного вейвлет-преобразования для обработки речевых сигналов 53
2.3. Разработка модели речевосприяшя на основе вейвле і-преобразования 65
2.4. Разработка мет ода формирования речевых векгоров признаков 74
2.5. Выводы 86
3. Разработка методов распознавания фонем и слов для подсистемы контроля ключевых слов 88
3.1. Разработка метода распознавания фонем для акуешко-фонетического модуля 88
3.2. Разработка метода распознавания слов 106
3.3. Результаты экспериментов 115
3.4. Выводы 116
4. Разработка текстонезависимой подсистемы ауіенгификации диктора и экспериментальные исследования параметров распознавания 118
4.1. Выбор математической модели представления речевою сшнала для подсистемы аутентификации диктора 118
4.2. Выбор модели предсіавления диктора для решения задачи аутентификации диктора 123
4.3. Экспериментальные исследования зффективных параметров распознавания для решения задачи аутентификации голоса диктора 126
4.4. Выводы 136
Заключение 138
Список использованных источников
- Анализ возможных атак злоумышленника на биометрические системы аутентификации
- Использование непрерывного вейвлет-преобразования для обработки речевых сигналов
- Разработка метода распознавания слов
- Выбор модели предсіавления диктора для решения задачи аутентификации диктора
Введение к работе
Актуальность темы. Системы автоматической аутентификации и идентификации личности по биометрическим параметрам являются одним из активно развивающихся направлений современной науки ц. техники. Особое место среди них занимают системы, основанные на голосовых биометрических признаках, т.к. в данном случае для проведения аутентификации не требуется непосредственного контакта пользователя с аппаратурой. Поэтому системы аутентификации по голосу применимы там, где использование других методов практически невозможно, например, для предоставления удаленного доступа к услугам и данным по телефонным каналам или через Internet.
Однако широкое применение биометрических систем влечет за собой повышенный интерес со стороны злоумышленников, направленный на разработку атак по их взлому. Наиболее часто применяемой является геріау-атака, суть которой заключается в том, что в систему передаются биометрические признаки, предъявленные ранее, например, силиконовый муляж пальца или магнитофонная запись парольной фразы. Таким образом, разработку систем биометрической аутентификации / идентификации необходимо вести с учетом защиты их от этих атак.
Одной из перспективных с точки зрения защиты от геріау-атак может быть система аутентификации, основанная на предъявлении случайно сформированной последовательности ключевых слов из словаря фиксированного размера. Тогда задачи, решаемые такой системой, можно разделить на две части. Первая —собственно решение задачи голосовой аутентификации, при этом разрабатываемый метод должен быть контекстно-независимым. Вторая заключается в решении задачи распознавания изолированных слов независимо от голоса диктора. При этом в системе предусматривается возможность смены всех ключевых слов.
Для повышения качества распознавания предлагается разработать новые методы описания речевого сигнала в пространстве признаков, позволяющие наиболее эффективно распознавать речевой сигнал независимо от голоса диктора. С другой стороны, необходимо найти методы, позволяющие выделять индивидуальные особенности говорящего. Кроме того, предлагается разработать новые решающие правила, которые дают лучшие результаты распознавания ло сравнению с существующими методами и являются комбинацией нейро-сетевых методов и методов нечеткой логики.
Целью диссертационной работы является разработка и исследование методов и средств формирования признаков речевых сигналов, распознавания фонем и слов, предназначенных для построения безопасных систем аутентификации по голосу, а также определение оптимизированных параметров процедуры аутентификации для понижения уровня равновероятной ошибки.
В соответствии с поставленной целью необходимо решить следующие задачи:
- выработать требования и разработать структуру системы аутентификации, эффек
тивно решающей задачу распознавания голоса диктора и затрудняющей проведение replay-
атаки;
-разработать модель речевосприятия,на основе методов вейвлет-анализа с целью формирования информативных векторов речевых признаков для решения задачи распознавания изолированных слов независимо от голоса диктора;
разработать метод распознавания фонем, основанный на комбинации нечетких и нейросетевых принципов классификации с использованием информации об акустической классификации звуков для решения задачи распознавания изолированных слов;
разработать эталонную модель и метод распознавания изолированных слов, позволяющих выполнять распознавание без процедуры обучения;
разработать подсистему текста независимой аутентификации голоса и провести экспериментальные исследования для нахождения оптимизированных параметров векторов
биометрических признаков и размеров нейронной сети (НС), позволяющих понизить процент равновероятной ошибки при решении задачи аутентификации.
Объектам исследования диссертации являются системы аутентификации по голосу, речевой сигнал и модель представления слова. Исследования проводятся на предмет усовершенствования методов формирования векторов признаков речевого сигнала и эффективного решения задачи распознавания изолированных слов с возможностью быстрой смены словаря с целью построения безопасных систем аутентификации и понижения уровня равновероятной ошибки при решении задачи распознавания голоса диктора.
Методы исследования. В работе использованы основные положения теории цифровой обработки сигналов, спектрального анализа, теории цифровой фильтрации и вейвлет-анализа, основы теорий речеобразовання и физиологии восприятия речи человеком, а также методы распознавания образов, а именно, аппарата искусственных нейронных сетей и теории нечеткой логики. При программной реализации системы распознавания использовались методы структурного и объектно-ориентированного программирования.
Научная новизна работы заключается в сочетании усовершенствованных методов распознавания голоса диктора и разработанных новых методах обработки и распознавания-слов, базирующихся на вэйвлет-анализе, нейро-нечетком распознавании фонем и методах формирования шаблона эталонного слова без этапа обучения, что в результате позволяет разрабатывать безопасные системы аутентификации, затрудняющие проведение replay-атакн, и понижает процент равновероятной ошибки при решении задачи распознавания голоса диктора.
Практическая значимость работы состоит в следующем.
Разработанные методы и программы можно использовать при построении безопасных систем текстонезавиекмой биометрической аутентификации голоса пользователя различного назначения, например, для предоставления удаленного доступа к ресурсам и услугам по телефонным каналам или Internet
Основные научные результаты, выносимые на защиту.
1.Выработаны требования и разработана структура системы аутентификации, состоящая из текстонезависимой подсистемы аутентификации голоса и дикторонезависимой подсистемы контроля ключевых слов и затрудняющая проведение геріау-атаки.
2. Разработана новая математическая модель системы речевое приятия на основе методов вейвлет-анализа и базирующийся на ней метод формирования векторов речевых признаков. Полученная модель имеет компактное и простое математическое представление, что позволяет быстро перенастраивать ее под требования решаемой задачи. Благодаря объединению вейвлет-функций с функцией компенсации громкости впервые появилась возможность получения модели первичной обработки сигнала в системе речевосприятия в виде единого преобразования. За счет использования нейронных сетей с узким горлом, использующих нелинейные активационные функции, впервые получены компактные векторы признаков, основанные на модели системы речевосприятия, которые сохраняют информацию как о частотных, так и о временных составляющих речевого сигнала, что является более информативным при распознавании по сравнению с традиционными методами.
3.Разработан метод распознавания фонем, основанный на сочетании нейросетевых методов и методов нечеткого вывода, который обеспечивает более качественное распознавание фонем по сравнению с чисто нейросетевым. При этом благодаря использованию акустической классификации звуков получена возможность разделения множества фонем по дихотомическому принципу, что уменьшает сложность разделяющей гиперплоскости пространства признаков и как следствие повышает точность распознавания, уменьшает размер и время обучения нейронных сетей,
4. Разработаны эталонная модель и метод распознавания слов, основанные на методах нечеткой логики и нечеткого динамического программирования, которые позволяют выпол-
нять распознавание, минуя процедуру обучения, и как следствие обеспечивают возможность оперативкой смены рабочего словаря в системе аутентификации, что затрудняет проведение геріау-атаки, так как уменьшает имеющееся у злоумышленника время для формирования набора ключевых слов.
5. Экспериментальным путем получены оптимизированные параметры векторов биометрических признаков и размеров нейронной сети, позволяющие сушественно понизить процент равновероятной ошибки до 1.3% при решении задачи аутентификации.
Реализация результатов работы.
Материалы диссертационной работы были использованы в следующих работах:
в х/д НИР №16107 - «Разработка инженерно-технических решений по защите от НСД к аппаратным средствам, программам н данным рабочей станции» использованы методы, алгоритмы и программы текстонезависимой аутентификации пользователя по голосу;
в г/б НИР №г.р. 16153 «Разработка и исследование нейросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"» использованы методы, модели и программы подсистемы контроля ключевых слов;
методы и программы текстонезависимой аутентификации пользователя по голосу использованы в лабораторном стенде по изучению методов и систем биометрической аутентификации курса "Программно-аппаратная защита информации" кафедры БИТ.
Использование результатов диссертационной работы подтверждено актами внедрения.
Апробации работы. Основные научные результаты работы докладывались и обсуждались:
на Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», Таганрог, 1999;
на втором научно-практическом семинаре "Информационная безопасность — Юг России", Таганрог, 2000;
на XLVI и XLIX научно-технических конференциях профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таганрог, 2001,2003 годов;
на международных научно-практических конференциях "Информационная безопасность", Таганрог, 2001,2002, 2003, 2004 годов;
на X Всероссийской научно-практической конференции «Проблемы информационной безопасности в системе высшей школы», МИФИ, Москва, 2003;
на международной научной конференции "Моделирование устойчивого регионального развития", Нальчик, 2005.
Публикации. По результатам диссертационной работы опубликовано 13 печатных работ ИЗ них 7 тезисов докладов н 6 статей; 4 работы опубликованы в журнале "Известия ТРТУ" и 1 в журнале "Нейрокомпьютеры. Разработка, применение", входящих в перечень, рекомендованный ВАК РФ для публикации результатов диссертационных работ.
Структура и объем работы. Диссертационная работа содержит введение, 4 раздела и заключение общим объемом 140 страниц. В работе приведены графический материал в объеме 39 рисунков, 59 формул, 3 таблицы. Библиографический список состоит из 109 наименований.
Анализ возможных атак злоумышленника на биометрические системы аутентификации
В режиме обучения в зависимости от модели представления диктора, как правило, из нескольких последовательностей биометрических векторов формируется биометрический эталон, который затем сохраняется в базе данных (БД) биометрических эталонов.
Таким образом, в системах биометрической аутентификации / идентификации идентифицирующим признаком субъекта является биометрический эталон, коюрый полностью описывает параметры голоса субъекта, а входным идентифицирующим признаком - последовательность биометрических векторов признаков, полученная в результате работы модуля формирования биометрических векторов признаков.
Модель представления диктора способ представления и формирования биометрического эталона пользователя. Основной целью модели представления диктора являегся преобразование последовательности биометрических векторов к виду, позволяющему наилучшим образом решать и ос гав л енну то задачу.
В штатном режиме работы системы полученная в модуле формирования биометрических векторов признаков последовательность поступает на вход модуля сравнения, где осуществляется сравнение с биометрическим эталоном пользователя, извлеченном из БД биометрических эт&тонов. Затем в модуле принятия решения в соответствии с полученными результатами сравнения формируется положительный (либо отрицательный) результат процедуры аутентификации / идентификации.
Необходимо отметить, чіо для решения задач биометрической аутентификации / идентификации нельзя использовать соотношение (1). Являясь подмножеством задач распознавания образов, для принятия решения о схожести между эталоном и входной последовательностью биометрических векторов признаков используется соответствующий математический аппарат теории распознавания образов. Основная проблема в данном случае заключается в том, что никогда входной биометрический вектор признаков одного и тої о же пользователя не будет совпадать с его эталоном. Это может быть вызвано различными аддитивными шумами при записи голоса диктора, разницей в уїле поворот пальца при сканировании ошечатка и т.д. Поэтому для определения сіеиени схожести используются различные функции определения степени сходства двух векторов.
При решении задачи аутентификации, как правило, используется некоторое пороговое значение, относительно которого осуществляется принятие решения о резулыате процедуры аутентификации. Пусть Ъ— биометрический эталон пользователя с идентификатором ар d={d[, входная последовательность биометрических векторов признаков, E(bjt d)- функция определения степени сходства двух векторов, р- порог. Тогда выражение (1) можно переписать в следующем виде:
Для решения задачи биометрической идентификации соотношение (2) использовать нельзя, т.к. необходимо также учитывать степень сходства между входными векторами признаков и биометрическими эталонами других пользователей. При этом задача идентификации обычно разделяется на два подкласса: закрытая и открытая иденіификация.
При закрытой идентификации счиїаеіся, что на вход системы будут подаваться биометрические векторы признаков только зарегистрированных пользователей. Тогда выражение (1) можно записать в следующем виде:
В выражении (3) считается, что пользователь с идентификатором а} успешно прошел идентификацию в том случае, если степень сходства между его биометрическим эталоном b} и входной последовательное і ью биомегрических векторов признаков (/является максимальной.
При открыюй идентификации счиїаетея, что на вход системы гакже могут подаваться биометрические векторы признаков незарегисірированньїх пользователей. Тогда выражение (3) необходимо привесш к следующему виду:
В данном случае из выражения (4) видно, что для пользователя с идентификатором а} идентификация пройдена успешно юлько тогда, когда степень сходства между его биометрическим эталоном Ь} и входной последовательностью биометрических векторов признаков d является максимальной и, при этом, превышает определенный порог/?.
Необходимо отметить, что системы аутентификации пользователя по голосу существенно отличаюіся от биомегрических сисіем аутентификации других йшов. Основное отличие заключается в изменяемое і и (или изменчивости) биометрических признаков во времени. Если в биометрических системах, основанных на сканировании отпечатков пальца, формы ладони, сет чаї ки глаза изменчивость биометрических признаков может быть вызвана различным уровнем нажатия или углом поворота при сканировании отпечатка пальца или ладони, посюянным движением глаза в момент сканирования, то в голосовых системах аутентификации изменчивость биометрических признаков обусловлена самой природой речевого сигнала. Как было ошечено ранее, любой фрагмент речевою сні нала несет в себе одновременно информацию, как о произнесенном звуке, так и о юм, кто произнес данный звук. Следовательно, любой голосовой биометрический вектор признаков будет также содержать в себе информацию и о произнесенном звуке. При этом векторы признаков, вычисленные на фрагменіах речевого сигнала, соответствующего разным фонемам, будут отличаться друг оі Друга.
Из вышесказанного следует, что поскольку процедура аутентификации есть подтверждение подлинности владельца, то любая система аутентификации пользователя но голосу, помимо проверки идентичности предъявляемых биомеїрических векторов также должна контролировать и правильность произносимой при этом фразы. В прошвном случае данные сисіемьі нельзя было бы использовать, т.к. злоумышленник мог бы легко пройти процедуру аутентификации, предъявив магнитофонную запись абсолютно любой фразы, принадлежащей зарегистрированному пользователю. Контроль правильности произнесенной при аутентификации фразы может быть реализован по-разному. В зависимосш от архитектуры сисіемьі данная функция может быть возложена либо непосредственно па модель представления диктора, тогда при вычислении степень сходства E(b}, d) в модуле сравнения одновременно осуществляется и контроль правильности произносимой фразы. В таком случае модель представления диктора является тскстозависимои. Либо эту функцию выполняют дополнительные модули системы. При эюм модель представления диктора является текстонезависимой, что делает систему аутентификации более гибкой.
Ниже приведен обзор основных схем аутентификации по голосу, использующихся в настоящее время, а также применяемых при этом моделей представления диктора [107].
Исторически схема аутеїпификации на основе одной парольной фразы была самой первой, тем не менее, она пользуется популярностью и в наши дни [4-9]. Широкое применение этой схемы аутентификации обусловлено простотой реализации. Суть ее заключается в следующем.
Па этапе обучения диктор несколько раз произносиі выбранную им парольную фразу. После этого в модуле обучения в соотвеїсівии с используемой моделью представления диктора формируется биометрический эталон. В штатном режиме работы системы после предъявления иденіификатора пользователя из базы эталонов выбирается соответствующий биометрический эталон и передается в модуль сравнения, где осуществляется сравнение с входной последовательностью биометрических векторов признаков.
Использующиеся в модуле сравнения алгоритмы основаны, как правило, либо на методах динамического программирования (в английской версии Dynamic Time Warping - DTW), либо, в более поздних реализациях, на методах скрытых Марковских моделей (Hidden Markov Models - ПММ), Поскольку ни один человек в мире не может произнести одну и ту же фразу абсолютно одинаково, то задача данных методов заключается в том, чтобы вьіровняіь входную последовательность векторов признаков относительно зіалонной таким образом, чтобы вычислиіь максимальную степень их сходства. Следует сразу отметить, что в случае МММ данная задача интерпретируется несколько иначе, однако суть ее не меняется.
Использование непрерывного вейвлет-преобразования для обработки речевых сигналов
Таким образом, становится непонятным, возникают ли эти скачки благодаря каким-либо изменениям в самом сиінале, либо они возникли благодаря конусу влияния.
В зависимости от цели поставленной задачи могу і использоваться различные варианты решения данной проблемы. В [69] приведена методика, основанная на статистических испытаниях, основной идеей которой является сравнение энергетического вей влет-спектра преобразованного сиінала со спектрами белою и розового шума и определении вероятности юго, что исследуемый пик является характерной особенностью данных или он возник вследствие ошибок, вносимых конусом влияния. Поскольку в задаче распознавания речи при формировании векторов речевых признаков оценивается форма сигнала, полученного в результате вейвлет-преобразования на интервале при определенном масштабе, то метод, приведенный выше, мало эффективен, поюму что в данном случае нас интересуют минимизация энергии ошибки, вносимой конусом влияния.
Одно из возможных решений, предложенных в [69] для уменьшения краевых эффектов, является дополнение временного ряда перед выполнением вейвлет-преобразования с обоих концов нулями до следующей степени двойки, а заіем удаление этих частей после получения коэффициентов вейвлет-преобразования. Данный метод несколько уменьшает ошибку, вносимую конусом влияния, однако, в целом, средняя энергия ошибки высокая, потому что на границах отрезка происходит резкий скачок от речевого сигнала к нулевому значению,
Поэтому предлагается следующий метод решения этой проблемы. Поскольку, размер конуса влияния ограничен, то предлагаегся расширить интервал, на котором выполняется вейвлет-преобразование до следующей степени двойки, т.е. дополнить отрезок речевого сигнала не нулями, а предыдущими и последующими значениями того же сигнала, затем после получения коэффициентов вейвлет-преобразования оібросить лишние значения на краях вей влет-сигнала. Таким образом, не будет происходить, как в предыдущем случае, резкого перехода от нулевого значения к уровню сигнала. Результаты показывают (табл. 2), что данный метод намного эффективнее, чем дополнение нулями,
Оценка качества работы алгоритмов производилась следующим образом. Выполнялось вейвлет-преобразование над всем сигналом (назовем ею зі алойным вейвлет-преобразованием), затем речевой сиінал делился на участки по 256 точек, далее в первом случае сразу выполнялось вейвлет-преобразование над данным участком, во втором случае речевой сигнал дополнялся с обеих сторон нулями, а в третьем последующим и предыдущим участками сигнала размером 128 точек. Таким образом, во втором и третьем случае вейвлет-преобразование выполнялось над отрезком 512 точек, затем ненужные участки отбрасывались. Далее вычислялась средняя энергия ошибки, которая определялась абсолютным значением разности между участком эталонного вейвлет-преобразования и соответствующим ему вейвлет-преобразованием на участке размером 256 точек. Средняя энергия ошибки на всем речевом сигнале вычислялась в процентах от энергии эталонного вейвлет-преобразования. Испытания проводились на 100 речевых сигналах, размер речевого сигнала варьировался от 25 до 30-35 участков по 256 точек. Результаты испытаний сведены в табл. 2, в целях экономии представлено 15 испытаний и усреднение по всем испытаниям,
Результаты испытаний показывают, что использование третьею метода, при котором вейвлет-преобразование выполняется на расширенном до 512 точек участке речевого сигнала, дополненного последующими и предыдущими значениями того же сигнала, намного эффективнее, чем дополнение нулями. На минимальном масштабе, s=2!, ошибки практически отсутствуют - средняя амплитуда ошибки имеет порядок 10"12. Иа самом максимальном масштабе, s=262S, средняя энергия ошибки в процентах от зіалонного вейвлет-преобразования составляет 3.5%, при эгом максимальная амплитуда ошибки равна 2-8-10"2, т.е. отличия коэффициентов эталонного вейвлет-преобразования и преобразования на отрезке конечной длины начинаются во втором знаке после запятой, следовательно данной ошибкой можно пренебречь. и основные принципы восприятия акустического сигнала системой речевосприятия человека были рассмотрены в разделе 2.1.3. В данном разделе будут рассмотрены основные этапы моделирования системы речевосприятия, на основе которых будет сформирован окончательный вариант модели сисіемьі речевосприятия с использованием методов вейвлет преобразования.
Необходимо отметить, что моделирование системы речевосприятия может осуществляться в двух направлениях. В первом случае моделируются физические характеристики отдельных частей, составляющих систему речевосприятия, а во втором - их функциональные аналоги. Модели первого типа используются в основном для описания физических процессов, происходящих в системе речевосприятия. Такие модели очень сложны. Например, гидроакустическая модель системы внутреннего уха описывается целым рядом дифференциальных уравнений. Поэтому при реализации такие модели требуют значительных вычислительных затрат. В связи с этим при разработке систем распознавания используются, в основном, функциональные модели. Данный тип моделей предназначен для моделирования функциональных свойсів объекта, а не составляющих его компонент. Т.е. в данном случае объект рассматривается как некоюрый черный ящик, для которого определены входные и выходные данные. Модель обучается воспроизведению выходных данных по входным. Достоинства данною типа моделей очевидны - простота и компактность реализации. Таким образом, для реализации модели системы речевосприятия человека в данной работе была использована функциональная модель.
В соответствии с этим функциональную модель системы речевосприятия можно разделить на три составные часги или три этапа [106]. На первом зіане осуществляется моделирование преобразований во внешнем, среднем и внутреннем ухе. На втором - моделирование спектральных преобразований в улиіке на базилярной мембране. На третьем этапе моделирование преобразований смещения базилярной мембраны в нервные импульсы в органе Корти.
Внешнее ухо состоит из ушной раковины и слуховою прохода. Одна из функций ушной раковины - улучшение локализации источника звука в пространстве. Блаюдаря ее несимметричной форме, АЧХ сигналов, приходящих из разных точек пространства, изменяется по-разному. Ушная раковина может влиять лишь на сигналы с длинной волны, сопоставимой с размерами уха ( 3kHz). Внешний слуховой проход резонирует на частоте около 2kII? , чго дает повышенную чувствительность в данном диапазоне.
В среднем ухе осуществляется преобразование движений барабанной перепонки, вызванных акустическими волнами, в движение жидкости в улитке. Т.е. среднее ухо выполняет роль гидравлического усилителя с результирующим коэффициентом трансформации примерно 20:1 [81]. В полости среднего уха имеются две мышцы, одна из которых подсоединена к молоточку, а друїая - к стремечку. Их назначение - защита уха от низкочастотных звуков чрезмерной амилигуды, что в результате также дает эффект нелинейности в среднем ухе человека. Также отметим, что колебания высоких частот передаются непосредственно через мягкую часть перегородки улитки. Соответственно, как было отмечено ранее, преобразования в среднем ухе можно представить в виде фильтра нижних частот с частотой среза от 1000 до 3000 Гц.
В заключение данною этапа моделирования рассмотрим преобразования, происходящие во внутреннем ухе. В данном случае рассматриваются свойства базилярной мембраны с точки зрения ее чувствительности к сигналам с разной частотой, Базилярную мембрану в развернутом виде можно представить в виде сгруны с различной степенью жесткости. У основания, со стороны среднею уха, она уже, жестче и тоньше, а к концу становится более мягкой. В результаїе этого необходимо приложить различные усилия для одинакового смещения мембраны в различных ее частях. Исследования показывают [47,49,51], что мембрана наиболее податлива в центре и наименее по краям, следовательно, ее можно представить в виде полосового фильтра с частотой пропускания 0.2-5 кГц.
Таким образом, преобразование сигнала в системе наружного, среднего, внутреннею уха можно представить в виде каскада фильтров. При этом суммирующее воздействие данного каскада фильтров на аппарат звуковоснриятия человека вызывает эффект, который заключается в том, что система звуковое приятия человека оказывается наиболее чувствительной в диапазоне частот от 500 Гц до примерно 5,5 кГц. В данной области частот сосредоточены все наиболее значимые для человеческой жизни звуки, в том числе и все наиболее важные для распознавания речи форманты, при этом наибольшей чувствительностью ухо обладает в области частот 3-3,5 кГц.
С понятием чувствительности тесно связано понятие равной громкости. Смысл этого понятия заключается в том, что человеческий слух воспринимает сигналы с различной частотой и равной амплитудой как сигналы с различным уровнем [ромкости. Т.е. для того, чтобы человек воспринимал сигнал с частоюй 200-300 Гц равным по громкости сигналу с частотой 3-3,5 кГц требуется, чтобы интенсивность или амплитуда первою сигнала была в несколько раз больше, чем второго. Уровни равной громкости были хорошо исследованы уже в конце 50-х годов прошлого века и могут быть аппроксимированы с помощью функций (14) или (15):
Разработка метода распознавания слов
Процедура рекурсивно вычисляет это расстояние столбец за столбцом, чтобы определить оптимальное общее расстояние до точки (M,N), где М- число интервалов в эталоне, a N- число интервалов в неизвестном входном сигнале. Операция нечеткой конъюнкции вычисляется в соогветствии с выражением (32).
Поскольку алгоритм динамического сжатия времени является одним из классов алгоритмов динамическою программирования, то гарантируется нахождение оптимального пути при уменьшении объема вычислений. метода формирования шаблона эталонного слова с использованием процедуры обучения
Ранее была предложена эталонная модель слова, основанная на использовании нечетких функций. Для построения шаблона эталонного слова необходимо найти параметры ai, С и а2, с2 для функции (38). В данном параграфе рассматривается классический вариант формирования шаблона, т.е. с использованием процедуры обучения, а в параграфе 3.2.4, предложен новый вариант формирования шаблона, основанный на свойствах процедуры динамического сжатия времени [109].
Рассмотрим метод формирования шаблона эталонного слова с использованием процедуры обучения.
Для реализации данной процедуры предполагается, что существует некоторая размеченная база данных слов, где каждому звуковому файлу поставлен в соответствие текстовый файл, в котором перечислены фонемы, входящие в состав слова, а так же указаны их начало и конец.
На первом этапе процедуры обучения определяется средняя длина слова и среднеквадратическое отклонение в интервалах по 256 отсчетов с шагом 128. Длина эталонного шаблона полагается равной:
Длина каждой фонемы вычисляется аналогично выражению (45). После нахождеттия длины шаблона и длины каждой фонемы определяется центр каждой фонемы таким образом, чтобы они были равномерно распределены по всему шаблону и начало первой фонемы, т.е. значение сц было равным 0, а значение с д последней фонемы было равным L, т.е. длине шаблона. Допустим, что после выполнения данной процедуры были найдены все центры фонем р„ t=L.N. Тогда параметры с;, и с2, находятся из следующего соотношения: Здесь в выражении (46) L- длина соответствующей фонемы, N- количество фонем в слове. Данная процедура выполняется последовательно для каждого слова. Для получения наилучших результатов необходимо, чтобы в процедуре обучения учасівовало как можно большее количество дикторов. Метод формирования шаблона эталонного слова без использования процедуры обучения Второй вариант формирования шаблона эталонною слова основывается на свойствах метода динамического сжатия времени.
Рассмотрим детально данную процедуру. Поскольку, в ограничениях метода сказано, что при нахождении оптимального пути должен участвовать каждый интервал (или вектор) входного речевого сигнала, то, соответственно, входная последовательность векторов является фиксированной, а все остальные операции выполняются относительно эгачона. Тогда все переходы из одного состояния в другое можно интерпретировать следующим образом.
При переходе из состояния (i-IJ-І) в состояние (ij) время развивается одинаково как в эталонном слове, так и во входном. При переходе из состояния 0J-I) в состояние (i,j), т.е. при горизоніальном движении вдоль входною слова, происходит остановка времени в эталонном слове, в результате чего эталонное слово растягивается. И, наконец, при переходе из состояния (i-lj) в состояние (ij), т.е. при вертикальном движении вдоль эталона, или при переходе из состояния (i-2j-l) в состояние (ij), т.е. при пропуске интервала эталона, происходит ускорение времени в эталонном шаблоне слова, в результате чего эталонное слово сжимается.
Таким образом, оптимальный путь находится путем операций сжатия и растяжения эталонной последовательности слова. В связи с этим можно предположить, что средние значения длительности фонем слова L, не оказывают сильного влияния на значение оптимального пути, т.к. при его нахождении все операции сжатия и растяжения осуществляются над эталонным шаблоном слова, изменяя тем самым значения си и сг, соответственно. Поэтому, предлагается вычислять значения с/, и с , исходя из предположения, что длительности всех фонем в слове равны друг другу.
Тогда процесс формирования эталонного шаблона слова состоит из следующих этапов. На первом этапе определяются начало и конец слова и вычисляется его длина в интервалах. Далее определятся длина каждой фонемы в сооїветствии со следующим выражением:
Здесь в выражении (47) L- длина слова, N- количество фонем в слове. Зная длительность каждой фонемы, можно легко рассчитать значения начала и конца каждой фонемы с і, и с ,.
Недостаток предложенного метода заключается в том, что при распознавании очередного слова необходимо осуществлять пересчет всех эталонов из базы данных слов. Однако эту процедуру можно оптимизировать и на небольших словарях она не будет занимать много времени.
С другой стороны достоинство предложенного метода заключается в том, что можно формировать модели слов, минуя этап обучения. Т.е., для того, чтобы добавить новые слова в рабочий словарь уже нет необходимости формировать базу данных новых слов и привлекать для этого дикторов. Достаточно знать только транскрипции этих слов.
Таким образом, предложенный метод формирования шаблона зіалонного слова позволяет оперативно добавлять новые слова в рабочий словарь,
В экспериментах по распознаванию слов участвовало 52 диктора. Каждый диктор произносил слова из рабочего словаря объемом 45 слов по четыре раза. Таким образом, было надиктовано в общей сложности 9360 слов по 208 раз каждое.
Эксперимен і ы проводились по двум параметрам. Первый параметр заключался в вычислении оптимального пути с использованием выражения (42) или (43). Второй - в формировании шаблона эталонного слова согласно методу параграфа 3.2.3 (метод 1) или методу параграфа 3.2.4 (метод 2). Результаты экспериментов представлены в таблице 3.
Как видно из таблицы 3, результаты, полученные с помощью метода формирования эталонного шаблона слова согласно параграфу 3.2.4, в среднем на 3% ниже, чем при использовании метода из параграфа 3.2.3. Данный факт свидетельствует о том, что, как и предполагалось, априорная информация о длительности фонем в слове, а, следовательно, и распределение параметров с/, и С2і в эталонной модели, не оказывают значимого влияния на качество распознавания. Однако, благодаря использованию аппарата нечеткой логики, предложенный в параграфе 3,2.4 метод позволяет формировать эталонный шаблон слова, минуя этап обучения, что позволяет создавать системы распознавания с возможностью быстрой смены ключевых слов.
Выбор модели предсіавления диктора для решения задачи аутентификации диктора
В соответствии с поставленными целями и задачами, в результате проведенных исследований и разработок были получены следующие результаты.
Проведен анализ существующих систем аутентификации но голосу и рассмотрены варианты возможных действий злоумышленника по взлому сисгем данного типа. Показано, что наиболее легко реализуемой является геріау-атака (атака с помощью магнитофонной записи). Выработаны требования к системе аутентификации по голосу, способной затруднить (в идеале - предотвратить) возможность проведения злоумышленником атаки данного типа. Для этого система должна осуществлять аутентификацию голоса диктора вне зависимости от произносимой им последовательности слов; контролировать правильность произнесенных слов; обеспечивать возможность быстрой смены всего множества ключевых слов без привлечения пользователей системы. Разработана структура системы аутентификации, удовлетворяющая вышеперечисленным требованиям, которая состоит из текстонезависимой подсистемы аутентификации пользователя и подсистемы контроля ключевых слов, независящей от голоса диктора.
Рассмотрены существующие модели представления речевого сигнала. Показано, чго для распознавания слов независимо от голоса диктора наиболее подходящей является модель представления сигнала на основе системы речевосприятия, а для решения задачи аутентификации / идентификации пользователя по голосу - на основе системы речеобразования. Разработана модель речевосприятия, в основе которой лежат методы вей влет-анализ а. Достоинство данной модели заключается в возможности выполнения операции свертки с помощью алгоритмов БПФ, что экономит вычислительные ресурсы. Благодаря возможности изменения шага масштабирования, полученная модель может быстро перенастраиваться под требования решаемой задачи. При этом за счет объединения вейвлет-функций, моделирующих критические полосы слуха, с функцией компенсации громкости на разных частотах, впервые появилась возможность получения модели первичной обработки сигнала в системе речевосприятия в виде единого преобразования. Разработан метод формирования векторов речевых признаков на основе предложенной модели речевосприятия. Для устранения избыточности вектора признаков предлагается использовать нейронные сети с узким горлом. Благодаря наличию в них нелинейных активационных функций исходную размерность вектора признаков удалось сократить с 2967 до 350 точек (более чем в 8 раз). Полученный таким образом вектор речевых признаков в сжатом виде содержит в себе информацию как о частотных, так и о временных характеристиках речевого сигнала, что намного информативнее стандартных методов, содержащих только частотные характеристики.
Разработан нейро-нечеткий метод распознавания фонем для акустико-фонетического модуля подсистемы контроля ключевых слов, который обеспечивает преобразование вектора речевых признаков в фонетический вектор, содержащий значения степени принадлежности к каждой фонеме из множества классов фонем системы. Использование нейросетевых методов дает возможность выполнения процедуры фаззификации многомерных векторов речевых признаков и интерпретации их в виде нечетких переменных, при этом дальнейшее распознавание осуществляется с помощью процедур нечеткого вывода. Использование дихотомических признаков акустической классификации звуков позволяет более точно распознавать речевой сигнал, а так же анализировать полученные результаты в виде терминов естественного языка за счет применения алгоритмов нечеткого вывода.
Разработаны эталонная модель слова, основным достоинством которой является возможность формирования шаблона без этапа обучения за счет использования нечетких функций; методы формирования шаблона слова с использованием процедуры обучения и без нее; метод распознавания слов на основе нечеткого динамического программирования, обеспечивающий сравнение входной фонетической последовательности с шаблоном эталонного слова. Данные модели и методы являются основой модуля распознавания слов в подсистеме контроля ключевых слов. Экспериментальные исследования показывают, что точность метода распознавания без использования процедуры обучения составляет 89,1%, что сопоставимо с существующими аналогами, основанными на моделях с использованием процедуры обучения. Достоинством разработанной подсистемы контроля ключевых слов является возможность быстрой смены всего множества ключевых слов без привлечения пользователей системы. Благодаря этому система аутентификации диктора, основанная на данной подсистеме, удовлетворяет выработанным требованиям безопасности и способна затруднить (в идеале-предотвратить) возможность проведения геріау-атаки.
Разработан текстонезависимый модуль аутентификации пользователя по голосу и проведены экспериментальные исследования с целью выбора эффективных параметров для решения задачи распознавания. Полученные результаты позволяют сделать следующие выводы. Увеличение длины кадра при формировании биометрического вектора признаков, а также увеличение его размерности (т.е. числа коэффициентов) приводит к уменьшению уровня равновероятной ошибки. Это можно объяснить тем, что коэффициенты более высоких порядков (с 16-го и выше) несут в себе информацию об индивидуальных особенностях голоса диктора, а увеличение длины кадра уменьшает вариативность значений внутри пространства признаков дикгора. Исследования зависимости качества работы сети от числа нейронов в скрытом слое показали, что при 15 нейронах значение EER ошибки, как правило, выше, чем при 30 и 45. При этом разделяющие способности сетей с числом нейронов в скрытом слое от 30 до 45 приблизительно равны, а дальнейшее увеличение числа нейронов в скрытом слое приводит к эффекту переобученноеги. Эксперименш показали, что лучшими параметрами, позволяющими эффективно решать задачу аутентификации при минимальной EER ошибке, равной 1,3%, являются следующие: длина кадра для формирования векторов биометрических признаков 1024 отсчета, число кепстральных КЛП коэффициентов в векторе признаков 28, количество нейронов в скрытом слое 45. Полученные данные лучше аналогичных текстонезависимых систем аутенгификации, где уровень равновероятной ошибки колеблется от 4-5% до 11%.
Разработанные методы могут быть использованы для построения безопасных систем аутентификации по голосу, способных затруднять или предотвращать возможность проведения геріау-атаки, а так же для решения задач распознавания изолированных слов, где требуется возможность быстрой смены всею множества ключевых слов. Результаты диссертационной работы использованы в стенде при проведении лабораторных работ по изучению методов и систем биометрической аутентификации курса "Программно-аппаратная защита информации", читаемого на кафедре БИТ, а также в следующих научно исследовательских работах: х/д НИР №16107 «Разработка инженерно-технических решений по защите от НСД к аппаратным средствам, программам и данным рабочей станции», г/б НИР №г.р. 16153 «Разработка и исследование нейросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"»,- что подтверждено актами внедрения, приведенными в приложении В.