Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Калашников Дмитрий Михайлович

Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума
<
Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Калашников Дмитрий Михайлович. Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума: диссертация ... кандидата Технических наук: 05.13.01 / Калашников Дмитрий Михайлович;[Место защиты: ФГБОУ ВО Пензенский государственный университет], 2017.- 196 с.

Содержание к диссертации

Введение

Глава 1. Обзор методов и устройств защиты персональных данных на основе биометрической голосовой информации и предварительной цифровой обработки сигналов 15

1.1. Общее состояние защиты персональных информационных данных 15

1.2. Оценка стойкости нейросетевого распознавания биометрия-код 17

1.3. Информационная мера качества исходных данных 17

1.4. Функциональная модель преобразователя биометрия-код 21

1.5. Классическая мера Хэмминга 23

1.6. Практическое применение преобразователей биометрия-код для защиты исполняемого кода в системе голосовой идентификации 24

1.7. Необходимость классификации звуковых фрагментов речи на тональные и шумовые 26

1.8. Обзор методов измерения периода основного тона тональных звуков 34

1.9. Использование линейных предсказателей 38

1.10. Нелинейный алгоритм выявления периодичности сигнала 42

1.11. Линейное предсказание ожидаемого периода основного тона 45

1.12. Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой» 48

1.13. Оценка длины речевого фрагмента, необходимого для обучения вокодера, распознающего одиночные звуки речи 50

1.14. Оценка длины речевого фрагмента распознавания

1.15. Мел-кепстральные коэффициенты 51

1.16. Сегментация речи на отдельные биометрические элементы 54

1.17. Марковская модель распознавания речи

Выводы по главе

Глава 2. Математическое моделирование идентификации связной речи 67

2.1. Фрагментатор однородных звуков и пар звуков речи диктора «Свой» в нейронных сетях 67

2.2. Предсказатель периода основного тона диктора по текущим и предшествующим значениям 73

2.3. Вычисление среднего значения периода основного тона и допустимых границ отклонений 75

2.4. Классификатор тон/шум 76

2.5. Методы обращения матриц в алгоритме линейного предсказателя 79

2.6. Дискретное статистическое описание длительности интервалов между шумовыми звуками речи и между тональными звуками 85

2.7. Определение детерминированных участков речи и вариации частоты основного тона 91

2.8. Преобразователь голосового пароля в код доступа на фоне шумов, превышающих сигнал 98

Выводы по главе 106

Глава 3. Программное обеспечение действующего макета голосовой аутентификации 108

3.1. Этап предобработки голосовых данных 108

3.2. Обучение готовых биометрических параметров на нейронной сети... 114

3.3. Кластеризация звуковых фрагментов речи 116

3.4. Аутентификация по парольному слову 119

3.5. Инструкция по использованию макета голосовой аутентификации 121

Выводы по главе 125

ГЛАВА 4. Тестирование алгоритма биометрической голосовой аутентификации при различных условиях внешнего воздействия 127

4.1. Экспериментальное тестирование программы на вероятность

появления ошибок первого рода 127

4.2. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком 133

4.3. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии знания парольного слова посторонним человеком 136

Заключение 139

Введение к работе

Актуальность темы. В настоящее время остро стоит вопрос сохранения конфиденциальности различного рода информации: государственной, промышленной и т.д. Этой проблеме посвящено большое число работ, в которых предложены различные методы криптографической аутентификации и биометрической аутентификации. Криптографическая аутентификация основана на хранении и переработке специальной кодированной информации. Биометрическая аутентификация основана на персональных особенностях субъекта (отпечатки пальцев, образцы почерка, особенности лица, сетчатки глаз).

К сожалению, эти методы обладают следующими недостатками. Криптографические методы позволяют обеспечить максимальную надежность и безопасность процедуры аутентификации, однако перекладывают ответственность за хранение ключей (секретной информации либо материального носителя) на пользователя, который, кроме очевидного нежелания принимать на себя подобные обязательства, зачастую не обладает необходимыми навыками правильного использования и безопасного хранения секретов. Биометрия традиционно применяется лишь для идентификации пользователей в системах паспортно-визового контроля граждан. Использование классических биометрических технологий сравнения биометрического образа пользователя с шаблоном не позволяет обеспечить конфиденциальность персональных данных пользователя в открытых гражданских информационных системах.

Биометрический метод аутентификации по голосу характеризуется простотой применения. Данному методу не требуется дорогостоящая аппаратура, достаточно микрофона и звуковой платы. Но при использовании биометрического метода аутентификации по голосу возникает ряд проблем. Одной из важнейших проблем является качество голосовой идентификации. В настоящее время вероятность ошибки распознавания персоны по голосу достаточно высока. Требуется разработка новых алгоритмов для более четкого выявления биометрических параметров из голосового сигнала. Второй важнейшей проблемой является нестабильная работа известных устройств в условиях шума. Важную проблему составляет голосовая идентификация при многообразии проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д.

Построение алгоритмов голосовой идентификации и соответствующих устройств, лишенных перечисленных недостатков, является актуальной задачей, имеющей научное, техническое и социальное значения. Это в первую очередь определяет актуальность работы. Большой вклад в развитие биометрической аутентификации был внесен такими учеными, как Н. Н. Акинфиев, С. П. Баронин, А. И. Иванов, М. В. Назаров, Ю. Н. Прохо-

ров, В. И. Романовский, Г. С. Рамишвили, В. Н. Сорокин, В. А. Утробин, В. Госсет, М. Грей, Дж. Дарбин, A. K. Джейн, Д. Клун, Н. Левинсон, К. Пирсон, Р. А. Фишер, Р. Хэмминг и другие.

Для практической реализации предложенных методов необходимо создание эффективных технических средств. Известны следующие мировые компании, занимающиеся развитием методов голосовой идентификации: Agnitio, Auraya Systems, Authentify, KeyLemon, Nuance и др.

Недостатки технологий, используемых этими компаниями, заключаются в серверной обработке данных, т.е. все биометрические данные отправляются на обработку на сервер, что, в свою очередь, является потерей конфиденциальности для пользователя. Вероятность ложного распознавания у существующих автоматов достаточно высока. Это связано с тем, что существующие алгоритмы не выделяют достаточного числа биометрических параметров из звукового сигнала, а также тем, что отсутствуют стандарты сравнения голосовых биометрических параметров.

Цель диссертационной работы состоит в разработке новых методов, реализующих их алгоритмов и программного обеспечения, осуществляющих достоверную биометрическую аутентификацию личности по голосу в условиях высокого постороннего шума. Для достижения поставленной цели необходимо решить следующие задачи:

  1. разработать методику и алгоритмы повышения точности определения частоты основного тона на любых промежутках звукового сигнала;

  2. разработать методику аутентификации пользователя, положив в качестве определяющего фактора частоту основного тона;

  3. разработать методику и алгоритмы фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала и подавления шумовой компоненты сигнала при соотношении сигнал/шум равном единице;

  4. построить однослойную нейронную сеть стандарта ГОСТ Р 52633.5 для преобразования голосовых биометрических параметров в код доступа;

  5. построить узкополосный фильтр, принимающий на вход частоту основного тона диктора. Использовать формулу фильтра на различных гармониках сигнала для получения биометрических параметров и преобразования их в биометрический код;

  6. построить новый алгоритм фрагментации звукового сигнала и использовать получившиеся отдельные тональные фрагменты речи в качестве биометрических параметров, преобразованных в биометрический код;

  7. реализовать макет обучения и аутентификации пользователя по парольной голосовой фразе. Провести тестирование вероятностных характеристик (вероятность ошибки первого и второго рода – ошибки в опровержении тестируемого пользователя и ошибки в принятии постороннего пользователя соответственно).

Методы исследования. В работе использованы методы математической статистики, теории вероятностей, теории искусственных нейронных сетей и цифровой обработки сигналов. Для реализации экспериментов использовался объектно ориентированный язык С++, библиотеки Qt и QWT, среда разработки QtCreator и среда математического моделирования MathCAD.

Научная новизна диссертационной работы заключается в следующем:

  1. Разработан алгоритм оценивания речевых звуковых статистических параметров. На основе дискретно-континуального описания длительности звуков потока осмысленной речи определен такой параметр, как средняя длина звука и приведен алгоритм его оценки. Обобщены методы оценивания значений математического ожидания и дисперсии периода основного тона. Предложены формулы построения узкополосного фильтра звукового сигнала, позволяющие улучшить качество выделения сигнала при высоком уровне шума.

  2. Обобщен численный метод построения линейного предсказателя по выделению периода основного тона, что позволило значительно увеличить точность и быстродействие предсказателя. Разработана методика непокадровой обработки сигнала в линейном предсказателе, что значительно снизило вероятность ложного определения тона на участке звукового сигнала.

  3. Разработана нелинейная математическая модель фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала. Построенная процедура фильтрации позволила улучшить существующий классификатор тон-шум и выделять все тональные участки речи на звуковом файле.

  4. Разработан алгоритм нейросетевого преобразования голосовых параметров в биометрический код доступа. На вход нейронной сети подаются векторы биометрических параметров голосовых сигналов, которые затем преобразуются в биометрический код. Векторы биометрических параметров голосовых сигналов используются для построения таблиц весовых коэффициентов. В результате применения предложенного алгоритма каждому голосовому сигналу ставится в соответствие индивидуальный код. Использование полученных кодов позволило минимизировать ошибку первого и второго рода в работе голосовой аутентификации.

  5. Разработан численный алгоритм выделения векторов биометрических данных, основанный на использовании тональных звуковых участков речи, отделенных от внешних шумов и пауз. Данные векторы получены на нескольких гармониках звукового сигнала и участвуют в процедуре обучения нейронной сети. Показано, что данные векторы являются информативными в биометрическом плане и используются в процедуре обучения нейронной сети для улучшения качества распознавания голосовых образов.

6. Построен и программно реализован алгоритм фрагментации и классификации звуковых сигналов. Научная новизна заключается в использовании построенного в диссертации алгоритма нейросетевой сегментации звукового сигнала. На базе этого алгоритма получены векторы всевозможных тональных звуков, содержащиеся в парольной голосовой фразе диктора. Данные векторы преобразованы в параметры биометрия-код и поданы на обучение нейронной сети. Использование данных параметров позволило улучшить качество распознавания диктора в системе голосовой аутентификации.

Практическая значимость работы. Построен автомат, позволяющий определять диктора по произносимой парольной фразе. Разработан программный комплекс, в рамках которого реализованы адаптивные цифровые алгоритмы обработки речевых сигналов. Предложен алгоритм распознавания биометрических образов в сигнале. Алгоритм реализован в виде нейронной сети. Разработанный в диссертации метод, по сравнению с известными методами обработки цифровых сигналов, обладает следующими существенными преимуществами. Важнейшим преимуществом является способность автомата, реализующего данный метод, настраиваться на частоту речи диктора при аутентификации пользователя. Шумоподавление ведется даже при соотношении сигнал/шум равном единице. Внедрены нейронные сети стандарта ГОСТ Р 52633 для преобразования голосовых биометрических параметров в код доступа, что позволяет получить устойчивый длинный пароль на этапе аутентификации. Уменьшена до значения 10-7 вероятность ошибки аутентификации пользователя при случае незнания пользователем парольной фразы и до значения 10-2 при случае, если пользователю известно данное парольное слово/слова. Известные в литературе автоматы обладают следующими характеристиками: вероятностная характеристика ошибки второго рода составляет всего 10–1 при вероятности ошибки первого рода равной 10–2.

Программный комплекс направлен на обеспечение защиты информации и на устранение ее утечки. Для обеспечения защиты и обезличивания человека, имеющего доступ к информации, предлагается внедрение технологии голосовой аутентификации в состав системной проверки доступа. В качестве систем проверки предлагаются: интернет-кабинеты с глобальными или локальными выходами. Данные системы обычно используются государственными и муниципальными учреждениями, а также некоторыми учебными заведениями. В результате действующий терминал позволит определять человека по произносимой парольной фразе с достаточно низкой вероятностью ошибки второго рода (по полученным в диссертационной работе статистическим данным она должна быть не выше 10-7), а также обеспечит пользователю быстрый, защищенный и удобный вход в личный кабинет.

Достоверность и обоснованность результатов, сформулированных в диссертации, обеспечена корректным использованием математических методов и сопоставлением теоретических утверждений с результатами тестовых и натурных экспериментов.

Основные положения, выносимые на защиту:

  1. алгоритм выделения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи;

  2. численный метод построения линейного предсказателя по выделению периода основного тона при непокадровой обработке данных и при использования речевых статистических параметров диктора;

  3. нелинейная математическая модель фильтрации звукового сигнала, осуществляющая шумоподавление сигнала при соотношении сигнал/шум равном единице;

  4. алгоритм нейросетевого преобразования голосовых параметров в биометрический код доступа. Алгоритм основан на построении векторов, характеризующих биометрические данные голоса диктора;

  5. алгоритм выделения векторов биометрических данных;

  6. алгоритм фрагментации и классификации звуковых биометрических «фонем»;

  7. алгоритм построения нейронной сети для распознавания биометрических особенностей человеческой речи;

  8. макет обучения и аутентификации пользователя по парольной голосовой фразе.

Внедрение результатов работы и связь с научными программами. Полученные результаты исследований реализованы в организации АО «ПНИЭИ» (г. Пенза) при разработке макета программного обеспечения «Аутентификация пользователя по голосовой фразе». Имеется акт о внедрении результатов диссертационной работы.

Разработан программный комплекс (свидетельство № 2016Э13464 от 21.10.2016 о государственной регистрации программы для ЭВМ) решения задачи построения средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала. Указанный программный комплекс, использованный в исследовательской, производственной и проектно-конструкторской деятельности АО «ПНИЭИ» (г. Пенза) при исследовании и разработке алгоритмов биометрической аутентификации, содержит программное решение актуальной задачи разработки инструментальных средств автоматизированной парольной идентификации личности человека по голосовой фразе. Программа способна осуществлять подтверждение личности в условиях шума, сопоставимого уровню речевого сигнала.

Исследования поддержаны грантом «У.М.Н.И.К», договор № 8909ГУ/2015 от «21» декабря 2015 г. о предоставлении гранта Федеральным государственным бюджетным учреждением «Фонд содействия развитию малых форм предприятий в научно-технической сфере» для проведения исследований по теме «Разработка средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала».

Апробация диссертации. Основные положения диссертации докладывались и обсуждались на следующих международных конференциях: шестой и седьмой международной научно-технической конференции «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (г. Пенза, 2013, 2014); Международной научно-технической конференции «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (г. Пенза, 2014); научно-практической конференции «Вклад молодых ученых в развитие экономики Поволжья» осенняя сессия 2016 г. (г. Пенза, 2016); научной конференции конкурса «Ректорские гранты» (г. Пенза, 2015).

Личный вклад автора. Все основные результаты, представленные в диссертационной работе, сформулированы и получены автором самостоятельно. Работы [2, 3, 7] опубликованы в соавторстве с научным руководителем, которому принадлежит формулировка решаемой проблемы и концепция ее решения. В работе [1] описан разработанный автором алгоритм получения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи. В работе [6] автор самостоятельно разработал новый алгоритм шумоподавления. В работах [4–8] автор построил метод обезличивания персональных данных по голосовому парольному слову, усовершенствовал известные линейные алгоритмы обработки звуковых сигналов. В программном комплексе автором разработаны основные алгоритмы и составлены программные коды. Также автор провел численные эксперименты, которые подтверждают возможность практического использования результатов.

Публикации. По материалам диссертационного исследования опубликовано 8 работ, в том числе 3 работы в журналах из перечня ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка использованных источников и 2 приложений. Общий объем работы составляет 188 страниц, из них 170 страниц основного текста, включая 87 рисунков. Список литературы содержит 83 наименования.

Функциональная модель преобразователя биометрия-код

Основным функциональным элементом средства высоконадежной биометрико-криптографической аутентификации является преобразователь биометрия-код. Работа преобразователя биометрия-код основана на использовании специальных методов преобразования нечетких биометрических данных в двоичное целое число фиксированной разрядности - кодовый отклик. При этом нечеткие биометрические данные пользователя «Свой» преобразовываются в стабильный кодовый отклик, называемый кодом «Свой», а нечеткие биометрические данные пользователей «Чужие» преобразуются в случайные (некоррелированные) кодовые отклики «Чужой». Функциональная схема работы преобразователя биометрия-код приведена на рисунке 1.2.

Таким образом, основная функциональная характеристика преобразователя биометрия-код состоит в том, что он должен сворачивать многомерное поле непрерывных состояний нестабильного биометрического образа «Свой» в точку кода «Свой», принадлежащую некоторому конечному дискретному полю возможных состояний этого ключа. Второй функциональной характеристикой преобразователя биометрия-код является то, что случайные биометрические образы «Чужой» должны порождать на выходах преобразователя случайные выходные кодовые отклики. Множество биометрических образов Множество кодовых откликов

Внутренняя структура преобразователя биометрия-код формируется в ходе специальной процедуры, называемой обучением. Процедура обучения принимает в качестве параметров множество примеров биометрического образа «Свой», множество биометрических образов «Чужой», каждый из которых представлен одним или несколькими примерами, и кодовый отклик «Свой», а результатом работы процедуры является сформированный преобразователь биометрия-код с параметрами, позволяющими выполнять вышеуказанные функциональные характеристики.

Параметры обученного преобразователя биометрия-код, дополненные некоторой дополнительной информацией (например, идентификатором или именем пользователя), формируют биометрический контейнер. 1.5. Классическая меРА ХэмминГА

Процедура упорядочивания биометрических образов должна быть высокоразмерной и учитывать изменения всех биометрических параметров и всех их возможных комбинаций, что становится технически невыполнимо уже для нескольких десятков учитываемых биометрических параметров, поэтому единственным возможным способом избежать этого является переход из пространства входных непрерывных высокоразмерных биометрических образов в пространство выходных дискретных кодовых откликов. При этом сортировка биометрических образов становится линейной и одномерной, а работа автомата упорядоченного перебора биометрических образов - тривиальной.

Основной метрикой в пространстве выходных кодовых откликов является мера Хэмминга - количество несовпавших разрядов кодовых откликов [29, 30] и различные модификации этой меры, описанные далее. Мера Хэмминга к рассчитывается по формуле п h = YS iyi\ (1.5.1) /=1 где Xj - значение /-го разряда первого кодового отклика; уі - значение /-го разряда второго кодового отклика; п - длина кода; Ф - сложение по модулю 2. При помощи этой метрики можно установить меру близости между двумя биометрическими образами «Чужой», либо меру близости биометрического образа «Чужой» к биометрическому образу «Свой», для которого было произведено обучение средства высоконадежной биометрической аутентификации. Использование меры Хэмминга для упорядочивания биометрических образов имеет смысл только для определенного преобразователя биометрия-код, обученного на некотором биометрическом образе «Свой».

1. Основным различием предлагаемого способа от всех остальных считается присутствие кодируемых под определенные особенности среды и исполняемого кода автоматов переустройства длинных случайных входных данных в конкретный код длиной в 256 бит.

2. Центром механизма переустройства считаются настраиваемые хэш-функции (НХФ), являющиеся обобщенным понятием преобразователей биометрия-код сравнительно с преобразуемыми ими данными. Сущность предлагаемого способа кроется в исходных данных тестируемого кода. Можно выделять два вида исходных данных: параметры переустройства НХВ и многомерные параметры [20]. Характеристики переустройства НХФ переставляются взамен исполняемого кода программы совместно с автоматом, реализующим НХФ. При запуске программы ей на осуществление с исполнением передаются входные многомерные характеристики. С поддержкой автомата НХФ хранимые и отданные характеристики применяются для восстановления еще одного блока исполняемого кода программы.

3. После процесса восстановления компилируется код, и автомат НХФ перебегает к декодированию надлежащих блоков, важных для продолжения работы программы. По характеристикам состояния НХФ или же лишь только по входным характеристикам возобновить исполняемый код непросто. Это разрешает использовать НХФ для заключения задачки обороны исполняемого кода от возникновения взлома. Схема обороны любого блока компилируемого кода представлена на рисунке 1.3.

Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой»

Для получения информативного парольного слова для аутентификации необходимо вычислить статистические параметры, описывающие их качество и различие.

Системы голосовой идентификации, которые принимают в качестве параметров коэффициенты частотного спектра, имеют схожие вероятностные ошибки с системами, анализирующими речевой сигнал по времени. Вероятность ошибки первого рода характеризует отказ пропуска «Своему». На данный момент среди существующих голосовых систем эта вероятность равна 10_1. Вероятность ошибки второго рода характеризует пропуск «Чужого». Частота появления данной ошибки зависит лишь от режима использования метода. В случае, если постороннему человеку известна парольная фраза и при этом он не пользуется диктофоном, успех его обхода системы равен примерно 1 % при условии, что его голос близок к записанному. В противном случае злоумышленнику может понадобиться до 1010 попыток для успешного взлома.

Тем не менее, пройти под видом другого диктора в существующих системах становится возможным, если известна и записана на диктофон парольная фраза изначального диктора. В данном случае вероятность второго рода значительно увеличивается. Отсюда вытекает потребность в решении задачи предотвращения перехвата голосового пароля. Также одним из способов решения данной задачи служит использование одновременной идентификации человека по строению лица. Помимо этого, некоторые специалисты по системной безопасности подключают датчики движения для выявления источника звука.

В настоящее время широко распространены временные процедуры (линейные предсказания) и частотные процедуры полосовой фильтрации в вокодерах. И те, и другие процедуры существенно искажают биометрию пользователей и одновременно не могут дать высокого сжатия речевой информации.

Исследования в рамках работ пензенского научно-исследовательского электротехнического института, в которых автор принимал участие, показали, что существует реальная возможность создавать новый класс вокодеров, опирающийся на новый тип описания голосовых сигналов. В основу нового типа описания речи положено использование того факта, что согласованная речь состоит из затухающих колебательных процессов, повторяющихся с периодом основного тона. Например, так выглядит фонема «а» (рисунок 1.11). Ттон=60

Из рисунка 1.11 можно сделать вывод, что звук состоит из периодически повторяющихся затухающих колебаний. Следовательно, для экономного описания процесса необходимо измерить скорость затухания и частоту (число горбов) внутренних колебаний. При этом сложный речевой процесс, описываемый классическими вокодерами с использованием 14-18 параметров, будет описываться только четырьмя параметрами: 1) амплитуда звука; 2) период основного тона; 3) затухание внутренних колебаний; 4) частота внутренних колебаний. Такой подход к кодированию речи позволяет в несколько раз уплотнить информацию. Очень важным является то, что в новом типе «колебательного» описания речевого сигнала различные фонемы оказываются достаточно схожими. Например, фонемы «о» и «а» будут отличаться только периодом основного тона. Пример фонемы «о» приведен на рисунке 1.12.

Сравнивая рисунки 1.11 и 1.12, мы можем сделать вывод о том, что фонему «о» и фонему «а» формирует одно и то же колебательное звено. Между собой фонемы отличаются только периодом основного тона. Этих данных в литературе нет. В классической литературе по обработке речи была сделана попытка связать между собой первую и вторую фонемы (см. рисунок 4.3 в [41]). Необходимо учитывать затухание частоты, так как это позволяет определять границу звука. Затухание является прямым, а не косвенным параметром речеобразования. Фонема «о» имеет меньший период основного тона в сравнении с «а», но одинаковую частоту заполнения и одинаковое затухание

Проведенные исследования показали, что, опираясь на новый принцип описания звуковых сигналов, можно построить простые «нечеткие» правила классификации «фонем» и синтез их оптимального нечеткого описания. Например, описание фонем «у» и «ю» имеют практически одинаковую форму строения, но разные периоды основного тона. Эта ситуация отображена на рисунке 1.13. О 50 Щ!\ ft h 200 100 I Т=50 "у” Т=60 "ю" Рисунок 1.13- Примеры двух похожих фонем «у» и «ю», отличающихся только периодом основного тона Существует возможность значительно упростить теорию описания речеобразования, выведя простые нечеткие (размытые) правила различения фонем. Они будут простыми для подавляющего большинства фонем. Эти правила будут описывать «среднестатистического» говорящего. Отклонения от этих правил будут являться не чем иным, как биометрическими особенностями говорящего. Видимо, именно такой путь даст возможность повышать качество вокодеров, коэффициент сжатия речи, достоверность передачи биометрических параметров речи.

Следуя путем синтеза нечетких правил (нечеткого распознающего фонемы автомата) предположительно удастся повысить в 1,5-2 раза коэффициент сжатия речи. Предпринятая попытка создать вокодер, учитывающий затухание колебательных процессов, показывает техническую реализуемость этого направления.

Еще одним путем повышения коэффициента сжатия речи является выделение фонем и кодирование фонем, а не кадров. Кадровая кодировка речи избыточна. Обычно в вокодерах используется 44 звуковых кадра в секунду. В среднем человек произносит 11 фонем в секунду. То есть вокодеры осуществляют 4-кратное дублирование одной фонемы. Если мы знаем нечеткое правило эволюции фонем (как одна фонема трансформируется в другую), то достаточно однократно передавать данные фонемы. Это должно позволить сжать дополнительно информацию в 3-4 раза. Если передавать параметры речи в центре фонем и между ними, то дополнительное сжатие будет примерно равно двум.

Таким образом, новый подход, построенный на оценке затухания периодов основного тона и внутренних колебаний, является перспективным, и позволяет повысить коэффициент сжатия речи в несколько раз. Технически реально иметь вокодеры с выходным потоком в 600 бит/с. Одновременно может быть решена задача точной передачи биометрических параметров для вокодеров с потоком 2400 и 4800 бит/с.

Аутентификация по парольному слову

Использование методов и алгоритмов, использованных при построении существующих вокодеров, не делает возможным применение данных методов в построении фрагментаторов голосовых сигналов. Причина, по которой нельзя применять эти методы, заключается в том, что вокодеры, обладающие высоким качеством передачи голосовых данных, выделяют огромное число классов, поток которых равен порядку 2400 бит/с. Данное число характерно вокодерам, построенным на алгоритмах линейного предсказателя. Необходимо минимизировать данное число потока данных. В случае использования вокодеров, дающих поток порядка 1200 бит/с, число полученных классов уменьшается, но, тем не менее, остается достаточно большим. Также в данном случае теряются биометрические данные самого пользователя [60].

Решением данных вопросов является использование биометрических аппаратов, способных обеспечивать систему достаточным количеством информации. Также выходом является построение автоматического фрагментатора речи, классифицирующего участки голосового сигнала. Использование уже имеющихся фрагментаторов не обеспечивает систему достаточным количеством информации из-за того, что их алгоритмы основаны на равномерной покадровой обработке голосового сигнала [1]. Равномерное разбиение голосового сигнала обычно варьируется на потоке 20-60 кадр/с. Также одним из недостатков существующих фрагментаторов является полное пренебрежение внутренними изменениями внутри фрагментов звука, т.е. появляется потеря знания об изменении самих биометрических параметров.

Можно сделать вывод, что основной целью создания устойчивых систем голосовой биометрической аутентификации является преждевременная обработка звукового сигнала, сочетающая в себе построение эффективного фрагментатора кодовой фразы, который учитывает личные характеристики пользователя и синхронизирует выявленные участки речи на этапе обучения программы, т.е. на данных участках речи не должно быть расхождение по фазе звука [61]. Также полезным свойством нового фрагментатора была бы возможность самообучения и выявления особенностей диктора на этапе аутентификации программы после длительного промежутка времени относительно обучения данного диктора.

К моменту аутентификации пользователя программа должна накопить всевозможные статистические характеристики, четко расклассифицировать выделенные участки речи. В случае биометрической идентификации необходимо создать автоматический фрагментатор, способный классифицировать звуки, благодаря заранее созданному словарю и обращающийся к базе данных созданных звуков, отдельно для каждого пользователя. Обе системы аутентификации и идентификации должны быть подвергнуты предварительным испытаниям на вероятность появления ошибки первого и второго рода. Эта задача решена в диссертации с применением следующих подходов. Разработан алгоритм контроля периода основного тона пользователя. Для каждого человека имеется свой отдельный набор параметров периода основного тона, который подсчитывается при записи звукового файла. Математическое ожидание длины периода основного тона считается индивидуальной характеристикой, несмотря на то, что у многих людей она может совпадать. Наименьшее значение периода основного тона характерно в основном женскому полу и лицам до 16 лет. Данное значение имеет значительное различие по сравнению с мужским голосом. Некоторые мужчины имеют басовый характер голоса, и среднее значение их периода превышает значение среднестатистического человека.

Этап предобработки голосовой фразы в случае идентификации или аутентификации должен оперироваться средними характеристиками диктора с учетом множество параметров без использования современных возможностей вычислительной мощности компьютера. Данное условие должно учитываться автоматическим фрагментатором-классификатором голосовой фразы, речи идентифицируемого пользователя.

Басовый голос из-за большой длины периода основного тона имеет достаточно большое разнообразие изменений по амплитуде сигнала внутри исследуемого участка. Данная особенность приводит к расширению окна обработки речевого фрагмента, эта проблема может быть решена путем прогнозирования изменения важных биометрических характеристик. Несмотря на данные факторы, фрагментатор-классификатор обязан тратить одинаковые вычислительные ресурсы для разных типов людей. Эти принципы заложены в разделе 3 главы 2 при построении практической модели фрагментации звуковой фразы.

Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком

Процедура «LPCJ5» - фильтр линейного предсказателя, на выходе которого имеем значение периода основного тона «period LPC» (формула 3.1.7). На процедуру подается длина кадра «TV», номер отсчета начала и конца кадра «7V7 и N2», порядковый номер кадра «kadr», количество коэффициентов автокорреляционной функции, «dmposonjjenod» - отклонение от нуля в автокорреляционной функции, «error» - вектор ошибки с предыдущего кадра, вычисляемый с помощью процедуры «LPCJor error».

В процедуре выполняется подсчет автокорреляционной функции погрешности предсказания: N/An-1-к r(k)= У ew(n)e(n + к),kе0,N/An-l, (3.1.10) а в блоке 6 определялось, при каких значениях щп ще[щ,п2], автокорреляционная функция погрешности предсказания г(к) максимальна, что соответствует выделению максимумов (пиков) в спектре речевого сигнала. Для этого минимизировался функционал: є гм=г(п0) та Ле[пЬп2]. (3.1.11) При этом щ - минимальная длина периода основного тона, щ = inf Т0Т- п2 -максимальная длина периода основного тона, п2 = sup Тот. Полученное значение определяем как п. Находим максимальное значение периода в рамках точной нижней и верхней грани, после чего переходим к формуле Т ±от п Гт-у, (3.1.12) 0, гт /, где у - пороговое значение, определяемое в процессе настройки.

Процедура «Ма8htabirovanie_v» масштабирует каждый кадр входного сигнала в заданном диапазоне для сравнения каждого кадра по корреляции. Все детерминированные участки приводятся к одинаковому константному масштабу от-1 до+1.

Процедура «mashtabirovamejJoX» принимает на вход сигнал определенной размерностью «N_N» и аппроксимирует сигнал «ogib» на определенную длину «Nogib». То есть сохраняется рисунок сигнала, изменяется лишь количество отсчетов в нем.

Процедура «Ogibayshayjjokadr» - подсчет огибающей по кадру, где «у» -фильтр размерностью «N_N» с определенной гармоникой; «Nach», «Коп» -начало и конец массива по параметру «у»; «kadr» - математическое ожидание периода основного тона; «ogib» - получаемая огибающая; «Nogib» - размерность огибающей.

После проведения предобработки сигнала и выделения необходимых биометрических параметров данные поступают на преобразователь биометрия-код, состоящий из следующих процедур и функций: void netlr.koef (int kolobrazov, int Nobrazov, double obrazy, int &razmer, double &net); void netl: :norm net (int kolobrazov, double sigma, double Mat OG al, int razmer, double &net); void CCalculateADQ::CalculateInputADQ (int imageCount, float coefficientsArr, float averageArr, float dispersionArr, float qualityArr); void netS::SimpleTraining (int weights Number, const int ConnectionArr, int imageCount, int keyArr, float averageArr, float weightsArr); void netSr.NormalizationTrainmg (int weights Number, const int ConnectionArr, int imageCount, float dispersionArr, float qualityArr, float weightsArr).

Процедура «Ьф -вычисление коэффициентов Фурье из сформированных образов (биометрических параметров). «Nobrazov» - размерность одного образа. akol obrazov» - количество образов, поданных на нейронную сеть. На выходе процедуры - матрица «net» размерностью [196, kol obrazov]. Каждый вектор из 196 компонент сформирован из коэффициентов Фурье рассматриваемого сигнала.

Процедура формирования заключается в обработке сигнала различными окнами, вычислением коэффициентов Фурье вырезанных этими окнами функций и формированием итого вектора по специальному алгоритму.

Процедура «normnet» - нормировка образов «Свой» относительно математического ожидания и дисперсии образов «Чужой». Образы «Чужой» сформированы предварительно путем накапливания голосовой базы из 10000 образов. База сформирована в результате проводимого сбора в рамках внутренней работы АО «ПНИЭИ» в 2012-213 гг. Нормировка образов осуществляется по формуле net[g][/] = - у , i _ 0..kol obrazov, g = 0.. 196, (3.2.1) чужойШ где Мчужой - вектор математического ожидания образов «Чужой»; 64yyK0U[g] вектор дисперсий образов «Чужой».

Процедура «CalculatelnputADQ» подсчитывает математическое ожидание, дисперсию и качество параметров образов «Свой». Качество каждого параметра рассчитано путем отношения среднего значения параметра к его дисперсии.

Процедура «SimpleTraining» производит заполнение и запись таблицы весовых коэффициентов в отдельный .1x1 файл для дальнейшего его использования в момент обезличивания. В результате проведенной процедуры формируется первоначальное обучение первого слоя. На вход процедуры подается таблица связей нейронов, относительно которой формируются параметры, принимающие значения «0» и «1», а также случайно сгенерированный код доступа «key». Число весов «weightsJayerl» на слое равно 24. Обучение ведется путем корректировки знаков весовых коэффициентов у части входов нейрона. Корректировку знака осуществляют таким образом, чтобы вероятность появления заданного отклика на выходе нейрона при предъявлении примеров образа «Свой» увеличивалась (число ошибок выходного кода уменьшалось). Корректировку следует осуществлять по одному входу. Если смена знака весового коэффициента корректируемого входа дает обратный результат, то корректировку следует отменить и перейти к корректировке знака следующего весового коэффициента. Процедура «NormalizationTraining» осуществляет обучение первого слоя сети, используя входное качество и дисперсию, полученные из функции «CalculatelnputADQ».