Содержание к диссертации
Введение
ГЛАВА 1. Методы и математические модели анализа речевых сигналов в задачах аутентификации личности 21
1.1. Системы биометрической аутентификации, особенности идентификации и верификации личности по голосу 21
1.2. Речевая наука, речевые технологии и системы биометрической аутентификации по голосу 48
1.3. Подходы к построению математических моделей речевых сигналов в задачах аутентификации личности по голосу 72
Выводы к главе 1 104
ГЛАВА 2. Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детермини рованного подхода 106
2.1. Детерминированная математическая модель речевого сигнала, сущность метода синтеза и анализа на основе модуляционной теории 106
2.2. Математическая модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами 130
2.3. Математическая модель речевого сигнала в виде амплитудно-модулированного импульса с полигармоническими несущим и модулирующим колебаниями 154
2.4. Математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот 162
2.5. Обобщенная математическая модель речевого сигнала в виде импульса колебания с амплитудно-частотной модуляцией 167
2.6. Метод выделения модулирующего колебания из огибающей речевого сигнала 172
Выводы к главе 2 182
ГЛАВА 3. Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием стохасти ческого подхода 184
3.1. Обоснование и сущность метода синтеза и анализа стохастической модуляционной математической модели речевого сигнала 184
3.2. Математическая модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами и случайными начальными фазами 192
3.3. Математическая модель речевого сигнала в виде амплитудно-модулированного импульса с полигармоническими несущим и модулирующим колебаниями при случайных начальных фазах 2 3.4. Математическая модель речевого сигнала в виде суммы квазидетерминированного случайного процесса и белого шума с ограниченным по полосе частот спектром 211
3.5. Математическая модель речевого сигнала в виде суммы квазидетерминированного случайного процесса и процесса авторегрессии 218
3.6. Модель авторегрессии с постоянными коэффициентами для вокализованного речевого сегмента после предварительной фильтрации 222
Выводы к главе 3 228
ГЛАВА 4. Методы расчета параметров математических моделей речевого сигнала, построенныхна основе теории модуляции 230
4.1. Метод и характеристики аналитического расчета амплитудных параметров математических моделей речевого сигнала, построенных на основе теории модуляции 230
4.2. Методы оценки частоты основного тона речевого сигнала 249
4.2.1. Алгоритмы оценки частоты основного тона речевого сигнала модифицированных корреляционного и спектрального методов 258
4.2.2. Метод, алгоритм и характеристики оценки частоты основного тона речевого сигнала на основе миниму ма невязки коэффициентов корреляции при исполь зовании полигармонической математической модели 261
4.2.3. Оценка частоты основного тона и её характеристики методом максимального правдоподобия при известных амплитудах и начальных фазах несущих гармоник 277
4.2.4. Оценка частоты основного тона и её характеристики методом максимального правдоподобия при неизвестных амплитудах и начальных фазах несущих гармоник 285
4.3. Метод и характеристики оценки формантных частот речевого сигнала на основе его полигармонической математической модели 292
Выводы к главе 4 299
ГЛАВА 5. Проверка адекватности математической модели речевого сигнала на основе экспериментальных данных 301
5.1. Методика проверки математической модели речевого сигнала на адекватность экспериментальным данным 301
5.2. Методы аналитического расчета весовых коэффициентов меры различимости 314
5.2.1. Метод на основе критерия минимизации расстояния между "своими" и эталоном 321
5.2.2. Метод на основе критерия максимизации расстояния между "чужими" и эталоном 326
5.2.3. Метод на основе критерия минимаксного расстояния между "своими", "чужими" и эталоном соответственно
5.3. Меры различимости речевых сигналов и оценка порога принятия решения для задач аутентификации личности по голосу применительно к полигармонической математической модели 331
5.4. Алгоритмы функционирования систем аутентификации личности по голосу 340
5.4.1. Способ, алгоритмы и устройство системы верификации личности по голосу на основе математи ческой модели речевого сигнала в виде импульса
АМ-колебания с несколькими несущими частотами 340
5.4.2. Оценка качества работы системы верификации личности по голосу 357
5.4.3. Система идентификации личности по голосу, основанная на полигармонической математической модели речевого сигнала 362
Выводы к главе 5 363
Заключение
- Подходы к построению математических моделей речевых сигналов в задачах аутентификации личности по голосу
- Математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот
- Математическая модель речевого сигнала в виде амплитудно-модулированного импульса с полигармоническими несущим и модулирующим колебаниями при случайных начальных фазах
- Методы оценки частоты основного тона речевого сигнала
Введение к работе
Актуальность темы. В настоящее время аутентификация личности по голосу широко применяется в системах контроля доступа к информационным или материальным ресурсам на основе биометрических параметров. Системы аутентификации личности по голосу обладают рядом преимуществ относительно других биометрических систем, основными из которых являются сравнительно небольшая стоимость и относительная простота практической реализации.
Развитие систем аутентификации личности по голосу лимитируется уровнем их надежности. Точность идентификации (установление) и верификации (подтверждение) личности по голосу в существенной мере определяется адекватностью математической модели, описывающей речевой сигнал. Увеличение точности в рамках существующих методов описания речевых сигналов, если и возможно, то приводит, как правило, к значительному увеличению количества параметров модели, что влечет за собой увеличение систематической ошибки и времени обработки поступивших данных, а также снижение значимости таких параметров для характеристики индивидуальных особенностей голоса человека. Высокий уровень ошибок систем аутентификации по голосу обуславливается также трансформацией голоса, вследствие болезней, особых эмоциональных состояний, возрастных изменений и т. д.
Используемые в диссертации теоретико-методологические посылки основываются на трудах отечественных и зарубежных исследователей в области акустической теории речеобразования и обработки речевых сигналов, таких как: Г. Фант, М.А. Сапожков, Дж. Фланаган, А.А. Пирогов, Б. Атал, Дж. Додингтон, Л.Р. Рабинер, Б. Гоулд, Р.В. Шафер, Д.Д. Маркел, А.Х. Грей, С. Левинсон, Б.М. Лобанов, Л.А. Чистович, Н.Г. Загоруйко, Г.С. Рамишвили, Ю.Н. Прохоров, В.Н. Сорокин, В.Г. Михайлов, Т.К. Винцюк, В.И. Галунов, В.Р. Женило, Р.К. Потапова, А.В. Аграновский, СВ. Дворянкин, А.А. Петровский, В. Чу, Р.Г. Голд-берг, С.Л. Коваль и др.
Обоснованию подходов к разработке математических моделей речевых сигналов посвящено сравнительно немного научных публикаций. Это объясняется, прежде всего, сложной полиинформативной и полимодуляционной структурой речевого сигнала, а также большим количеством информации, используемой при анализе и синтезе математических моделей речевых сигналов. Однако, сегодня прогресс микроэлектроники наряду с применением цифровых технологий преобразования речевых сигналов дает возможность оперировать большими объёмами информации, обрабатывая её с приемлемой скоростью. При этом зачастую цифровые речевые технологии опережают речевую науку.
Наибольшую точность описания имеют математические модели, соответствующие физике процессов, поэтому при разработке математической модели речевого сигнала необходима её адекватность акустической теории речеобразования. Таким образом, повышение надежности проектируемых систем аутентификации возможно за счет разработки и использования новых методов построения адекватных математических моделей речевых сигналов.
В последнее время проявляется интерес к созданию математических моделей речевых сигналов, основывающихся на теории модуляции в рамках де-
терминированного подхода и характеризующихся небольшим количеством существенных параметров речевых сигналов и высокой точностью их описания. Однако общие свойства параметров речевых сигналов, описанных такими моделями, практически не исследованы.
Таким образом, повышение надежности систем верификации и идентификации личности по голосу и развитие голосовых систем разграничения доступа требуют решения крупной актуальной научной проблемы - разработки теоретических основ анализа и синтеза высокоточных адаптивных математических моделей речевых сигналов с минимальным количеством высокоинформативных физически интерпретируемых существенных параметров применительно к задачам голосовой аутентификации.
Работа выполнена в рамках госбюджетных НИР кафедры радиотехники Воронежского института МВД России.
Цель и задачи исследования. Целью работы является разработка методов построения математических моделей речевых сигналов для верификации и идентификации личности по голосу.
Для достижения данной цели в работе решены следующие задачи:
-
Разработка концепции построения математических моделей речевых сигналов для задач голосовой аутентификации на основе акустической теории ре-чеобразования.
-
Разработка методов синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детерминированного и стохастического подходов.
-
Разработка обобщённого метода аналитического расчета амплитуд несущих гармоник полигармонических математических моделей речевого сигнала.
-
Разработка высокоточных методов оценки частоты основного тона и фор-мантных частот речевого сигнала.
-
Разработка способа проверки адекватности математической модели речевого сигнала экспериментальным данным.
-
Разработка мер различимости для верификации и идентификации личности по голосу и методов аналитического расчета их весовых коэффициентов.
-
Создание и реализация алгоритмов функционирования систем верификации и идентификации личности по голосу.
Методы исследования. При решении поставленных задач использовались современные аналитические и вычислительные методы теории вероятностей и математической статистики, теории случайных процессов, теории рече-образования, математического анализа, цифровой обработки сигналов, теории оптимального приёма, кластерного анализа, численные методы, методы программирования и моделирования на ЭВМ.
Научная новизна работы заключается в том, что в ней впервые: 1. Дана систематизация математических моделей речевых сигналов для задач аутентификации по голосу и сформулирована концепция их построения в явном виде, включающая в себя систему признаков модели и требований к ее структуре, существенным параметрам и методам их определения и оценки точности их расчетов, методам проверки модели на адекватность и мерам различимости.
-
Для задач аутентификации по голосу на основе теории модуляции разработаны и апробированы методы синтеза и анализа детерминированных и стохастических импульсных полигармонических математических моделей речевого сигнала с получением аналитических выражений для характеристик моделей.
-
Разработаны методы выделения модулирующего колебания и аналитического расчета амплитуд несущих колебаний полигармонических математических моделей речевого сигнала, построенных на основе теории модуляции, с оценкой точности расчетных параметров в аналитическом виде.
-
Разработана математическая модель речевого сигнала в виде суммы ква-зидетерминированной компоненты с полигармоническими модулирующим и несущим колебаниями и процесса авторегрессии.
-
Разработаны методы и алгоритмы и получены выражения для оценки точности вычисления частоты основного тона речевого сигнала на основе полигармонической математической модели: по минимуму невязки коэффициентов корреляции, а также по формированию оптимальной оценки при известных и неизвестных амплитудах и начальных фазах несущих гармоник.
-
Разработан метод оценки формантных частот вокализованных участков речи на основе полигармонической математической модели.
-
Получен способ проверки адекватности математической модели речевого сигнала экспериментальным данным по коэффициентам корреляции при использовании критерия соответствия на базе коэффициента множественной корреляции.
-
Для задач аутентификации личности по голосу разработаны новые эффективные меры различимости речевых сигналов для математической модели в виде импульса АМ-колебания с несколькими несущими частотами, методика вычисления начального значения порога меры различимости для критерия принятия решения.
-
Разработаны алгоритмы и синтезированы структурные схемы устройств аутентификации диктора по голосу, обеспечивающие повышение точности систем разграничения доступа.
Практическая значимость исследования заключается в перспективах расширенного применения разработанных методов синтеза и анализа математических моделей речевых сигналов в практических системах аутентификации по голосу. Разработанные структурные схемы устройств и алгоритмы реализации систем верификации и идентификации личности по голосу, могут быть положены в основу реальных технических устройств, работающих в составе систем разграничения доступа. Полученные в работе методы высокоточных оценок существенных параметров моделей речевых сигналов призваны повысить надёжность систем голосовой идентификации и верификации самого широкого спектра их практического приложения.
Внедрение научных результатов. Полученные в диссертации результаты использовались при выполнении научно-исследовательских работ в Воронежском институте МВД России, внедрены в научно-исследовательский процесс в ОАО «Концерн «Созвездие» (г. Воронеж), в ОАО «ВНИИ «Вега» (г. Воронеж), в ФГНИИЦ РЭБ ОЭСЗ Министерства обороны России (г. Воронеж), в Военной
академии связи (г. Санкт-Петербург), в ЗАО «Учебно-методический центр при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича» (г. Санкт-Петербург). Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России и в практическую деятельность ЗАО «ВТБ 24». На защиту выносятся:
-
Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детерминированного подхода.
-
Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием стохастического подхода.
-
Обобщенный метод аналитического расчета и выражения для оценки точности амплитудных параметров математических моделей речевого сигнала, построенных на основе теории модуляции.
-
Метод и характеристики оценки частоты основного тона речевого сигнала на основе полигармонической математической модели по минимуму невязки коэффициентов корреляции.
-
Метод и характеристики оценки частоты основного тона речевого сигнала при неизвестных амплитудах и начальных фазах несущих гармоник, основывающийся на полигармонической математической модели.
-
Метод оценки формантных частот вокализованных участков речи на основе полигармонической математической модели.
-
Меры различимости речевых сигналов для аутентификации личности по голосу на основе математической модели в виде импульса АМ-колебания с несколькими несущими частотами.
-
Алгоритмы функционирования и структурные схемы устройств аутентификации диктора по голосу в системах разграничения доступа.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Международных и Всероссийских научно-технических конференциях, таких как: VII, X, XI, XVI международная научно-техническая конференция "Радиолокация, навигация, связь" (Воронеж, 2001, 2004, 2005, 2010); XV международная научная конференция "Информатизация и информационная безопасность правоохранительных органов" (Москва, 2006); Международная научно-практическая конференция "Современные проблемы борьбы с преступностью" (Воронеж, 2006); Международная научно-практическая конференция "Обеспечение общественной безопасности в Центральном федеральном округе Российской Федерации" (Воронеж, 2007); Международная научно-практическая конференция "Преступность в России: состояние, проблемы предупреждения и раскрытия преступлений" (Воронеж, 2008); Международная научно-практическая конференция "Обеспечение законности и правопорядка в странах СНГ" (Воронеж, 2009); Международная научно-практическая конференция "Общественная безопасность, законность и правопорядок в III тысячелетии" (Воронеж, 2010); XXIII международная научная конференция "Математические методы в технике и технологиях" (Саратов, 2010); XVI международная научно-техническая конференция "Информационные системы и технологии" (Нижний Новгород, 2010); VII международная научно-практическая
конференция "Актуальные вопросы современной науки" (Таганрог, 2010); Международная научно-техническая конференция "Наука и образование - 2010" (Мурманск, 2010); I международная научно-практическая конференция "Наука и современность" (Новосибирск, 2010); VI международная открытая научная конференция "Современные проблемы информатизации в технике и технологиях" (Воронеж, 2001); XV международная открытая научная конференция "Современные проблемы информатизации в экономике и обеспечении безопасности" (Воронеж, 2010); Всероссийская конференция "Интеллектуальные информационные системы" (Воронеж, 1999); Всероссийская научно-практическая конференция "Современные проблемы борьбы с преступностью" (Воронеж, 2003, 2005); V, VII всероссийская научно-практическая конференция "Охрана, безопасность и связь" (Воронеж, 2005, 2009); Общероссийская научная конференция "Актуальные вопросы современной науки и образования" (Красноярск, 2010); XXII сессия "Российского акустического общества" (Москва, 2010).
Публикации. По теме диссертации опубликовано 66 научных работ: 1 монография, 1 учебное пособие, 18 статей в ведущих рецензируемых научных журналах, которые входят в утвержденный ВАК Минобрнауки РФ «Перечень периодических научных и научно-технических изданий, выпускаемых в Российской Федерации, в которых рекомендуется публикация основных результатов диссертаций на соискание ученой степени доктора наук», 1 заявка на изобретение (принято решение о выдаче патента), 1 депонированная рукопись, 1 регистрация программы в ФАЛ, 4 заключительных отчета о НИР, 11 научных статей и материалы 28 докладов на международных и всероссийских научно-технических и научно-практических конференциях.
Личный вклад автора. Основные научные результаты получены автором лично. Из 66 работ по теме диссертации 34 написаны без соавторов. В приведенном списке научных работ из опубликованных в соавторстве лично соискателем предложено: в [13, 14, 16, 17, 19, 39, 49-55, 57] - разработка основных концептуальных положений, постановки задач, выбор методов их решения; в [31-34] - основные идеи по методам построения и расчета параметров математических моделей речевых сигналов; в [1, 20, 23, 35-38] - постановка экспериментов, анализ и интерпретация, полученных результатов и выводы; в [47, 56] -алгоритмы и структурные схемы устройств аутентификации.
Структура и объём работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 400 наименований. Общий объём диссертации составляет 403 страницы машинописного текста, включая 53 рисунка и 19 таблиц.
Подходы к построению математических моделей речевых сигналов в задачах аутентификации личности по голосу
В системах безопасности, в особенности - интегрированных, ключевую роль играют системы контроля доступа (СКД), основанные на проверке подлинности претендента на доступ к защищаемому объекту.
Аутентификация - проверка подлинности объекта или субъекта на основе его существенных признаков, как обобщенное понятие включает в себя два класса задач: идентификация и верификация [29].
При верификации (подтверждении) объекта требуется установить его соответствие некоторому эталону. Система верификации принимает одно из двух возможных решений: объект является тем, за кого он себя выдает, или не является таковым. При идентификации (установлении) объекта решение, формируемое системой, сводится к выбору того объекта, чье эталонное описание наиболее близко к описанию, полученному по входному сигналу.
При этом невозможно конструктивно решить проблему проверки подлинности объекта без наличия адекватной математической модели - приближенного описания существенных признаков объекта с помощью математической символики.
Признаком объекта может служить не только пароль, но и специальный код на определенном носителе, и биометрические данные индивидуума. От надежности методов аутентификации напрямую зависит сохранность информации и, как следствие, надежность всей системы.
Средства аутентификации относятся к категории классических средств управления информационной безопасностью корпоративных и глобальных коммуникационных сетей и включают в себя определение, создание, изменение, удаление и аудит пользовательских учетных записей. Простейший механизм аутентификации, встроенный почти в любую операционную систему, предлагает после введения имени подтвердить его соответствующим паролем. В операционных системах Windows и Unix пароли хранятся в зашифрованном виде, а для шифрования паролей используются стандартные криптоалгоритмы с встроенными ключами.
Требования к способам контроля доступа помимо высокой точности аутентификации включают в себя скорость обработки данных об объекте.
Выделяют четыре основных вида автоматизированной идентификации объекта: оптический, магнитный, радиочастотный и биометрический.
Самый простой и распространенный способ идентификации - оптический. В его основе лежит принцип распознавания видимых символов, например, штрих-кода, личной подписи и др. Поскольку символы легко поддаются подделке, низкая надежность данного способа идентификации не позволяет защищать особо важную информацию. Поэтому оптический способ идентификации используется, как правило, в системах внутреннего учета.
Магнитный способ идентификации основан на считывании нанесенных на магнитную полосу символов. Карты с магнитной полосой используются как в качестве платежного инструмента, так и для контроля доступа в помещение. Однако, карты с магнитной полосой в настоящее время не могут полностью защитить пользователя от незаконного копирования информации злоумышленниками. Мошенники-«кардеры», занимающиеся кражей данных с карт, располагают целым арсеналом средств для считывания информации с магнитных полос и подделки карт. Поэтому, в дополнение к магнитным полосам, карты оснащают дополнительными средствами защиты.
Радиочастотные (RFID) и биометрические системы идентификации обладают высокой устойчивостью к взлому и краже информации. Карты с RFID чипом относятся к бесконтактным смарт-картам, в основу действия которых заложен принцип кодирования карт при помощи нанесения на чип RFID-метки. Такие карты отличаются высокой надежностью, большим объемом записываемой информации, долговечностью. Использование нескольких уровней криптозащиты делают практически невозможным их подделку. Запас прочности самого RFID-чипа огромен, срок эксплуатации RFID-карт почти не ограничен, при этом стопроцентная идентификация может производиться да же через грязь, воду, пар, краску, пластмассу, древесину и даже металл. Благодаря высокой скорости считывания меток RFID-карты могут применяться в системах контроля доступа автотранспорта. Для обеспечения повышенной безопасности обычно применяют аутентификацию с помощью аппаратных средств, таких как: смарт-карты, USB-ключи, Touch-Memory.
Одной из основных проблем систем небиометрической аутентификации является простое применение неправомерно приобретённого ключа или кода. Неправомерно приобрести и использовать биометрический признак человека намного сложнее. Поэтому биометрические системы аутентификации личности в последнее время всё больше используются в качестве основных или дополнительных систем контроля доступом.
Понятие "биометрия" появилось в конце XIX в. как научная дисциплина, занимающаяся количественными биологическими экспериментами с привлечением математических методов. В конце XIX в. интерес к биометрии значительно возрос благодаря ее применению в технологиях безопасности на основе компьютерных систем распознавания личности по уникальному генетическому коду человека.
В биометрической системе аутентификации пользователь, обращаясь к СКД, аутентифицирует себя, например, с помощью идентификационной карточки, пластикового ключа или личного идентификационного номера. СКД по предъявленному идентификатору находит в своей памяти личный файл (эталон) пользователя, в котором вместе с номером хранятся данные его биометрии, предварительно зафиксированные во время процедуры регистрации пользователя. После этого пользователь предъявляет системе для считывания обусловленный носитель биометрических параметров. Сопоставив полученные и зарегистрированные данные, система принимает решение о предоставлении или запрещении доступа.
Примером комплексной идентификации человека по персональным характеристикам служит биометрический паспорт с идентификационным чипом.
Современные биометрические СКД считывают и сравнивают такие физиологические или поведенческие характеристики человека, как [29,325,328]: - радужная оболочка глаза (параметры зрачка и сетчатки глаза);
Математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот
Одной из главных статистических характеристик речевого сигнала x(t) является его выборочный спектр мощности (выборочная СПМ) Wg( 2ж/). Выборочный спектр мощности - это косинус-преобразование Фурье выборочной функции корреляции [28]. Для того чтобы определить экспериментальный выборочный спектр мощности сформированного на ЭВМ речевого сигнала необходимо использование специальной методики [15,69,70,228]. Это связано с тем, что Фурье-преобразование выборочной корреляционной функции не дает состоятельной оценки экспериментального выборочного спектра мощности, то есть с увеличением объема выборки выборочный спектр мощности не стремится к теоретическому спектру мощности. Однако, в [15] показано, что большую дисперсию оценки соответствующей выборочному спектру мощности можно уменьшить, вводя так называемые, "спектральные" или "корреляционные" окна. При этом оценка экспериментального выборочного спектра мощности становится состоятельной и имеет вид [69,70]: W lnf) = 2А М-1 R0 + 2 YjRkW(k)cos(27rfAk) (1.1) где A \Ifd - интервал дискретизации речевого сигнала x(t) с отсчетами х, (3.1); М- точка отсечения "корреляционного" окна W(k), которая связана с шириной спектрального окна, соотношением М=ЬН /(ЬА), где Ън - нормированная ширина полосы частот, имеющая некоторое значение для конкретного спектрального окна; Ъ - ширина спектрального окна (Гц); Rk - функция корреляции х,. В результате нормировки СПМ (1.1) на дисперсию, получим следующее выражение для нормированной на дисперсию СПМ (НСПМ): WA2nf) S(f)= \ =2А М-1 (1.2) 1 + 22] rkw(k) cos(27rfAk) к=\ где гк - КК х,. На практике для вычисления СПМ наиболее часто используют следующие "корреляционные" окна: Бартлетта, Тьюки, Парзена [69].
Описание речевого сигнала на основе кепстрального анализа. В широко распространенной модели речеобразования [169,174] короткие от резки речевого сигнала рассматриваются как свертка двух функций, одна из которых описывает возбуждение голосового тракта (в виде последовательности импульсов для вокализованного сигнала, или в виде шума для невокали-зованного), а другая - это относительно медленно меняющаяся во времени импульсная характеристика речевого тракта (который полагают линейной системой с постоянными параметрами). Для решения многих задач анализа речевого сигнала требуется определить параметры, описывающие эти две функции. Например, требуется определить, какого рода была функция возбуждения, то есть соответствовала она тональному или шумовому звуку речи. В случае тонального звука часто бывает нужно вычислить значение ЧОТ. Привлекательной является идея разделить эти две функции, чтобы потом без влияния их друг на друга определить нужные параметры. В определённой мере это можно сделать, используя так называемый гомоморфный анализ, одним из видов которого является кепстральный анализ.
Аппроксимация кепстра получается путем вычисления обратного ДПФ логарифма модуля ДПФ входной последовательности [174]:
cp(n) log\x{kjexJj kn\ п = 0 ЇГА. (1.3) Я к=о \ Я J Коэффициенты кепстра и комплексного кепстра рекомендуется вычислять через каждые 10-20 мс [174]. Кепстр повторяющихся процессов имеет выраженный максимум на периоде повторения. Это свойство является основой использования динамических кепстрограмм в качестве описаний степени периодичности сигнала.
Предположим, что мы исследуем тональный участок речи. Тогда речевой сигнал можно считать сверткой последовательности периодически следующих импульсов голосового источника и минимально-фазовой передаточной функции голосового тракта. Кепстр речевого сигнала будет суммой кепстров этих функций [174], и кепстр передаточной функции голосового тракта будет убывать с увеличением п (обычно за 2-4 мс он спадает до значений фонового шума), а кепстр функции возбуждения будет иметь выраженные максимумы в точках кратных периоду основного тона. Тогда, если взвесить кепстр речевого сигнала временным окном: 1{п)=\, при n N\ и 1(п)=0, при п Ш, где Ш Т0 (М - точка отсечения временного окна 1(п), а Г0 -период основного тона), то проделав потом преобразования, обратные взятию кепстра, можно получить импульсный отклик передаточной функции голосового тракта. Так как кепстр минимально-фазовой функции - убывающая функция, то импульсный отклик будет восстановлен достаточно точно, даже несмотря на то, что часть значений кепстра была отфильтрована временным окном. Если же взвесить кепстр высокочастотным окном, то можно восстановить функцию возбуждения.
Математические модели речевого сигнала на основе линейного предсказания. Для описания речевого сигнала в рамках линейного предсказания (теории линейных динамических систем) применяют:
1) линейные модели с локально-постоянными параметрами (АР, скользящего среднего, АР - скользящего среднего) [14,15,28,134,137,150,171,174,176];
2) линейные параметрические (нестационарные) модели (авторегрессии проинтегрированного скользящего среднего, проинтегрированного скользящего среднего и т.д.) [15,28,150,171].
Модели авторегрессии с локально постоянными коэффициентами (мгновенная локально-стационарная модель). Рассмотрим самый простой и распространенный случай описания речевого сигнала моделью АР. Эта модель может аппроксимировать, как невокализованные, так и вокализованные звуки, при этом предполагается, что речевой тракт - система линейная, а речевой сигнал - локально-стационарный процесс. Следуя предположению о линейности преобразования в тракте, эквивалентную динамическую систему в дискретном времени, отражающую процесс речеобразования, можно изобразить в виде схемы, представленной на рис. 1.7, где at - последовательность случайных величин, моделирующая возбуждающий процесс, ПС - порождающая линейная система (линейный частотный фильтр) или эквивалентная модель голосового тракта, в которой производится своеобразная "модуляция" at посредством медленного изменения ее параметров. at ПС X(
При этом для невокализованных участков речи at - гауссовская последовательность случайных величин, моделирующая исходный турбулентный шум. Для вокализованных сегментов речевого сигнала at следует рассматривать как модель квазипериодической волны, формирующейся в голосовой щели [150]. Её можно описать последовательностью импульсов известной формы щ. где tm - временные координаты импульсов; wt - сопутствующая случайная некоррелированная последовательность слабой интенсивности; То - период основного тона. Форма импульса ut задаётся обычно треугольной, но может изменяться в довольно широких пределах. Важно, чтобы at обладала широким спектром и, действуя на входе ПС, возбуждала все её собственные колебания.
Математическая модель речевого сигнала в виде амплитудно-модулированного импульса с полигармоническими несущим и модулирующим колебаниями при случайных начальных фазах
Решения задачи с краевым возбуждением речевого тракта голосовым источником (q(t) 0; F(x,t) = 0; Р0(х) = 0; Pj(x) = 0), а также задачи о возбуждении тракта распределенным (фрикативным) источником (q(t) = 0; F(x,t) Ф 0; Р0(х) = 0; Р1(х) = 0), приведены в [119]. Основываясь на виде полученного решения, можно сделать допущение о том, что величина а различна для разных собственных функций (собственных частот) тракта. Это приводит к за мене аяа. апв формуле (2.10) с учетом того, что теперь Cln = J/l„ ґсЛ IE -ar Амплитудный спектр звука речевого сигнала в общем виде [240]: W)HE{f)\-\M(f% (2.13) где каждая из составляющих спектра источника, определяемого работой голосовых складок, (/), умножается на значение АЧХ фильтра М(/) для частоты соответствующей гармоники. Для вокализованных участков речи, состоящих в основном из гласных и сонорных согласных звуков, зависимость обобщённой частотной характеристики речевого аппарата от характеристик источника и частотного фильтра, в качестве которого выступает речевой тракт, можно представить, без ПО учёта фазовых соотношений, в виде [240]: Hf)HU(f)\ \H(f)\-\R(f)\. (2.14)
Здесь \U(f)\ - амплитудный спектр источника - сигнала голосовых складок; #(/) и \R(f)\ - АЧХ тракта и излучателя, \H(f)\ \R(f)\ = \М( f)\ - АЧХ фильтра. Для упрощённого описания процесса формирования речевого сигнала, характеризуя речевой тракт лишь одной функцией //(/), полагают произведение \U(f)\ \R(f)\ некоторой эмпирической функцией, которая не изменяется от одного сонорного звука к другому [240]. Однако, в связи с существенной перестройкой параметров источника и излучателя при произнесении различных сонорных звуков для реальных речевых сигналов данное эвристическое предположение далеко не всегда выполняется на практике [149,213,214].
Наиболее распространёнными моделями резонаторов речевого тракта, описывающими резонансные эффекты в формантных областях, являются: 1) одиночный резонатор Гельмгольца (резонатор с горлом) [240]; 2) сдвоенный резонатор Гельмгольца [240]; 3) локальный резонатор Гельмгольца для третьей верхней певческой форманты [149]; 4) цилиндрическая труба постоянного сечения [240]; 5) последовательное соединение резонаторов (в виде цилиндрических отрезков труб или резонаторов Гельмгольца) [191,240,250]; 6) параллельное соединение резонаторов (в виде цилиндрических отрезков труб или резонаторов Гельмгольца) [191,240,250]; 7) модель в виде частично заполненного резонатора [213]; 8) модель речевого тракта с переменным сечением сложной формы [213].
Характеристики моделей 1-6, как правило, рассчитываются на основе электрического аналога [191,240,250], с применением теории четырёхполюсников, что влечёт за собой ряд недостатков и особенностей, например - не имеющие физического смысла характеристики, замена последовательно соединённых резонаторов на параллельно соединённые электрические цепи и наоборот, отсутствие однозначного соответствия при данной замене, появление не существующих в действительности взаимных влияний и др.
Одной из популярных частотных характеристик, описывающих речевой тракт, является функция передачи речевого тракта H(p)=Vo(p)/ vtt(p), которая для неназализованных звуков речи определяется как отношение объёмной скорости v0 через ротовое отверстие к объёмной скорости v„ через голосовую щель (или к давлению, созданному голосовым источником Ри). При этом вводится комплексная частота р = а + jco. Перейдя от VQ К звуковому давлению Рг в звуковом поле на расстоянии г от говорящего [191,240], с учетом дополнительного множителя, описывающего характеристики источника излучения, получим выражение функции передачи речевого тракта для идеального сонорного, неназализованного звука на расстоянии г от губ [191,
Здесь напр( р), С/,,0 и pq - соответственно полный поправочный множитель направленности излучателя, амплитудная константа и полюсы, характери зующие голосовой источник [240]; рп и рп - комплексно-сопряжённые пары полюсов речевого тракта для первых g формант; Кв$(р) - поправочный множитель, учитывающий влияние более высоких формант; p„=crn+jct)n; сгп и а „ соответственно характеризуют затухание и частоту для п-й форманты. Выражение (2.15) описывает процесс звукообразования в операторной форме. При этом применяется четырёхполюсная (на отрицательной вещественной оси) модель источника [240]; первые два из полюсов примерно равны: Pqf=orq\faPq2=oq2f -27r Л00 Гц, однако имеют место индивидуальные различия и зависимость от голосового усилия. Третий и четвёртый полюсы: РЧУ=СУЧЪК -27Г-2000 ГЦ к рЧ4=сгЧ4 -2я-4000 Гц, существенны при синтезе речи с помощью аналога речевого тракта в виде линии передачи, а для формантного синтезатора, воспроизводящего спектр до 3500Гц, не имеют значения.
Для назализованных звуков выражение (2.15) несколько усложняется в связи с тем, что появляется дополнительный сомножитель. В тоже время, для неназализованных глухих звуков вводится дополнительная нормировка [191, 240]. Обратное преобразование Лапласа от Р{ р) даёт звуковое давление как функцию времени. Преобразование от (2.15), распространённое-на случай стационарного периодического процесса [191, 240]: м /и=0 ZAqea -mTo) +(-1)и V "("w2b) cos[a n(t-mT0) + pn]\, (2.16) L ?=1 и=1 представляет собой суперпозицию конечного числа затухающих колебаний и непериодических экспоненциальных процессов, возбуждающихся при каждом из т последовательных импульсов голосового источника, начиная с т = 0 до т = М, то есть до последнего импульса в данном отрезке речи. Множитель (—1)" введён для учёта переменной фазы электрического аналога речевого тракта в виде параллельных контуров. Параметры Aq, Ап и рп опре-деляются полюсами и» другими постоянными частотного преобразования. При совпадении одной из ФЧ Fn=con / 2п с 4OTf0 или с одной из частот обертонов /М /о, /=1,2,... будет наблюдаться резонансное усиление соответствующей гармоники сигнала голосового источника.
Период основного тона Го = l/fo и начальные амплитуды Aq, Ат могут меняться от периода к периоду, также изменяются и величины полюсов ч pq = Jq + j 0 и рп = сг„ + ju)n. Всё это приводит к более сложному виду колебаний, чем определяемому из формулы (2.16). Также следует учитывать тот факт, что длительность произнесения участков речи является конечной, а не бесконечно протяжённой во.времени величиной.
Методы оценки частоты основного тона речевого сигнала
В качестве примера рассмотрим модель речевого сигнала для верификации личности по голосу на основе вокализованного участка речи при использовании в качестве парольной фразы слова "он", состоящего из одного гласного и одного сонорного согласного звуков.
Определим параметры U[, l = l,L,f0, cpQ, F0, Ф0, М, ги, входящие в математическую модель (2.39). Для расчета характеристик модели речевого сигнала в виде АМ-колебания использована персональная ЭВМ, ввод речевого сигнала в которую выполняется с помощью звуковой платы, со стандартной частотой дискретизации =6000 Гц, разрядность квантования - 8 бит. Выбор частоты дискретизации определяется тем, что первые 3-4 форманты находятся в области до 3000-3600 Гц [191,214,240,250], при этом в частотном диапазоне до ЗкГц содержится подавляющее большинство энергии вокализованных участков речи (таблица 2.5).
Длительность импульса (время произнесения парольной фразы) была задана: ги=0,3 с. Таким образом, речевой сигнал имеет 7Y=1800 отсчетов.
Количество существенных отсчетов НАКФ, необходимых для расчета параметров математической модели, положим равным .7=200.
Заметим, что начальные фазы фонем при произнесении слитной речи слухом практически не распознаются [150,245]. Тем не менее, человеческий орган слуха является хорошей биологической системой аутентификации голоса [176,245,262]. В результате можно заключить, что начальные фазы несут гораздо меньшую информацию о голосе (в том числе о его индивидуальности), чем амплитудные коэффициенты. Также отметим, что начальная фаза в существенной мере может себя вести как случайная величина, и её практическое измерение, как параметра речевого сигнала, спряжено с рядом трудностей [66,299,313]. Для упрощения и удобства анализа, положим: (ро=0; Фо=тс.
Так как длительность одной фонемы может принимать значения 10-г300 мс [190], а для вокализованных звуков - 50-КЗОО мс, из практических соображений можно принять период модулирующего колебания равным длительности вокализованной фонемы TF =50 300 мс, тогда частота модулирующего колебания может быть выбрана из интервала: F0=3,3-r20 Гц.
Практические расчеты показали, что ошибка (по среднему квадрату ошибок КК) аппроксимации модели имеет наименьшую ошибку в большинстве случаев при F0=T0 Гц (таблица 2.6).
В общем случае, ЧОТУо(0 является величиной, изменяющейся во вре мени [191,213,240,250]. Поэтому для аутентификации вокализованных участ ков речи в качестве оценки параметра ЧОТ может быть использовано усред нённое за интервал наблюдения гн значение (/0) (1.38): і ги \/о)г =— l/oCOdf, которое, как правило, вычисляют при ги 0,Зч-1 с. Та Ы о ким образом, /о = Л = (/о)г Использование усреднённого значения ЧОТ позволяет повысить точность оценок ЧОТ и частот обертонов речевого сигнала по сравнению с оценками, полученными по мгновенным срезам (например, спектральным). Это связано, прежде всего, со свойством масштабности преобразования Фурье: чем короче сигнал во временной области, тем шире его спектр в частотной области. В итоге для мгновенных спектральных диаграмм в относительно широкой полосе в окрестности ЧОТ и частот обертонов могут появляться ложные локальные максимумы, которые ошибочно можно принять за оценки ЧОТ или обертонов (пунктирная линия на рис.2.3). Однако, по своему физическому смыслу [191,240] спектральные компоненты на ЧОТ и частотах обертонов являются узкополосными спектральными составляющими, которые в пределе считают гармониками с бесконечной протяжённостью во времени и шириной полосы частот стремящейся к нулю, т.е. здесь более верен спектральный анализ всей длительности вокализованного участка речи (сплошная линия на рис.2.3).
Для спектрального анализа детерминированных сигналов будем использовать коэффициенты СПЭ, которые можно вычислить как квадрат модуля коэффициентов ДПФ Ск: Wk=\ckf, k = 0,N-l. (2.79) При этом зависимость СПЭ от частоты: W(fk) W(kfdIN) = Wk. (2.79а) Нормированная СПЭ (НСПЭ) речевого сигнала: WN (Л) = WN (kfd IN) = W , (2.796) max[Wk] где /є [0; fB], причём, когда дискретизация удовлетворяет условию теоремы Котельникова,/; =fd /2, т.е. & = 0, JV7 2 -1. Даже если речевой сигнал y(t) (с отсчетами у{) является детерминированной функцией, возникает смещение, или ошибка усечения [69], из-за того, что значения сигнала y{t) известны лишь на конечном интервале /є[0;ги] (из вестны отсчёты / = 0, N -1).
Для увеличения точности оценок спектральных компонент детерминированного сигнала применяют специальные временные окна (взвешивающие функции) [69].
На рис.2.3 сплошной линией представлен график нормированной спектральной плотности энергии (НСПЭ) речевого сигнала W (fk) для вокализованного речевого материала в виде фразы "он" ги=0,3 с (7УИ=1800 отсчетов). Штриховой линией изображена НСПЭ W (fk), рассчитанная для временного интервала Гі=85 мс (Л =512 отсчетов, что соответствовало 13 периодам основного тона) вокализованной фонемы "о".
Графики НСПЭ содержат максимумы, соответствующие ЧОТ и частотам обертонов речевого сигнала. Однако, узкополосность спектральных компонент на данных частотах более отчётливо прослеживается на зависимости Wjf (fk), построенной для всего вокализованного участка речи. Усреднённое значение ЧОТ можно оценить, например, с помощью корреляционного метода: по периоду пульсаций квазипериодической АКФ/0 -fd/ p » гДе Np - среднее число отсчетов АКФ, через которое пульсации повторяются [150,174], или на основе полигармонической модели [373]. Для фразы "он" (отсчеты х{ представлены на рис.2.4) при заданных параметрах: fd =6000 Гц; ги=0,3 с (#=1800); Z=6; M=l; F0=10 Гц; Ф0=л;; (р0=0; Еи=\\ /=200, получены семь коэффициентов модели, отражающих индивидуальные особенности голоса: /0=155,2 Гц; С/,=0,819; /2=0,784; /У3=1,457; /4=0,315; f/5=0,327; С/б=0,142.