Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Соловьева Елена Сергеевна

Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии
<
Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Соловьева Елена Сергеевна. Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии : диссертация ... кандидата технических наук : 05.13.01 / Соловьева Елена Сергеевна; [Место защиты: Моск. гос. ин-т электронной техники].- Москва, 2008.- 149 с.: ил. РГБ ОД, 61 09-5/185

Содержание к диссертации

Введение

Глава 1. Голосовая биометрия 11

1.1. Состояние и перспективы голосовой биометрии 13

1.2. Области использования голосовой биометрии 15

1.3. Коммерческие системы для решения задач голосовой биометрии 16

1.3.1. Коммерческие системы идентификации диктора и определения акцента .". 16

1.3.2. Коммерческие системы детектирования стресса 18

1.3.3. Оценка технологии голосовых анализаторов стресса 22

1.4. Модели речеобразования 23

1.4.1. Линейная модель 23

1.4.2. Нелинейная модель 26

1.5. Основные подходы к идентификации диктора 27

1.6. Основные подходы к определению акцента 28

1.7. Основные подходы к определению антропометрических данных 30

1.7.1. Определение роста 31

1.7.2. Определение пола 32

1.8. Основные методы исследования эмоциональной речи 32

1.8.1. Субъективные методы 33

1.8.2. Объективные методы 36

Выводы 43

Глава 2. Алгоритмы для решения задач голосовой биометрии 46

2.1. Идентификация диктора на основе технологии MFCC и VQ 46

2.1.1. Вычисление MFCC векторов 47

2.1.2. Алгоритм квантования векторов 51

2.2. Определение национальных особенностей диктора на основе скрытых моделей Маркова 54

2.3. Определение антропометрических характеристик диктора 58

2.3.1. Определение пола 58

2.3.2. Алгоритм определение роста 58

2.4. Определение психоэмоционального состояния 60

2.4.1. Алгоритмы определения основного тона и его характеристик 61

2.4.2. Джиттер и шиммер 66

2.4.3. Расчет Формант 67

2.4.4. Нелинейный оператор ТЕО 67

2.4.5. Однофакторный дисперсионный анализ ANOVA 68

Выводы 70

Глава 3. Программно-аппаратный комплекс для решения задач голосовой биометрии 72

3.1. Назначение программно-аппаратного комплекса 72

3.1.1. Функциональное назначение 72

3.1.2. Основные компоненты системы 72

3.1.3. Основные функции 72

3.1.4. Формат файлов 74

3.2. Общая схема программно-аппаратного комплекса 75

3.3. Спецификация программных модулей системы 75

3.4. Условия использования программно-аппаратного комплекса 90

3.4.1. Климатические условия эксплуатации 90

3.4.2. Минимальный состав технических средств 90

3.4.3. Минимальный состав программных средств 91

3.4.4. Верификация и валидация системы 91

3.4.5. Инструментальные средства разработки и документирования 91

Выводы 92

Глава 4. Применение программно-аппаратного комплекса для решения задач голосовой биометрии 93

4.1. Расчет характеристик голосового тракта с помощью Simulink 93

4.2. Идентификация диктора 95

4.2.1. Идентификация диктора на основе формантных частот 95

4.2.2. Идентификация диктора на основе MFCC и VQ 97

4.3. Определение национальных особенностей диктора 98

4.3.1. Классификация акцента на основе формантного анализа 98

4.3.2. Определение национальных особенностей диктора на основе Скрытых Моделей Маркова 100

4.4. Определение антропометрических характеристик диктора 102

4.4.1. Определение пола дикторов 102

4.4.2. Определение роста диктора на основе расчета акустических характеристик голосового тракта 103

4.4.3. Автоматическое определение роста диктора 106

4.4.4. Оценка точности работы модуля антропометрии 107

4.5. Определение психоэмоционального состояния 108

4.5.1. Определение психоэмоционального состояния на основе расчета основного тона 108

4.5.2. Определения психоэмоционального состояния с помощью классификатора с несколькими входными параметрами 112

4.6. Автоматическая экспертная оценка записи 121

Выводы 124

Заключение 126

Список используемой литературы 128

Приложения 132

Введение к работе

БИОМЕТРИЯ - это наука об идентификации или верификации личности по физиологическим или поведенческим отличительным характеристикам. К физиологическим биометрическим параметрам относятся отпечатки пальцев, геометрия лица, кисти руки, радужной оболочки, сетчатки глаза, геометрия рисунка вен. Физиологические параметры обычно измеряются в определенный момент времени. Поведенческие биометрические параметры, например подпись и голос, представляют собой последовательность действий и длятся в течение определенного периода времени [1].

Долгое время все, что было связано с биометрией, отличалось сложностью и дороговизной. В последнее время спрос на биометрические продукты, в первую очередь в связи с развитием электронной коммерции, постоянно и весьма интенсивно растет. Это объясняется тем, что с точки зрения пользователя гораздо удобнее предъявить себя самого, чем что-то запоминать. В настоящее время на рынке появились относительно недорогие программно-аппаратные продукты, ориентированные в основном на распознавание отпечатков пальцев. Рост спроса на биометрические технологии также связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах, что направило в эту область крупные финансовые и материальные ресурсы.

Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности).

Одно из самых перспективных применений голосовой биометрии -использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (например, счет в банке, авторизация действия или восстановление пароля). Второе применение - получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.

Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набором методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.

Цель работы

Целью данной диссертационной работы является разработка методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.

Научная новизна

Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и классификации речевого сигнала для решения задач голосовой биометрии.

В ходе выполнения диссертационной работы получены следующие научные результаты. 1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.

3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.

4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).

5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).

6. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения. Определены фонемы гласных, дающие точность, достаточную для оценки роста.

Практическая значимость работы

1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.

2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние.

Основные результаты работы

1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, из-за использования основного тона в качестве метода формирования векторов признаков.

2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.

4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40-50 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.

5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.

6. Проведено тестирование разработанных методов и алгоритмов на доступных базах.

а. При идентификации диктора на базе данных из 528 человек, состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристик речи, которые подвержены влиянию психоэмоционального состояния человека.

б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.

в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов. г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.

Достоверность полученных результатов

Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.

Апробации работы

Основные положения и результаты диссертационной работы были представлены и обсуждены:

• на V-й Международной НТК «Электроника и информатика-2005», Москва, МИЭТ, 23-25 ноября 2005;

• на XIII, XIV, XV всероссийских межвузовских НТК студентов и аспирантов «Микроэлектроника и информатика» (Москва, 2006, 2007, 2008);

• на Всероссийском молодежном научно-инновационном конкурсе -конференции «Электроника - 2006» (Москва, 2006);

• на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии - ФРЭМЭ 2006» (Владимир, 2006);

• на конкурсе молодежных инновационных предпринимательских проектов «День науки Зеленоград», (Москва, 2006 - 2007);

• на XX съезде Физиологического общества им. И.П. Павлова (Москва, 2007);

• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.

Состояние и перспективы голосовой биометрии

Одно из самых перспективных применений голосовой биометрии -использование в банках для проверки идентичности человека перед разрешением доступа к защищенному имуществу (например, счет в банке, авторизация действия или восстановление пароля). С помощью голосовой биометрии идентификацию можно производить непосредственно по телефону, когда звонящий клиент хочет получить доступ к незащищенным данным или услугам. В современной практике для авторизации доступа используется секретный PIN и/или личные вопросы. К сожалению, данную процедуру подтверждения личности клиента трудно автоматизировать и иногда данной информации недостаточно. Голосовая биометрия обеспечивает относительно легкое и экономически эффективное решение этой проблемы.

Во-первых, клиенту можно предложить повторить некий фиксированный текст для идентификации или верификации личности. Как только идентичность пользователя подтверждается, он получает доступ к данным и услугам. Безопасность системы увеличивается значительно.

Другой подход - это использование процесса идентификации по голосу незаметно для пользователя, как пассивную службу идентификации. Пока звонящий говорит с агентом (т.е. идет обычный разговор), голос звонящего сравнивается с голосовым отпечатком клиента. Через короткое время (обычно менее 30 секунд разговора), агент получает ясное указание, является ли звонящий тем, за кого он себя выдает. Этот подход использует механизм голосовой биометрии по свободному тексту (текстонезависимая система идентификации). Чтобы исключить секретность прослушивания разговора, можно использовать сообщение, информирующее пользователя, что «звонок может быть проконтролирован для целей верификации звонящего».

Голосовая биометрия также используется для электронной подписи документов, с невозможностью отказа от авторства. Например, клиент может подписать документ или сделку по телефону, сказав определенную фразу (например, «Я, Иванов Иван, разрешаю записать 22500 рублей на мой счет для покупки фотоаппарата Nikon»). В зависимости от применения, если клиент был зарегистрирован заранее, подпись (голосовой отпечаток) можно подтвердить, прежде чем оформить сделку. Также подпись можно сохранить и подтвердить позднее в случае разногласий.

Другое применение - это контроль присутствия работника на рабочем месте и контроль доступа. Голос в данной ситуации имеет преимущество перед сканерами пальца, особенно в условиях окружающей среды, которая имеет тенденцию к загрязнению (например, механический производственный участок). Сканеры отпечатков пальцев становятся грязными и нуждаются в большем уходе, тогда как микрофон остается чистым.

Определение акцента/диалекта и антропометрических характеристик необходимо в случае, если диктор не зарегистрирован в базе данных. Решение данных задач применяется в области криминалистики, когда нужно идентифицировать звонящего и составить его примерный «портрет». Также можно оценить психоэмоционального состояния звонящего.

В России несколько фирм работает над созданием систем голосовой биометрии. В Таблице 2 представлены некоторые существующие в настоящее время системы и их характеристики.

Система Трал обладает следующими характеристиками. 1. Точность идентификации: 92% при длительности сигнала не менее 96 сек; 88% при сравнении пары речевых сигналов длительностью 16 сек и 96 сек соответственно; 82% при длительности сигналов 16 сек каждый; не менее 90% при сравнении пары речевых сигналов длительностью 16 сек и 96 сек передаваемых по одному и тому же каналу связи. 2. Время создания одной «дикторской карточки» -3...4 сек. 3. Время сравнения одной пары «дикторских карточек» - не более 0.7 сек (при использовании ПК на базе Pentium III/1 ГГц). 4. Максимальное количество «дикторских карточек» - 100 000. 5. Минимальный размер "дикторской карточки" - 300 кБ. Основным недостатком системы Трал является зависимость результата от психоэмоционального состояния диктора, так как в качестве метода формирования векторов признаков используется гистограмма основного тона [26,27].

Фирмой ЦРТ разработано специализированное программное обеспечение РЕГИОН для экспертной диагностики акцента или диалекта русской устной речи. Надежность правильной диагностики акцентной или диалектной принадлежности диктора составляет не менее 75% при использовании 10 или более признаков. Система имеет возможностью расширения системы для диагностики новых типов акцентов и диалектов.

Идентификация диктора на основе технологии MFCC и VQ

Алгоритм идентификации диктора, используемый в данной работе, основан на использовании акустических характеристик голоса, отражающих форму голосового тракта [31], и реализован следующим способом (Рис. 26).

Алгоритм основан на записи голоса диктора, выделении вокализованных участков речи (т.е. участков, относящихся к гласным звукам и сонорным согласным), расчете акустических параметров диктора и составлении кодовой книги диктора на основе вычисленных акустических характеристик. После этого кодовая книга заносится в базу данных и при поступлении нового диктора вычисляется его кодовая книга и сравнивается с имеющимися в базе.

Существуют следующие подходы к вычислению акустических параметров речи (векторов признаков): Фурье - коэффициенты, Fast Fourier Transform derived coefficients (FFT); коэффициенты кепстра Мел шкалы, Mel frequency cepstral coefficients (MFCC) [59]; коэффициенты спектра линейного предсказания, Linear Prediction Coefficients (LPC) [60]; коэффициенты линейного предсказания с коррекцией на неравномерность чувствительности человеческого уха к звукам различной высоты, Perceptual Linear Prediction (PLP) [61]. Основные подходы к составлению кодовой книги диктора: дискретные временные шаблоны, Discrete Time Wrappers (DTW) [62, 63]; квантование векторов, Vector Quantization (VQ), например алгоритм Linde-Buzo-Gray (LBG) [64]; скрытые модели Маркова, Hidden Markov Model (HMM) [65, 66, 67]; Гауссова смесь, Gaussian Mixture Model (GMM) [68]; метод опорных векторов, Support Vector Machine (SVM) [69]; искусственные нейронные сети, Artificial Neural Networks (ANN) [70].

В данной работе используется метод MFCC векторов, так как его можно использовать на зашумленных записях, например, записях телефонных разговоров, в отличие от LPC и так как метод привязан к мел-шкале.

В качестве классификации используется метод квантования векторов, так как данный метод можно использовать в текстонезависимых системах, а также он является достаточно быстрым и обладает достаточной точностью.

Основной идеей метода MFCC являться максимальное приближение информации поступающей на вход системы к информации поступающей на слуховой анализатор мозга человека [71]. Высота тона звукового колебания, которое воспринимает человеческое ухо, не однозначно частоте данного звукового колебания. Высота тона (mel) и частота звукового колебания (Гц) связана между собой по формуле [72, 73]:

Вычисление MFCC векторов было предложено в диссертации Т.Ганчева [73] и происходит следующим образом: Речевой сигнал обычно записывается с частотой 8000 Гц. Такая частота выбирается, чтобы минимизировать ступенчатость (наложение спектров) в аналого-цифровом преобразовании. Этот дискретный сигнал может захватывать все частоты ниже 4 кГц, которые покрывают наибольшую энергию звуков производимых человеком, т.к. три первые форманты находятся в диапазоне от 200 до 4000 Гц. На этом шаге непрерывный речевой сигнал разбивается на фреймы из N отсчетов, N=256 (что эквивалентно окну 30-40 мсек). Следующий шаг обработки это прямое преобразование Фурье, которое трансформирует каждый фрейм из временной области в частотную, на последовательности из N отсчетов {хк}. Оно определяется по следующей формуле: X() = gx(H)expf 7 \ k = 0,l,2,...,N-\. (2.2)

Таким образом, Х(к) - комплексные числа. Результирующая последовательность представляется как следующая: нулевая частота соответствует п=0, положительные частоты 0 f Fs/2 соответствует значениям l k N/2-l, в то время как отрицательные частоты -Fs/2 f 0 соответствует N/2+l k N-l. Здесь, Fs обозначает частоту дискретизации. На третьем шаге генерируется массив модулей комплексных чисел, полученных на предыдущем этапе. Далее берем 40 (либо 32 в случае, когда частота дискретизации сигнала 8000 Гц) копий каждого отсчета в 30 мсек и производим поэлементное умножение массива абсолютных величин на АЧХ треугольных фильтров, центральные частоты которых равномерно распределены по мел-шкале.

Если частота дискретизации 16000 Гц, используется блок фильтров из 40 фильтров одинаковой площади, которые покрывают диапазон частот [133 Гц, 6854 Гц]. Центральные частоты первых тринадцати фильтров распределены по линейному закону в диапазоне частот [200 Гц, 1000 Гц] с шагом 66,67 Гц, следующие 27 логарифмически распределены в диапазоне [1071 Гц, 6400 Гц] с размером шага logStep = 1.0711703, который вычисляется по формуле:

Назначение программно-аппаратного комплекса

Разрабатываемая система содержит следующие программно-аппаратные модули: звукозаписывающая аппаратура; модуль базы данных; модуль записи фонограмм; модуль оценки качества аудио сигналов; модуль шумоподавления и шумоочистки; модуль предобработки и редактирования звуковой информации; модуль автоматической идентификации диктора по фонограммам устной речи; модуль расчета и анализа характеристик звукового сигнала с целью автоматизированного определения национальных особенностей диктора; модуль расчета и анализа характеристик звукового сигнала с целью автоматизированного определения антропометрических особенностей диктора; модуль расчета и анализа характеристик звукового сигнала с целью автоматизированного определения психоэмоционального состояния диктора.

Программа обеспечивает возможность выполнения перечисленных ниже функций. Функции предобработки голосового сигнала: запись звукового сигнала с расширением wav; загрузка фонограмм дикторов с размещением в базе данных; сохранение информации в файлах формата SFS и DAT; загрузка информации с выводом на экран временной зависимости амплитуды звукового сигнала; масштабирование сигнала по вертикали и горизонтали; стандартные функции редактирования (удаление части сигнала, копирование части сигнала с сохранением в виде нового документа, выделение сегмента сигнала, копирование содержимого нескольких сегментов сигнала с сохранением в виде нового документа); проигрывание части сигнала через звуковую плату; расчет основного тона на основе метода автокорреляции с выводом его изменений графически на экран; расчет пяти первых формант с выводом графиков их изменения на экран разными цветами; расчет длительности пауз в записи голоса и вывод на экран гистограммы пауз; расчет и визуализация спектрограммы на основе Фурье и вейвлет-преобразования; добавление и удаление аннотаций; добавление и удаление меток; расчет оператора ТЕО в нелинейной модели речеобразования; расчет статистики ЧОТ, формант, энергии и оператора ТЕО по выделенному фрагменту; сохранение рассчитанных показателей для дальнейшего расчета в MATLAB. Функции классификации: загрузка фонограмм дикторов с размещением в базе данных; организация цикла загрузки и обработки данных с целью обучения классификаторов системы; сохранение результатов обучения в базе данных; обновление базы данных и переобучение подсистемы; идентификация диктора; определение эмоциональных особенностей диктора; определение антропометрических характеристик; определение акцента диктора; определение качества сигнала. В программе используются файлы следующих форматов: 1. WAV [83, 84] для идентификации диктора.

Формат WAV является распространенным форматом хранения аудиоданных, полученных методом импульсно-кодовой модуляции. Помимо самих данных в файле хранятся: частота дискретизации (8 - 44,1 кГц); количество каналов (1 или 2); разрядность (8 или 16 бит). 2. SFS (см. Приложение А) для определения акцента и роста.

Формат SFS является открытым стандартом, который был разработан специально для хранения результатов анализа речевого сигнала. В отличие от формата WAV в нем можно хранить не только звуковой сигнал, но и другие (временные зависимости основного тона, формантных частот, мощности звукового сигнала, частоты пересечения нуля, аннотации нескольких уровней и

ДР-) В разработанном программном обеспечении предусмотрена возможность расстановки меток (аннотаций) к любой точке звукового сигнала. Текст аннотации может быть как на русском, так PI на английском языке. Благодаря использованию формата SFS возможно сохранение аннотаций в файле.

Расчет характеристик голосового тракта с помощью Simulink

Для идентификации дикторов была использована база данных с сайта [90]. Для каждого человека использовали 14 образцов гласных, включая два дифтонга. В каждой записи анализировали следующую фразу:

Please call Stella. Ask her to bring these things with her from the store: Six spoons of fresh snow peas, five thick slabs of blue cheese, and maybe a snack for her brother Bob. We also need a small plastic snake and a big toy frog for the kids. She can scoop these things into three red bags, and we will go meet her Wednesday at the train station.

Для анализа были выбраны выделенные жирным шрифтом гласные. Количество дикторов составило 100 человек.

В качестве характеристик голосового тракта рассчитывались формантные частоты, соответствующие выделенным гласным, далее их значения экспортировались в MATLAB и для дальнейшего анализа использовали значения первых двух формант.

Для идентификации диктора использовали нейросетевой классификатор, реализованный с помощью MATLAB. Сеть состояла из двух слоев нейронов. Первый слой состоял из 28 нейронов и использовал передаточную функцию Tansig. Второй состоял из нейронов, соответствующих числу дикторов, входящих в обучающую матрицу, и использовал передаточную функцию Purelin.

Обучающей выборкой сети для идентификации диктора являлась матрица 100x28, т.к. для каждого из 100 испытуемых брали 28 значений формант. Для каждого испытуемого был также создан вектор ответа. Вектора ответов были объединены в матрицу ответа, которая представляла собой единичную матрицу. Среднеквадратичная ошибка при обучении сети была задана равной 0.005. Обучающую матрицу и матрицу ответа вводили в нейронную сеть, которая обучалась с использованием функции trainscg.

Ниже на рисунке показаны результаты обучения для 50 испытуемых (Рис. 51). Видно, что в матрице ответов возросло количество ненулевых недиагональных элементов, отображаемых в градациях серого.

Т.о., точность идентификации дикторов уменьшается в зависимости от увеличения количества дикторов, входящих в выборку. Если в выборке объема 10-40 дикторов возможна 100% правильная классификация, то в выборке 60 дикторов и более уровень правильной классификации составлял 40-50%.

В результате проведенного исследования можно сделать вывод, что идентификация диктора с помощью формантных частот плохо работает на больших базах данных (более 50 человек). В связи с этим было решено использовать для идентификации диктора MFCC вектора.

Для загрузки речевой записи подготавливали набор обучающих и тестовых записей состоящих из 528 фонограмм длиной около 20 секунд, на которых 528 разных дикторов произносили одну и ту же фразу [90]. Наша система является текстонезависимой, для демонстрации этого с каждой фонограммы делались 2 копии. В первой копии удалялась информация за пределами первых 10 секунд записи. Во второй копии удалялись первые 10 секунд записи. Первая копия использовалась для обучения программы, а вторая в качестве тестовой записи.

Сигнал разбивали на фрагменты, содержащие речь. На их основании рассчитывали MFCC вектора, которые являются входными для алгоритма LBG [91, 92]. Расчет всех характеристик производился автоматически. При поступлении очередной записи она аналогично разбивается на фрагменты, содержащие речь, и для неё вычисляются MFCC вектора. Затем применяется LBG алгоритм и полученные центры классов составляют кодовую книгу диктора. После этого вычисляется специальное, устойчивое к перестановкам векторов, расстояние от неё до других книг в базе данных. Если минимальное расстояние меньше некоторого порога, то считается, что диктор распознан и его номер соответствует номеру ближайшей записи.

При этом точность идентификации составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.

Для классификации акцента была использована база данных с сайта [90]. В случае классификации акцента группа для тестирования 4 акцентов состояла из 29 человек, из них 6 североамериканцев, 7 австралийцев, 7 китайцев и 9 иранцев [93]. В каждой записи анализировали одну и туже фразу на английском языке, состоящую из четырех предложений. Для каждого человека использовали 14 образцов гласных, включая два дифтонга. В каждой записи анализируется следующая фраза

Please call Stella. Ask her to bring these things with her from the store: Six spoons of fresh snow peas, five thick slabs of blue cheese, and maybe a snack for her brother Bob. We also need a small plastic snake and a big toy frog for the kids. She can scoop these things into three red bags, and we will go meet her Wednesday at the train station.

Для анализа были выбраны выделенные жирным шрифтом гласные и для них рассчитаны формантные частоты.

Затем вручную производили выделение гласных путем расстановки меток в месте произнесения анализируемого гласного звука. После этого программа выбирала значения формант, соответствующих только этим меткам, и копировала данные в буфер обмена для последующего анализа в программе MATLAB. В формантном анализе использовали значения только первых 2-х формант для каждого гласного звука.

Похожие диссертации на Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии