Содержание к диссертации
Введение
Глава 1. Обзор современных систем идентификации диктора и алгоритмов шумоподавления в речевых сигналах 15
1.1. Система идентификации диктора 15
1.1.1. Классификация задач распознавания диктора 15
1.1.2. Структура системы идентификации диктора 16
1.1.3. Информативные признаки речевого сигнала 17
1.1.4. Мел-частотные кепстральные коэффициенты 18
1.1.5. Обработка информативных признаков 22
1.1.6. Моделирование диктора 23
1.1.7. Модели гауссовых смесей 23
1.1.8. EM-алгоритм 24
1.1.9. Универсальная фоновая модель
1.1.10. Классификация речевых сигналов 28
1.1.11. Оценка качества работы системы идентификации диктора 29
1.1.12. Устойчивость к шумам 30
1.2. Подавление шума в частотной области 30
1.2.1. Постановка задачи 31
1.2.2. Моделирование речи и шума 31
1.2.3. Функция коррекции спектра 32
1.2.4. Период стационарности речи 34
1.2.5. Подавление шума в реальных цифровых системах 35
1.2.6. Оценка априорного отношения сигнал/шум 39
1.2.7. Бинарные маски 42
1.2.8. Мягкие маски 43
1.3. Оценка качества речевых сигналов 44
1.3.1. Отношение сигнал/шум 45
1.3.2. Сегментное отношение сигнал/шум 45
1.3.3. Логарифмическое отношение правдоподобия 46
1.3.4. Взвешенный наклон спектра 47
1.3.5. Оценка восприятия качества речи 48
1.4. Выводы по главе 49
2. Оценка качества работы алгоритмов шумоподавления в системе идентификации диктора 51
2.1. Используемое программное обеспечение 51
2.2. Используемая система идентификации диктора 52
2.3. Базы речевых сигналов 52
2.4. Прямая оценка качества работы системы идентификации диктора 55
2.5. Используемые типы шумов 57
2.6. Оценка качества работы системы идентификации диктора с помощью показателей качества речи
2.6.1. Показатель качества на основе мел-частотных кепстральных коэффициентов 59
2.6.2. Вычисление линейных коэффициентов корреляции
2.7. Альтернативная оценка точности идентификации дикторов 66
2.8. Быстрая оценка точности идентификации дикторов 70
2.9. Практическое применение 80
2.10. Выводы по главе 87
3. Разработка алгоритмов шумоподавления для системы идентификации диктора 90
3.1. Модифицированный двухступенчатый алгоритм 90
3.1.1. Сглаживание априорного отношения сигнал/шум 90
3.1.2. Подбор параметра алгоритма
3.2. Обобщенные мягкие маски 94
3.3. Разработка алгоритма на основе мягкой маски
3.3.1. Новый подход к расчету мягкой маски 97
3.3.2. Подбор параметров алгоритма 101
3.4. Двухступенчатый алгоритм на основе мягкой маски 105
3.4.1. Предлагаемая модификация 105
3.4.2. Подбор параметра алгоритма
3.5. Сравнение алгоритмов 109
3.6. Выводы по главе 114
Заключение 117
Список литературы 122
- Мел-частотные кепстральные коэффициенты
- Используемая система идентификации диктора
- Альтернативная оценка точности идентификации дикторов
- Двухступенчатый алгоритм на основе мягкой маски
Введение к работе
Актуальность темы и состояние вопроса. Речь - существенный элемент человеческой деятельности, позволяющий человеку познавать окружающий мир, передавать свои знания и опыт другим людям, аккумулировать их для передачи последующим поколениям. Начиная с древних времен и по сей день она является основным способом обмена информацией между людьми.
Люди в процессе общения способны подсознательно различать голоса других людей. Это связано с тем, что характеристики голоса определяются анатомическими особенностями строения речевого аппарата, которые индивидуальны для каждого человека. Уникальность голоса послужила предпосылкой создания биометрических систем, использующих голос человека в качестве параметра.
Задача распознавания диктора по его голосу была поставлена более 40 лет назад, но исследования в этой области еще продолжаются. Ниже приведены лишь некоторые практические задачи, решение которых требует применения системы распознавания диктора.
- Биометрический контроль доступа. Системы биометрического контроля
доступа предназначены для обеспечения безопасности доступа к физическим объектам, информационным и финансовым ресурсам.
-Сопоставление голоса подозреваемого и некоторой фонограммы. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.
-Автоматическое управление тангентой в радиостанциях. Полудуплексный режим работы широко используется в радиосвязи, однако в условиях занятости рук он может создавать неудобства для пользователя. В качестве решения обычно применяются детекторы речевой активности для автоматического управления тангентой. Однако при этом система может ошибочно активировать тангенту от голоса постороннего человека. Одним из перспективных способов избежать этого является добавление модуля распознавания диктора в радиостанцию.
- Идентификация говорящего в радиостанциях. Если радиостанция
предназначена для использования несколькими людьми, то одной из возможностей, повышающей удобство эксплуатации устройства, которое принимает в данный момент сигнал с этой радиостанции, является отображение идентификатора говорящего. Определение идентификатора можно осуществлять с помощью системы распознавания диктора. -Голосовое управление роботом. Управление с помощью голосовых команд является одним из важнейших естественных способов взаимодействия с роботом. Однако существуют приложения, в которых необходимо ограничить круг лиц, имеющих доступ к управлению. В этом случае перед распознаванием речевой команды можно выполнять верификацию диктора.
-Голосовое управление подсистемами автомобиля. Голосовое управление такими подсистемами, как кондиционер, навигатор, медиаплеер уже сейчас внедряется во многие модели автомобилей. Актуальным является создание индивидуальных профилей голосового управления для разных людей, что может быть реализовано с помощью системы распознавания диктора.
Уже сегодня системы распознавания диктора показывают достаточно высокую точность работы, однако присутствие фонового шума способно существенно ее снизить. Одним из наиболее эффективных способов повышения устойчивости систем распознавания диктора к шумам является применение алгоритмов шумоподавления.
Проблема восстановления речевого сигнала, искаженного аддитивным некоррелированным шумом, в случае, когда доступен только зашумленный сигнал, широко изучалась в прошлом и актуальна сейчас. Предложены методы подавления шума в частотной области, использующие различные функции коррекции спектра (ФКС), зависящие от апостериорного отношения сигнал/шум (ОСШ) и/или оценки априорного ОСШ. Для ФКС спектрального вычитания оценка априорного ОСШ не требуется. В ином случае она может осуществляться с помощью подхода прямого принятия решения (decision-directed), его модификации на основе двухступенчатого алгоритма (two step noise reduction, TSNR), а также других методов. Для коррекции спектра на практике используются различные ФКС: Винера, минимальной среднеквадратичной ошибки кратковременной амплитуды спектра (minimum mean square error short-time spectral amplitude, MMSE-STSA) и др. Помимо методов подавления шума в частотной области существуют и другие подходы.
Отметим, что алгоритмы шумоподавления, максимизирующие показатели качества и разборчивости речевых сигналов, не всегда столь эффективны для предобработки сигналов в задаче распознавания диктора. Сложность также представляет подбор параметров таких алгоритмов, т. к. вычислительная сложность существующих методик оценки систем распознавания диктора, как правило, намного выше вычислительной сложности алгоритмов оценки показателей качества и разборчивости речи.
Таким образом, проблема поиска новых алгоритмов предобработки речевых сигналов в задаче распознавания диктора, а также методик оценки их работы является актуальной.
Основополагающие работы по обработке и анализу речевых сигналов
связаны с именами таких известных зарубежных и отечественных ученых, как
Рабинер Л., Шафер Р., Фланаган Дж. Л., Римский-Корсаков А.В.,
Сапожков М.А., Михайлов В.Г. и др.
Интерес к задаче распознавания диктора нашел свое отражение в исследовательских работах Фуруи С, Атала Б., Бейджи Х., Рейнольдса Д., Кэмпбелла В., Ортега-Гарсия Дж., Матвеева Ю.Н., Новоселова С.А. и др.
В области подавления шума в речевых сигналах наибольшую известность получили работы Болла С, Лима Дж., Ефрайма Я., Малла Д., Маколлея Р.,
Малпасса М., Скалара П., Плапоса С, Коэна И., Лойзо Ф., Филхо Дж., Ванга Д., Петровского А.А.
Целью работы является разработка и анализ алгоритмов шумоподавления для повышения точности идентификации дикторов в условиях воздействия аддитивных шумов различных типов.
В соответствии с указанной целью в работе поставлены и решены следующие задачи:
-Анализ существующих методов идентификации диктора, алгоритмов подавления шума в частотной области и способов объективной оценки качества речи с целью выбора прототипов для собственных решений. - Разработка методики быстрой оценки точности идентификации дикторов и создание нового объективного показателя качества на основе нее для возможности быстрого подбора параметров алгоритмов шумоподавления в задаче идентификации диктора. -Разработка новых алгоритмов подавления шума в речевых сигналах для повышения точности идентификации дикторов по сравнению с существующими решениями. -Разработка программы для ЭВМ и исследование разработанных
алгоритмов с ее помощью. Методы исследования. При решении поставленных задач применялись методы математического анализа, линейной алгебры и аналитической геометрии, теории вероятности и математической статистики, цифровой обработки сигналов, спектрального анализа. Для исследования разработанных алгоритмов применялись методы математического и компьютерного моделирования.
Объектом исследований являются системы автоматической идентификации диктора с модулем предварительной обработки входных сигналов.
Предметом исследования являются методы и алгоритмы идентификации диктора, шумоподавления в частотной области, оценки качества речевых сигналов.
Научная новизна. Впервые получены следующие научные результаты: - Произведена оценка тесноты статистической связи между точностью идентификации дикторов для двух баз речевых сигналов и показателями качества речи: PESQ, отношение сигнал/шум, сегментное отношение сигнал/шум, LLR, WSS.
Разработан объективный показатель качества речевых сигналов, позволяющий оценить эффективность работы алгоритма шумоподавления в задаче идентификации диктора. Разработана методика быстрой оценки точности идентификации дикторов.
Предложен новый подход к оценке мягкой маски, который может стать прототипом для широкого класса алгоритмов шумоподавления.
- Разработан новый двухступенчатый алгоритм на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.
Практическая значимость
Методика быстрой оценки точности идентификации дикторов позволяет подбирать параметры алгоритмов шумоподавления быстрее, чем при использовании прямой оценки с помощью системы идентификации диктора. В частном случае достигнуто ускорение приблизительно в 88 раз.
Предложенный двухступенчатый алгоритм на основе мягкой маски и функции коррекции спектра минимальной среднеквадратичной ошибки кратковременной амплитуды спектра позволяет повысить точность идентификации дикторов в среднем (среди ОСШ 5 дБ, 10 дБ, 15 дБ) для АБГШ на 13,4 процентных пункта по сравнению с алгоритмом на основе подхода прямого принятия решения и функции коррекции спектра Винера.
Разработана программа «Speaker Recognition Test Framework -программа для исследования алгоритмов распознавания диктора» (свидетельство о государственной регистрации программы для ЭВМ № 2015660245), предназначенная для исследования алгоритмов распознавания диктора (идентификации и верификации) в условиях шумов.
Разработана программа «NN-SCG speech recognition - научно-исследовательская программа по изучению алгоритмов нейросетевого дикторонезависимого распознавания речевых команд» (свидетельство о государственной регистрации программы для ЭВМ № 2015616920), с помощью которой может быть проведен анализ предложенных алгоритмов шумоподавления в задаче дикторонезависимого распознавания речевых команд. Результаты работы внедрены в соответствующие разработки ООО «Оскар» (г. Ярославль) и ООО «Эймc Софтвэр» (г. Ярославль). Отдельные результаты диссертационной работы внедрены в учебный процесс Ярославского государственного университета им. П. Г. Демидова в рамках дисциплины «Цифровая обработка речевых сигналов». Все результаты внедрения подтверждены соответствующими актами.
Достоверность материалов диссертационной работы подтверждена согласованностью результатов математического моделирования разработанных алгоритмов и экспериментальной проверки в условиях компьютерного моделирования с использованием реальных речевых сигналов, апробацией в печати и на научно-практических конференциях различного уровня.
Апробация работы. Результаты работы докладывались и обсуждались на следующих конференциях:
14-й и 15-й Международной конференции «Цифровая обработка сигналов и её применение», Москва, 2012-2013;
Международной конференции «Системы синхронизации, формирования
и обработки сигналов в инфокоммуникациях», Ярославль, 2013;
11-й и 12-й Международных научно-технических конференциях
«Оптико-электронные приборы и устройства в системах распознавания
образов, обработки изображений и символьной информации», Курск,
2013, 2015;
Международной конференции «Перспективные технологии в средствах
передачи информации», Владимир, 2013;
Международной научно-практической молодежной конференции «Путь
в науку», Ярославль, 2013-2015;
66-й Всероссийской НТК студентов, магистрантов и аспирантов с
международным участием, Ярославль, 2013;
69-й Международной конференции «Радиоэлектронные устройства и
системы для инфокоммуникационных технологий», Москва, 2014;
15-й Всероссийской научно-практической конференции «Проблемы
развития и применения средств противовоздушной обороны на
современном этапе», Ярославль, 2014. Публикации. По теме диссертации опубликовано 19 научных работ, из них 3 статьи в журналах, рекомендованных ВАК для публикации результатов кандидатских и докторских диссертаций, 16 докладов на научных конференциях; получено 2 свидетельства о регистрации программы для ЭВМ.
Личный вклад автора. Выносимые на защиту положения предложены и реализованы автором самостоятельно в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П. Г. Демидова.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и двух приложений. Содержание работы изложено на 133 страницах. Список литературы включает 102 наименования. В работе представлено 24 рисунка и 37 таблиц.
Мел-частотные кепстральные коэффициенты
Различают задачу верификации и идентификации диктора [14, 53]. Верификация диктора – процесс, при котором представленный образец голоса сравнивается с хранимой в базе моделью диктора. В результате принимается положительное, либо отрицательное решение об их соответствии [42].
Идентификация диктора – процесс определения личности по образцу голоса путем сравнения данного образца с моделями дикторов, сохраненными в базе. В общем случае результатом процесса идентификации является список моделей – кандидатов на соответствие представленному образцу голоса [12, 42].
Если предусмотрена возможность участия в процессе идентификации пользователя, не зарегистрированного в системе (для которого отсутствует модель в базе), то говорят об идентификации на открытом множестве (или открытой задаче идентификации диктора). В идеальном случае для такого пользователя система должна выдать пустой список кандидатов на соответствие. Если все пользователи, проходящие процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве (или закрытой задаче идентификации диктора) [12, 42]. Задача распознавания диктора также разделяется на текстозависимую и текстонезависимую [34, 35, 53]. Если системе распознавания известен текст, который должен быть произнесен пользователем, и она использует данную информацию, то такую систему называют текстозависимой. При текстозависимом распознавании могут использоваться как фиксированные фразы, так и фразы, сгенерированные системой и предложенные пользователю [12]. Текстонезависимые системы не используют информацию о тексте, произнесенном пользователем.
Отметим, что помимо верификации и идентификации существуют и другие задачи, связанные с распознаванием личности по голосу. К их числу можно отнести задачу обнаружения по голосу (speaker detection) [87] и протоколирование дикторов (speaker diarization) [16].
Далее в работе будет рассматриваться система текстонезависимой идентификации диктора на замкнутом множестве, для которой производится поиск только одного кандидата на соответствие представленному образцу голоса. Однако стоит отметить, что предлагаемые в работе методики и алгоритмы могут применяться и в других задачах распознавания диктора. Это связано с тем, что системы распознавания диктора схожи по структуре и отличаются, как правило, только блоком принятия решения [14].
Система идентификации диктора имеет два режима работы: режим регистрации пользователей в системе (режим обучения) и режим идентификации [12].
Блок-схема работы системы идентификации диктора в режиме обучения представлена на рис. 1.1. Каждый пользователь предварительно регистрируется в системе, записав образец своего голоса. В блоке предобработки производится очистка входного речевого сигнала от шума с помощью различных алгоритмов. Далее производится извлечение из речевого сигнала релевантных (для задачи распознавания диктора) информативных признаков. На последнем этапе обучения строится модель диктора.
Блок-схема работы системы в режиме идентификации представлена на рис. 1.2. Извлеченные из входного речевого сигнала информативные признаки поступают на вход блока классификации, где определяется, какому диктору соответствует представленный речевым сигналом образец голоса.
Целью извлечения из речевого сигнала информативных признаков (далее просто – «признаков») является выделение информации, релевантной для задачи распознавания личности по голосу, т. е. информации, представляющей индивидуальные особенности голоса человека [12]. Для этих целей наиболее широко применяются мел-частотные кепстральные коэффициенты (МЧКК, Mel-Frequency Cepstral Coefficients, MFCC) [6, 7, 18–20, 22, 49]. Способ их получения во многом «копирует» особенности слуховой системы человека.
Помимо МЧКК для задачи идентификации диктора также часто применяются кепстральные коэффициенты на основе линейного предсказания (LPCC, Linear Prediction Cepstral Coefficients) [40]. Иногда их объединяют в один вектор с МЧКК [10].
Мел-частотные кепстральные коэффициенты На вход алгоритма извлечения МЧКК подаются отсчеты чистого сигнала xn , либо их оценка, полученная с помощью предобработки алгоритмом шумоподавления. Отсчеты сигнала разбиваются на перекрывающиеся окна и производится дискретное преобразование Фурье (ДПФ). Подробно данный процесс описан в разделе 1.2.5.
Рассмотрим одно окно полученного спектра сигнала. Для него может быть рассчитан квадрат модуля спектра Ak2 (k – номер спектрального отсчета), который будет использоваться для дальнейшей обработки. Преобразование, подобное переходу от сигнала во временной области к квадрату модуля спектра сигнала, происходит и в органах слуха: человеческая улитка вибрирует в разных точках в зависимости от частоты поступающих звуков. Эти вибрации возбуждают нервы, информируя мозг о присутствующих частотах [79].
Спектрограмма содержит много лишней информации, которая не требуется для работы системы идентификации диктора. Поэтому полученное представление спектра мощности речевого сигнала разбивают на диапазоны с помощью банка треугольных фильтров (рис. 1.3).
Значения Ak2 в каждом диапазоне суммируются. Таким образом становится возможным узнать лишь мощность около некоторой частоты, но не точное ее значение на данной частоте. Подобные свойством обладает и человеческая улитка: она не чувствует разницы между двумя близкими частотами, причем данный эффект усиливается при увеличении частоты [15, 38]. Дело в том, что человеческое ухо воспринимает частоту звука не линейно, а по специальной шкале, называемой мел-шкалой [24, 25, 79].
Используемая система идентификации диктора
При разработке нового алгоритма шумоподавления для использования в системе автоматической идентификации диктора стоит проблема подбора его параметров. Случай, когда параметров у алгоритма шумоподавления нет, довольно редкий. В то же время число параметров может быть больше одного, что представляет особую сложность.
Параметры алгоритма можно подобрать, производя для каждой точки многомерного пространства параметров оценку точности идентификации дикторов напрямую с использованием некоторой базы речевых сигналов и системы идентификации диктора. Данный способ требует немалых вычислительных ресурсов из-за необходимости обработки большого числа тестовых речевых сигналов. Это зачастую вынуждает увеличивать шаг изменения параметров при подборе, что влечет за собой уменьшение точности оценки параметров.
При разработке алгоритмов шумоподавления для задачи улучшения качества речевых сигналов параметры можно подобрать, максимизируя значение одного из объективных показателей качества речи. Учитывая невысокую вычислительную сложность большинства широко используемых показателей качества, подбор параметров алгоритма можно выполнить относительно быстро по времени. Возникает естественная идея – попробовать использовать показатели качества речи для оценки качества работы системы идентификации диктора.
Для исследований в работе использовалась разработанная автором на языке Matlab программа для персонального компьютера «Speaker Recognition Test Framework – программа для исследования алгоритмов распознавания диктора» (далее просто «Speaker Recognition Test Framework») [30]. Программа предназначена для исследования алгоритмов распознавания диктора (идентификации и верификации) в условиях шумов. Для улучшения точности распознавания дикторов в программе возможно производить предобработку речевых сигналов с помощью встроенных алгоритмов шумоподавления.
Модульная система приложения позволяет добавлять пользовательские алгоритмы шумоподавления. Используя готовые компоненты программы, пользователь может разрабатывать собственные тесты на языке Matlab для моделирования распознавания диктора в различных шумовых условиях.
Для проведения исследований в программе Speaker Recognition Test Framework смоделирована система идентификации диктора. Во всех тестах речевой сигнал разбивался на перекрывающиеся окна длиной 25 мс, что при частоте дискретизации в 8 кГц соответствует 200 отсчетам. Величина перекрытия окон составляла 60 % от длины окна. При получении спектра сигнала использовалось окно Хэмминга.
Для выделения информативных признаков из речевого сигнала использовались МЧКК. Банк треугольных фильтров построен для диапазона частот от 0 до 4 кГц. Для каждого окна рассчитывались 24 коэффициента и брались коэффициенты со 2-го по 16-й.
Для построения моделей дикторов применялись гауссовы смеси со 128 компонентами. Отметим, что для расчета модели не применялся стандартный EM-алгоритм: вместо него использовалась УФМ.
Для проведения исследований с системой идентификации диктора требуются базы реальных речевых сигналов. Структура базы, как, впрочем, и методика тестирования, могут зависеть от задачи. Для оценки качества работы алгоритмов шумоподавления в системе идентификации диктора предлагается использовать базы речевых сигналов, в которых структура набора сигналов для каждого диктора эквивалентна. Таким образом, для каждого диктора набор сигналов содержит:
1. Один речевой сигнал, используемый для получения модели диктора. Данный сигнал будем называть «обучающим».
2. Несколько речевых сигналов, которые будем называть «тестовыми». Предполагается, что тестовые сигналы записаны в одну сессию вместе с обучающим сигналом, в тех же акустических условиях и в одном стиле. При этом текст, который произносит диктор должен отличаться в обучающем и тестовых сигналах.
В настоящей работе используются две базы речевых сигналов. Для каждой из баз решено использовать собственную УФМ. Это позволит уменьшить число компонент гауссовых смесей при моделировании диктора по сравнению со случаем, когда используется единая УФМ для обеих баз.
Первая база составлена из речевых сигналов на русском языке. Марка, характеристики микрофона, на который производилась запись, а также число сессий записи одного диктора неизвестны. Все дикторы – мужчины. Стиль произношения – нейтральный, дикторам предлагалась некоторая фотография, и они ее описывали вслух. Все записи, принадлежащие одному диктору, объединялись в файл, а далее производилось их разделение на файлы нужной длины.
На основе записей создана база речевых сигналов «РУС-31-5», в которой для каждого из 31 дикторов содержится обучающий сигнал длительностью 90 с и 5 тестовых сигналов длительностью по 3 с каждый. Также с помощью EM-алгоритма получена УФМ «РУС-31-5». В качестве обучающих данных для УФМ использовались 10-ти секундные записи 132 дикторов. Для получения УФМ и базы речевых сигналов использовались разные дикторы.
Вторая база речевых сигналов составлена на основе записей речевого корпуса CHAINS школы компьютерных наук и информатики университетского колледжа Дублина [48]. Данный корпус содержит записи 36 дикторов в различных стилях произношения, из которых в работе используется лишь стиль одиночного чтения (маркируется в корпусе как «Solo reading»). Записи выбранного стиля записаны в профессиональной студии звукозаписи на микрофон Neumann U87. Запись произведена в одну сессию. Число дикторов в корпусе – 36 (20 мужчин и 16 женщин).
На основе файлов речевого корпуса CHAINS получена база речевых сигналов «АНГЛ-20-5» для 20 дикторов. Для получения обучающего сигнала объединялись 2 файла с именами « _f01_solo.wav» и « _f02_solo.wav» (звездочка заменяется на код диктора). В качестве тестовых сигналов использовались 5 первых файлов каждого диктора, длительность которых составляют от 2 до 3 с. УФМ «АНГЛ-20-5» построена с применением записей дикторов речевого корпуса CHAINS, не вошедших в базу речевых сигналов «АНГЛ-20-5». Использовались файлы с именами « _f04_solo.wav» (звездочка заменяется на код диктора).
Альтернативная оценка точности идентификации дикторов
Идентификация диктора может быть произведена достаточно надежно в чистых акустических условиях, однако присутствие фонового шума способно ухудшить ее качество. Одним из наиболее эффективных способов повышения устойчивости систем идентификации диктора к шумам является предобработка входных сигналов с помощью алгоритмов шумоподавления [83]. Однако алгоритмы, максимизирующие показатели качества и разборчивости речевых сигналов, не всегда столь эффективны для предобработки сигналов в задаче идентификации диктора. Третья глава посвящена разработке алгоритмов шумоподавления для системы идентификации диктора и подбору их параметров.
Анализируя формулу (1.18), можно заметить, что Т нельзя рассматривать, как априорное ОСШ, т. к. в числителе стоит мгновенное значение A2,w, а не его математическое ожидание. В тоже время для работы s»1, где s - сглаживающий параметр, который подбирается исходя из задачи; 5 - ограничивающий параметр, предотвращающий переоценку априорного ОСШ. В работе принимается 8 = о.
При субъективном прослушивании речевых сигналов, обработанных модифицированным алгоритмом с различными значениями є, было отмечено, что при уменьшении параметра є снижается уровень музыкального шума, но при этом речь становится менее разборчивой.
Модифицированный двухступенчатый алгоритм возможно использовать с различными ФКС. В работе применена ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.
Предлагается подобрать параметр є для модифицированного алгоритма в задаче идентификации диктора. Для этого возможно использовать методику подбора параметра алгоритма с помощью БОТИД, изложенную в разделе 2.9. Зависимость значения БОТИД от є приведена в табл. 3.1 для АБГШ, табл. 3.2 для SB, в табл. 3.3 для VIN. Результаты округлены до тысячных. В последнем столбце рассчитано среднее значение показателя качества среди используемых значений ОСШ. Среднее значение вычислялось, используя значения БОТИД для каждого значения ОСШ без округления. После подсчета среднее значение округлялось до тысячных. Лучшие результаты выделены серым цветом.
Отметим, что значение є = 1 соответствует случаю применения оригинального двухступенчатого алгоритма. Из анализа результатов следует, что модифицированный алгоритм позволяет незначительно повысить значение БОТИД для АБГШ. Наибольшее улучшение получено при значении ОСШ 5 дБ: разница составляет 0,007. При значении ОСШ 10 дБ разница с оригинальным алгоритмом составляет 0,001, а при значении ОСШ 15 дБ улучшения нет. Значения параметра є, при котором среднее значение показателя качества БОТИД для АБГШ и значений ОСШ от 5 до 15 дБ максимально – 0,9; 0,95 и 1.
Предлагается подобрать универсальный параметр , для которого среднее значение БОТИД среди исследуемых типов шумов максимально. Округленные до тысячных результаты приведены в табл. 3.4.
Таким образом, модификация двухступенчатого алгоритма на основе ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра не требуется. Однако получены положительные результаты при использовании модифицированного алгоритма с ФКС Винера и минимальной среднеквадратичной ошибки логарифма кратковременной амплитуды спектра. Также применимость модификации может быть исследована и для других алгоритмов шумоподавления на основе двухступенчатого.
Блок-схема алгоритма шумоподавления на основе обобщенной мягкой маски представлена на рис. 3.1. Проясним физический смысл параметра в, показателя степени мягкой маски. На рис. 3.2 представлены нормализованные гистограммы распределения значений Sekw для 9 = 1 (а) и в = 2 (б), полученные с применением алгоритма шумоподавления, описанном в разделе 3.3, на реальном сигнале с ОСШ 15 дБ. Условно все точки частотно-временного представления сигнала можно разделить на недостоверные, для которых S%,W - 0 , достоверные, для которых Slw - 1 , и промежуточные, располагающиеся между ними. При увеличении в возрастает число недостоверных точек, но уменьшается число достоверных и промежуточных. При уменьшении в наблюдается обратная зависимость.
Таким образом, варьируя параметр в, можно задать нужный баланс между достоверными и недостоверными точками. Иными словами, чем выше значение 9, тем сильнее подавляется шум и тем больше мягкая маска оказывается ближе к бинарной.
Двухступенчатый алгоритм на основе мягкой маски
Проведенный анализ задачи идентификации диктора показывает, что точность идентификации значительно ухудшается в присутствии шумов. Поэтому проблема поиска новых алгоритмов предобработки речевых сигналов в задаче идентификации диктора является актуальной.
Одним из самых эффективных способов повышения точности основан на предобработке с помощью алгоритмов шумоподавления. Однако на текущий момент применение данного способа ограничивается использованием довольно простых алгоритмов шумоподавления: на основе ФКС спектрального вычитания; на основе подхода прямого принятия решения и ФКС Винера. Проведен обзор современных способов идентификации диктора и подробно описана система на основе мел-частотных кепстральных коэффициентов и моделей гауссовых смесей с применением универсальной фоновой модели. Данная система наиболее широко применяется для задачи идентификации диктора и выбрана автором в качестве объекта исследований. Проведен обзор способов подавления шума в частотной области. Рассмотрены такие проблемы, как моделирование речи и шума, выбор функции коррекции спектра, оценка априорного отношения сигнал/шум. Рассмотрено использование бинарных масок для подавления шума в речевых сигналах, а также новое направление в шумоподавлении – мягкие маски. Поднята проблема оценки качества речевых сигналов. Рассмотрены наиболее известные показатели качества речи – ОСШ, СегОСШ, LLR, WSS, PESQ.
Поставлена проблема подбора параметров алгоритмов шумоподавления для использования в системе идентификации диктора. Если решать эту задачу прямо и рассчитывать так называемую точность идентификации диктора, то эксперимент займет много времени из-за высокой вычислительной сложности.
Предложены новые показатели качества речи на основе расстояния между МЧКК незашумленного сигнала и зашумленного. На основе Евклидова расстояния получен показатель качества речи МЧКК-Э, на основе расстояния городских кварталов – МЧКК-L1, на основе расстояния Махаланобиса – МЧКК-М.
Исследована теснота статистической связи между ТИД и показателями качества речи PESQ, ОСШ, СегОСШ, WSS, LLR, МЧКК-Э, МЧКК-L1, МЧКК-М. Рассчитан линейный коэффициент корреляции между каждым из показателей качества речи и ТИД для двух случаев – с использованием алгоритмов, избыточно подавляющих шум, и без использования.
При использовании алгоритмов, избыточно подавляющих шум, наибольшей теснотой статистической связи с ТИД для АБГШ, шума SB, шума VIN обладает показатель качества речи СегОСШ. Для АБГШ значение линейного коэффициента корреляции составляет 0,72; для шума SB – 0,8; для шума VIN – 0,76.
Без использования алгоритмов, избыточно подавляющих шум, наибольшей теснотой статистической связи с ТИД обладает предложенный показатель качества речи МЧКК-М. Для АБГШ значение линейного коэффициента корреляции составляет -0,85; для шума SB – -0,91; для шума VIN – -0,92.
Предложен новый показатель качества речи АОТИД (альтернативная оценка точности идентификации дикторов) на основе линейной комбинации PESQ, ОСШ, СегОСШ, WSS, LLR, МЧКК-Э, МЧКК-L1, МЧКК-М. Весовые коэффициенты для каждого используемого показателя качества речи в линейной комбинации подобраны индивидуально для АБГШ, шума SB, шума VIN. Для АБГШ значение линейного коэффициента корреляции между АОТИД для соответствующего типа шума и ТИД составляет 0,96; для шума SB – 0,94; для шума VIN – 0,97.
Предложена методика быстрой оценки усредненной среди двух используемых баз речевых сигналов точности идентификации дикторов – БОТИД. Значение линейного коэффициента корреляции между БОТИД и усредненной ТИД составило 0,99 для АБГШ, шума SB, шума VIN.
Методика быстрой оценки точности идентификации дикторов использована для подбора параметра алгоритма шумоподавления на основе ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра. Для сравнения данный параметр также был подобран стандартным способом с использованием системы идентификации диктора. Значение параметра с максимальной усредненной ТИД среди значений ОСШ 5 дБ, 10 дБ, 15 дБ и типов шума АБГШ, SB, VIN составило 0,99. Аналогичный результат получен при использовании методики на основе БОТИД. Но с помощью нее удалось подобрать параметр приблизительно в 88 раз быстрее, чем при оценке ТИД напрямую.
Обобщено понятие мягкой маски, математически показана правомерность такого обобщения, пояснен физический смысл параметра – показателя степени обобщенной мягкой маски. Предложен новый подход к расчету мягкой маски, основанный на определении вероятности присутствия речи в точках частотно-временного представления сигнала и модифицированном подходе прямого принятия решения. Подобраны параметры и данного алгоритма, для которых среднее значение показателя качества речи БОТИД максимально среди АБГШ, шума SB, шума VIN, – 0,99 и 1 соответственно. Новый подход к расчету мягкой маски может стать прототипом для широкого класса алгоритмов шумоподавления.
Предложена модификация двухступенчатого алгоритма шумоподавления, которая использует сглаживание априорного ОСШ, полученного на втором этапе алгоритма с помощью экспоненциального скользящего среднего с ограничением сверху значения в текущем окне. Для двухступенчатого алгоритма на основе ФКС среднеквадратичной ошибки кратковременной амплитуды спектра данная модификация не способна серьезно повысить точность идентификации диктора. Однако был предложен двухступенчатый алгоритм на основе мягкой маски и ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра, для которого данная модификация повышает ТИД. Подобрано значение сглаживающего параметра для данного алгоритма – 0,75. Произведено сравнение предложенных алгоритмов в задаче идентификации диктора с наиболее часто используемым для данной задачи алгоритмом шумоподавления на основе подхода прямого принятия решения и ФКС Винера, а также двухступенчатым алгоритмом на основе ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.
Для АБГШ наиболее предпочтительным оказался предложенный двухступенчатый алгоритм шумоподавления на основе мягкой маски и ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра. Усредненное по используемым ОСШ и базам речевых сигналов значение ТИД для него на 13,4 п. п. выше, чем для алгоритма на основе подхода прямого принятия решения и ФКС Винера, и на 2,9 п. п. выше, чем для двухступенчатого алгоритма на основе ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.
Для шума SB наибольшее значение ТИД обеспечивает двухступенчатый алгоритм шумоподавления на основе ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра. Усредненное по используемым ОСШ и базам речевых сигналов значение ТИД для него на 1,6 п. п. выше, чем для алгоритма на основе подхода прямого принятия решения и ФКС Винера, и на 0,5 п. п. выше, чем для предложенного двухступенчатого алгоритма на основе мягкой маски и ФКС минимальной среднеквадратичной ошибки кратковременной амплитуды спектра.