Содержание к диссертации
Введение
Глава 1. Аналитический обзор методов автоматического текстонезависимого распознавания дикторов 13
1.1. Анализ предметной области. Краткое описание основных компонент, составляющих системы распознавания дикторов. 13
1.2. Задача распознавания дикторов 18
1.3 Структура систем распознавания дикторов 22
1.4. Статистическое моделирование 25
1.4.1 Гауссовские смеси. Основные понятия. 25
1.4.2 Универсальная фоновая СГР модель. Обучение универсальной фоновой модели . 29
1.4.3 Получение СГР модели на речевых данных целевого диктора. MAP адаптация. 30
1.5 Оценка эффективности систем автоматической распознавания дикторов по голосу 33
1.6 Методы компенсации влияния искажений речевого сигнала на эффективность работы системы распознавания дикторов 36
1.6.1 Нормализация в пространстве признаков 37
1.6.2 Компенсация в модельном пространстве 38
1.6.3 Пространство выходных оценок 40
1.7 Метод совместного факторного анализа 41
1.7.1 Оценка факторов вариативности. Построение СГР модели диктора с учетом компенсации эффектов канала. 41
1.7.2 Оценка матриц базисных векторов подпространств вариативности в модели факторного анализа 46
1.8 Реализация распознавания дикторов на основе метода полной изменчивости 54
1.8.1 Построение модели диктора в пространстве полной изменчивости 55
1.8.2 Повышение точности распознавания TV метода с использованием линейного дискриминантного анализа. 57
1.8.3 Верификация дикторов при использовании СГР моделей в пространстве полной изменчивости. 61
1.9 Вероятностный линейный дискриминативный анализ 62
1.9.1 Особенности вероятностного линейного дискриминантного анализа 62
1.9.2 Описание генеративной модели 65
1.9.3 Оценка величины функции правдоподобия 71
1.9.4 Принятие решения 74
1.9.5 Оценка параметров PLDA модели на базе обучения 74
Глава 2. Алгоритмы и программные средства повышения точности систем распознавания дикторов при работе в реальных условиях 80
2.1 Этапы работы системы распознавания дикторов, описание основных модулей. 80
2.1.1 Выделение речевых сегментов на фонограмме 82
2.1.2 Извлечение признаков на речевых сегментах 85
2.1.3 Построение и сравнение моделей голосов дикторов 85
2.1.4 Принятие решения объединение выходных оценок классификаторов 91
2.2 Подготовка базовой системы распознавания. 93
2.2.1 Обучение параметров универсальной фоновой модели 93
2.2.2 Программные средства построения универсальной фоновой модели104
2.3 Выводы 110
Глава 3. Алгоритмы и программные средства повышения робастности систем распознавания дикторов при работе в реальных условиях 114
3.1 Алгоритм компенсации внутридикторской вариативности на уровне речевых признаков на основе гистограммной нормализации 114
3.1.1 Описание алгоритма компенсации внутридикторской вариативности на уровне речевых признаков на основе гистограммной нормализации 114
3.1.2 Экспериментальное исследование алгоритма гистограммной нормализации речевых признаков 116
3.1.3 Программная реализация алгоритма гистограммной нормализации 119
3.1.4 Выводы 121
3.2 Алгоритм компенсации внутридикторской вариативности на уровне выходных оценок на основе смеси моделей PLDA 122
3.2.1 Описание алгоритма распознавания диктора на основе смеси моделей PLDA 123
3.2.2 Экспериментальное исследование предложенного алгоритма 124
3.2.3 Программная реализация алгоритма смешивания PLDA систем 129
3.2.4 Выводы 130
3.3 Алгоритм компенсации внутридикторской вариативности на модельном уровне на основе мультисессионной модели диктора с использованием параметров качества речевого сигнала 132
3.3.1 Описание алгоритма формирования мультисессионной модели 133
3.3.2 Экспериментальное исследование разработанного алгоритма 137
3.3.3 Программная реализация алгоритма построения модели диктора по нескольким произнесениям с учетом параметров качества. 143
3.3.4 Выводы 146
Заключение 148
- Универсальная фоновая СГР модель. Обучение универсальной фоновой модели
- Построение и сравнение моделей голосов дикторов
- Экспериментальное исследование алгоритма гистограммной нормализации речевых признаков
- Алгоритм компенсации внутридикторской вариативности на модельном уровне на основе мультисессионной модели диктора с использованием параметров качества речевого сигнала
Универсальная фоновая СГР модель. Обучение универсальной фоновой модели
Выделение участков речевой активности входного сигнала может производиться при помощи алгоритмов, основанных как на распознавании речи, так и анализе энергии сигнала на локализованных во времени сегментах [4]. В первом случае применение распознавания речи дает возможность произвести детектирование речевого сигнала с высоким качеством, поскольку сводится к минимуму ложное срабатывание на неречевых данных и ложное отбрасывание речевых данных за счет точного определения границ речевых сегментов на произнесении. Недостатком данного способа детектирования речи является языкозависимость, способность работы в сильно ограниченном диапазоне условий по уровню внешнего шума, реверберации, качеству речи и т.д. Как показывают результаты исследований [5], для получения удовлетворительных результатов достаточно использовать второй способ, основанный на энергетическом анализе сигнала. Такой метод выделения речи не требует сложных настроек, его эффективность не зависит от языка и, как показывают результаты экспериментов, способен поддерживать качество выделения речи в широком диапазоне условий. Его недостатком является то, что шумовые эффекты неречевого происхождения, присутствующие во входном сигнале, с энергией, превышающей пороговое значение, детектируются как речевые. Для их исключения требуется увеличение порога отсечки по энергии, что неизбежно приводит к потерям речевых данных.
Согласно результатам исследований, приведенным в [3, 6, 52], все современные системы распознавания диктора применяют статистическое моделирование распределений акустических признаков посредством смесей гауссовских распределений (СГР). Выбор смеси гауссовских распределений в качестве инструмента моделирования обусловлен их способностью с высокой точностью обеспечить параметрическое представление распределения входных данных. Для оценки параметров (для обучения) СГР используется эффективный алгоритм, который отличается быстрой сходимостью к точному решению и не требует больших вычислительных затрат [7]. Как правило, оценка параметров СГР моделей дикторов осуществляется путем адаптации параметров от универсальной фоновой модели, представляющей собой гауссовскую смесь, обученную на большом объеме речевых данных. Данный подход позволяет получить СГР модель голоса диктора, используя априорную информацию из фоновой модели, что упрощает оценку параметров. Кроме этого, универсальная фоновая модель выполняет роль модели “чужого диктора” при использовании критерия Неймана Пирсона [8].
Как было показано в [8], наиболее информативными, с точки зрения задачи распознавания дикторов, параметрами смеси являются центры компонент – гауссоид, входящих в смесь. Попытки учитывать остальные параметры – ковариации и коэффициенты смешивания, – приводят к увеличению вычислительных затрат при сравнении голосовых моделей эталонного и тестового произнесений без улучшения качества распознавания дикторов. Принимая во внимание данное обстоятельство, наиболее целесообразным для параметризации голосовых моделей является использование математических ожиданий входящих в смесь. Для этого производят объединение центров гауссоид в вектор, именуемый “супервектор” [9], который в дальнейшем рассматривается как модель голоса диктора. Применение данного представления для модели голоса позволяет использовать для классификации [10] дискриминативный подход, основанный на машинах опорных векторов, а также произвести оценку факторов вариативности речевого сигнала для их компенсации на модельном уровне, используя метод совместного факторного анализа [11]. Разработка метода совместного факторного анализа позволила создать математическое описание влияния факторов вариативности различной природы на СГР модель голоса диктора. Приведенный в [11] алгоритм дает возможность выполнить оценку факторов междикторской и внутридикторской вариативности, а также определить факторы вариативности, вызванные особенностями канала передачи речевых данных. В конечном счете, это позволяет произвести оценку параметров СГР модели диктора, учитывая только вклад факторов междикторской вариативности, тем самым исключая влияние иных факторов, не связанных с особенностями голоса диктора.
Следующим шагом в развитии систем распознавания дикторов стал переход от представления СГР модели речевых данных в высокоразмерном пространстве “супервекторов” к их представлению в низкоразмерном пространстве полной изменчивости [6]. Согласно данному подходу производится анализ главных компонент “супервектора”, формируется базис пространства и определяется положение точки в новом базисе, соответствующее СГР модели голоса. Описанный способ представления речевых данных дает возможность не только существенно сократить число параметров, необходимых для описания СГР модели, но и улучшить эффективность распознавания дикторов [12].
Дальнейшим этапом развития нового подхода стало применение метода вероятностного линейного дискриминативного анализа для создания генеративной модели и оценки факторов вариативности [13, 14, 54, 58]. В первоначальной версии метода, предложенной в [13], предполагалось использование сложной схемы с привлечением дополнительных параметров, требующих оценивания. Это привело к тому, что, несмотря на эффективность метода, для его использования на практике необходимо сокращение вычислительных затрат. Решение проблемы сокращения вычислительной сложности при сохранении точности идентификации было найдено и приведено в работе [3]. Предложенный способ основан на применении линейного дискриминативного анализа для определения факторов вариативности в упрощенной форме, используя лишь гауссовские распределения в качестве априорных распределений на скрытые параметры генеративной модели голоса диктора в пространстве полной изменчивости. Важным элементом данного метода стало применение отбеливания [3] входных данных. Приведенный в работе [3] алгоритм является базовым, применяемым в коммерческих системах автоматического распознавания дикторов, который доказал свою эффективность по результатам тестов, проводимых в рамках конкурса по оцениванию систем распознавания дикторов (speaker recognition evaluation, SRE), организованного национальным институтом стандартов и технологий США NIST (National Institute of Standards and Technology, NIST) [5].
Построение и сравнение моделей голосов дикторов
Метод «полной изменчивости» (Total variability, TV) является наиболее современным методом идентификации по голосу, который впервые был описан в работе Н.Дехака и П. Кенни [6] в 2009г.
Метод распознавания дикторов на основе представления модели голоса в пространстве «полной изменчивости» состоит из следующих этапов:
На этом этапе в качестве речевых признаков вычисляются мел-частотные кепстральные коэффициенты (MFCC) - характеристики, описывающие спектральное представление речевого сигнала в различные моменты времени. Плотность распределения идентификационных признаков моделируется с использованием смеси гауссовых распределений. Параметры СГР-модели далее с помощью специально адаптированного факторного анализа представляются в виде i-вектора малой размерности в так называемом пространстве «полной изменчивости», включающем подпространства «собственных каналов» и «собственных голосов», используемых в «классическом» методе совместного факторного анализа (Joint Factor Analysis, JFA), предложенного П.Кенни в работе [11]. Отличительной особенностью такого представления СГР-модели является её высокая информативность и малый размер данных.
На этапе сравнения i-векторов используется классификатор на основе машины опорных векторов (Support Vector Machine, SVM), хорошо зарекомендовавший себя с точки зрения скорости и качества распознавания. По результирующей дистанции SVM вычисляются ошибки первого/второго рода FR/FA, с учетом длительностей тестового и эталонного произнесений (оценки FR/FA зависят от длительности речевого сигнала, по которому построена каждая из сравниваемых СГР-моделей). На рисунке 1.8.1 показана схема работы системы идентификации дикторов с использованием модели полной изменчивости.
Классический факторный анализ в задаче распознавания дикторов применяется для определения факторов подпространства междикторской вариативности, заданного матрицей собственных голосов V , и подпространства эффектов канала, заданного матрицей собственных каналов U . В отличие от классического факторного анализа, в методе полной изменчивости рассматривается только одно, низкоразмерное пространство, которое отображает междикторскую и межканальную изменчивость. Таким образом, при построении СГР-модели диктора учитывается только суммарное влияние факторов, что не дает возможности выполнить компенсацию эффектов канала на этом этапе (в отличие от метода факторного анализа). Для компенсации канальных искажений потребуется использование дополнительного алгоритма на основе линейного дискриминантного анализа (LDA).
Перед использованием метода полной изменчивости в задаче идентификации диктора, необходимо определить набор базисных векторов, заданных столбцами Т -матрицы. Обучение этой матрицы проводится на специально подобранной базе фонограмм по EM алгоритму [7, 24, 25, 59]. Качество распознавания в значительной степени зависит от того, насколько полученная матрица Т соответствует условиям тестирования. Наилучший результат достигается, если условия обучения по каналу и гендеру близки к условиям тестирования. Для этого производится отбор фонограмм в базу обучения в соответствии с заданным каналом и гендером. Если условия тестирования точно неизвестны, то обучение предполагается кросс канальным и кросс-гендерным. В этом случае система распознавания в меньшей степени подвержена изменению условий тестирования и становится более робастной, но ее качество ухудшается по сравнению с той, что настроена на заданные условия.
Как было сказано, в модели пространства полной изменчивости не делается различий между факторами междикторской вариативности и факторами вариативности, вызванными искажениями в каналах связи. При таком подходе решается только задача сокращения размерности входного пространства СГР-моделей дикторов без компенсации эффектов канала. Полученные таким образом низкоразмерные векторы не обладают дискриминативными свойствами по дикторам и потому не могут быть использованы напрямую для решения задачи распознавания [6].
Для придания дискриминативных свойств низкоразмерным векторам выполняют линейное преобразование базиса исходного пространства. Матрица преобразования вычисляется на основе алгоритма линейного дискриминантного анализа (LDA) [6], исходя из максимизации отношения дисперсий междикторской и внутридикторской вариативности, рассчитанных на базе обучения.
Экспериментальное исследование алгоритма гистограммной нормализации речевых признаков
Выходная оценка базовой системы распознавания формировалась на основании объединения выходных оценок подсистем распознавания из состава базовой системы. Различие подходов распознавания использованных при реализации подсистем дает возможность получить слабо коррелирующие выходные оценки, которые при объединении позволяют улучшить общие показатели качества.
Определение параметров оптимального объединения выходных оценок подсистем производится на вспомогательной базе размеченных по дикторам речевых данных (базе развития) и сводится к решению задачи минимизации функции стоимости следующего вида [15]:
Функция стоимости (2.9) является целевой функцией для задачи оптимизации при определении параметров логистической регрессии [15, 28]. Следует отметить, что использование данной целевой функции накладывает ограничение на распределение выходных оценок классификаторов. Основное требование состоит в том, чтобы выходные оценки принадлежащие классам сравнений “свой-свой” и “свой-чужой” имели гауссовы распределения с одинаковой дисперсией. Только в этом случае для вероятностных оценок справедливо применение логистической функции. Как правило, распределения выходных оценок близки к заданному требованию, но в точности ему не удовлетворяют. Поэтому решение по коэффициентам а полученное оптимизацией (2.9) является приближенным. Однако на практике, как показали результаты NIST SRE2012[5] задача оптимизации в рамках логистической регрессии, несмотря на указанное допущение, показала свою эффективность. Подробное описание параметров в выражении (2.9) следующее: аЄЖ0 - вектор коэффициентов линейной комбинации выходных оценок каждой подсистемы [15]:
Для решения задачи оптимизации (2.9) применяется метод градиентного спуска. Необходимые тестовые испытания подсистем распознавания для получения выходных оценок для попыток “свой-свой” и “свой-чужой” и последующего расчета функции стоимости (2.9) производятся на базе развития.
Полученная после объединения (2.10) выходная оценка базовой системы распознавания для каждой тестовой попытки характеризуется ошибками 1-го и 2 го рода и вероятностью схожести дикторов на эталонном и тестовом произнесениях. В зависимости от установленного порога принимается решение о принадлежности тестового произнесения целевому диктору на эталонном произнесении. 2.2 Подготовка базовой системы распознавания.
Подготовка базовой системы распознавания сводится к обучению гиперпараметров систем различных распознавания входящих в базовую систему. Особое внимание уделено исследованиям, связанным с обучением универсальной фоновой модели, которая является основным элементом моделирования распределений речевых данных. Подробное описание оценки гиперпараметров систем распознавания, использующих подходы, основанные на объединённом факторном анализе, пространства полной вариативности, вероятностного линейно-дискриминативного анализа описаны в соответствующих разделах обзорной части диссертации (глава 1: разделы 1.7.2, 1.8.2, 1.9.5).
Обучение универсальной фоновой модели (UBM) является первоначальным этапом построения системы автоматической распознавания дикторов [5]. На основе UBM производится расчёт матрицы для выполнения преобразования набора признаков в низкоразмерное пространство (модель полной вариативности), матриц факторного анализа (JFA) для каналокомпенсации на уровне GMM и получение выходных оценок при сравнении тестовых и эталонных произнесений [5].
Поскольку UBM является одним из наиболее важных элементов системы распознавания, то выбор параметров обучения универсальной фоновой модели в значительной мере влияет на эффективность распознавания системы в целом.
Алгоритм компенсации внутридикторской вариативности на модельном уровне на основе мультисессионной модели диктора с использованием параметров качества речевого сигнала
В алгоритме гистограммной нормализации [53] производится трансформирование вектора признаков в центре скользящего окна размерности iV. Пусть известен входной набор векторов признаков в пределах окна {х1,х2, ...,xN}. Все векторы во входном наборе имеют dimx компонент. Далее необходимо вычислить относительный ранг для каждого і -го компонента вектора хУ в центре скользящего окна и найти для него соответствующее трансформированное значение хУ . В реализации алгоритма скользящее окно последовательно сдвигается с единичным шагом по всему произнесению и, таким образом, проводится трансформирование всех входных признаков, попавших в интервал \—:М , где М - общее число векторов признаков на речевых данных произнесения.
Для произвольного положения скользящего окна ранг центрального вектора определяется согласно выражению [53]: - индекс компоненты вектора признаков; Vn Є {1... TV} -порядковый номер вектора, iV - число векторов в скользящем окне. Новое (трансформированное) значение признака из центра окна xh" находится по исходному значению хУ из уравнения: R(xil) = Y(xil )
Согласно формулам (3.1.1)-(3.1.2), область значений ранга R ограничена интервалом Я Є —:1 . На практике, для того чтобы избежать численного решения интегрального уравнения при каждом смещении окна, целесообразно предварительно рассчитать таблицу значений Xj для каждого у/ = — (2j + 1) при je[0...N-\], решая интегральные уравнения у/ = Y{XJ).
Как было отмечено выше, нормализация выполняется только для векторов признаков находящихся в центре скользящего окна. Пи этом часть векторов признаков, находящихся в интервалах длительностью равной половине окна N/2 в начале и конце произнесения, остается нетрансформированной и потому не используется. Для устранения данного ограничения на использование алгоритма, предлагается рассчитать ранг этих векторов при начальном и конечном положении скользящего окна и выполнить для них трансформирование к нормальному распределению.
Рассмотренный алгоритм, аналогично известным алгоритмам нормализации кепстрального среднего и дисперсии [36], также дает набор центрированных кепстральных признаков MFCC с нулевым средним и единичной дисперсией.
Эксперименты выполнялись для системы распознавания дикторов на основе GMM-UBM моделей голосов дикторов с использованием смесей гауссовых распределений (Gaussian mixture model, GMM) и универсальной фоновой модели (Universal Background Model, ЦВМ) [29, 37]. Фонограммы для тестовых произнесений и эталонов выбирались из базы телефонных разговоров NIST2008 [38]. Обучение проводилось на фонограммах телефонных баз NIST2005, NIST2006 [39, 40]. Все фонограммы, как для обучения, так и для тестирования, содержали речь только на английском языке. Это позволило исключить влияние лингвистических факторов на результаты тестов. Условия обучения и тестирования при изменении параметров нормализации оставались неизменными. При обучении UBM использовались фонограммы 207 мужских и 275 женских голосов дикторов (3571 фонограмм). Множество обучения матрицы межканальной вариативности состояло из 190 мужских и 180 женских голосов дикторов (2583 фонограмм). Число компонент фоновой модели гауссовой смеси UBM М=512, размерность пространства факторов канала R=50. В качестве речевых признаков рассматривались MFCC коэффициенты, их первая и вторая производные, объединенные в вектор признаков размерности L=39 (13mfcc + 13delta mice + 13 delta delta mfee). Выделение речевых сегментов производилось с помощью детектора основного тона. Для построения GMM -эталона и компенсации влияния каналов использовалась схема Фогта [41], которая является частным случаем модели объединенного факторного анализа - в ней учитываются только факторы внутридикторской вариативности и вариативности, обусловленной эффектами каналов (см. раздел 1.7 диссертации) [11, 41]:
Первоначально было исследовано влияние способов нормализации речевых признаков на качество распознавания. Рассматривались два варианта нормализации: нормализация признаков путем вычитания кепстрального среднего (CMS) и гистограммная нормализация путем трансформирования признаков. При этом гистограммная нормализация была проведена в двух вариантах: в первом случае трансформировались все компоненты вектора признаков независимо друг от друга (FW1) , в другом – гистограммная нормализация выполнялась только для кепстральных компонент вектора речевых признаков, трансформация компонент соответствующих первой и второй производной признаков проводилась на основе уже нормализованных значений (FW2) [23]. Размер скользящего окна нормализации для случаев FW1 и FW2 составлял 300 векторов. Результаты тестов верификации представлены в таблице 3.1.2. Для оценки качества верификации использовалось значение равновероятной ошибки (Equal Error Rate, EER) пропуска чужого и отклонения своего диктора.