Содержание к диссертации
Введение
Глава 1. Моделирование речевого сигнала 10
1.1. Введение 10
1.2. Особенности реализации звуков в спонтанной речи 13
1.3. Представление речевого сигнала 17
1.3.1. Осциллограмма речевого сигнала и ее анализ 18
1.3.2. Спектральный анализ речевого сигнала 19
1.4. Анализ речевого сигнала 22
1.5. Психоакустические шкалы, используемые в анализе речи 24
1.5.1. Перцептивные шкалы частот 25
1.5.2. Перцептивная шкала громкости 28
1.6. Акустическое моделирование 29
1.7. Адаптация акустической модели к диктору 30
1.8. Стандартные акустические характеристики 33
1.9. Комбинирование акустических характеристик 35
1.10. Заключение 36
Глава 2. Фонетические характеристики 38
2.1. Введение 38
2.2. Системы, распознавания слитной речи, использующие фонетические характеристики 41
2.3. Наличие основного тона (ОТ) 44
2.3.1. Частотные методы 44
2.3.2. Амплитудные методы 45
2.3.3. Корреляционный метод определения периода основного тона 46
2.4. Определение частоты основного тона (ЧОТ) 48
2.4.1. Вычисление отношения длин соседних периодов 53
2.4.2. Определение ЧОТ методом анализа через синтез 54
2.4.3. Комбинирование характеристик и определение периода ЧОТ. 56
2.5. Местоположение формант 61
2.6. Степень сонорности звука речи 67
2.6.1. Акустическая характеристика сонорности 69
2.6.2. Представление спектра в нелинейной шкале 73
2.6.3. Низкочастотная фильтрация 75
2.7. Определение места образования шумных согласных 76
2.8. Заключение 79
Глава 3. Автоматическая интерпретация звуков речи 82
3.1. Введение 82
3.2. Распознавание гласных по местоположению формант 83
3.2.1. Формирование базы эталонов 83
3.2.2. Результаты распознавания гласных 86
3.3. Определение согласных, по месту и способу их образования 96
3.4. Использование характеристики звонкости в автоматическом распознавании речи 107
3.5. Использование характеристики сонорности в автоматическом распознавании речи 109
3.6. Заключение 115
Заключение 118
Список использованной литературы 123
- Особенности реализации звуков в спонтанной речи
- Осциллограмма речевого сигнала и ее анализ
- Системы, распознавания слитной речи, использующие фонетические характеристики
- Распознавание гласных по местоположению формант
Введение к работе
Область применения речевых технологий постоянно расширяется. Особенно это относится к автоматическому распознаванию и транскрипции речи. Сфера их использования уже включает в себя любые виды оказания дистанционных услуг (например, заказ билетов), автоматический перевод речи, поиск ключевых слов в речевом сигнале, поиск информации в базах звуковых и видео данных, а также частично автоматическое определение говорящего или языка, на котором он говорит.
В последнее время постепенно увеличивается эффективность систем, выполняющих задачи автоматической обработки и интерпретации слитной речи. В то же время остается множество проблем в рамках существующих на сегодняшний день подходов. Одна из основных заключается в автоматической идентификации звуков речи.
Почти все системы автоматической обработки речи полностью основаны на статистических моделях, и в них используется довольно примитивное, с лингвистической точки зрения, моделирование речевого сигнала. Современный статистический подход к моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному речевому материалу. Это происходит в силу специфики статистического подхода: система эффективно работает на том и только на том материале, на котором она обучалась.
Исследовательская деятельность во всем мире в основном направлена на развитие математического и статистического аппарата, используемого в речевых технологиях. Но практически нет исследований, задачей которых является разработка лингвистических методов решения существующих проблем. Лингвистический подход может быть очень эффективен для создания антропоморфных моделей речевого сигнала, т.е. таких, в которых учитывается то, как человек порождает и воспринимает речь.
Применение антропоморфных моделей речевого сигнала представляется крайне перспективным, так как способности человека к распознаванию и пониманию речи намного превосходят возможности современных систем автоматической обработки речи. Человек не только лучше компьютерных систем распознает речь в сходных условиях, но и обладает той универсальностью и относительной независимостью от окружающих условий, которой не. имеют системы автоматического распознавания речи.
То, как человек воспринимает родную речь, находит свое отражение в фонологической системе языка. В ней содержится, весь, набор фонем, минимальных единиц языка, которые различаются его носителями. А фонетические законы, действующие в рамках языка, отражают особенности порождения речи носителями данного языка [Бондарко и др. 1991: 6-8]. Поэтому устойчивые акустические характеристики звуков речи, разработанные на фонологических и фонетических принципах, могут быть использованы в качестве основы для разработки эффективной автоматической интерпретации звуков речи и, соответственно, автоматической транскрипции и распознавания речи.
Особенности реализации звуков в спонтанной речи
Современные системы обработки и моделирования речевого сигнала сталкиваются с существенными проблемами при переходе от лабораторных данных к реальному материалу, заключающемуся в спонтанной речи.
В 2005 году в Массачусетском технологическом университете были проведены эксперименты по оценке эффективности работы системы, автоматического распознавания речи на реальных данных [Glass et al. 2005]. В ходе экспериментов была оценена система, обученная и эффективно работающая на стандартном корпусе Wall Street Journal [Lincoln et al. 2005] объемом 10 миллионов слов (WSJ10). Данная система распознавания была использована для обработки видеозаписей лекций, ее эффективность на этом материале не достигла даже 60 %, что можно считать совершенно неудовлетворительным результатом. Для сравнения, эффективность этой же системы на корпусе WSJ10 достигала почти 90 %. Во многом это объясняется различием между лабораторными данными и реальной спонтанной речью.
Спонтанная речь - это неподготовленная по форме, свободно и сиюминутно порождаемая форма устной речи, которая может сочетаться с различной степенью подготовленности (обдуманности) ее содержательной стороны и использоваться в различных ситуациях общения [Бондарко и др. 1988: 5]. При моделировании спонтанной речи следует учитывать особенности реализации звуков в спонтанной речи, так как почти все они являются потенциальными источниками проблем и множества исключений из правил или вероятностных распределений, выведенных на основе исследования речи, записанной в лабораторных условиях. Поэтому далее представлены основные признаки и свойства спонтанной речи, а также реализации звуков в спонтанной речи.
Многие исследователи отмечают, что в спонтанной речи могут деформироваться различные речевые сегменты, в том числе и отдельные аллофоны. Специфика спонтанной речи описана во многих работах, например [Гейльман 1980, Светозарова 1988, Кузнецов 1997].
Основными универсальными признаками спонтанной речи по сравнению с «идеальной» речью считаются: отсутствие плавности речи; деформация облика слова за счет процессов ассимиляции и редукции; особое просодическое членение речевой последовательности; качественные и количественные отличия в выделенности слов. Эти признаки могут проявляться в следующих фонетических характеристиках речи: во временной организации речевых отрезков, например, темпе речи, акцентно-ритмической организации, длительности звуков речи и пауз; в сегментных характеристиках звуков; Глава 1. Моделирование речевого сигнала в мелодических характеристиках речи, в частности, в значениях частоты основного тона и мелодического диапазона; в значениях интенсивности звуков речи.
Н. Д. Светозарова отмечает, что для спонтанной речи характерны перепады полного произнесения, как ослабление, так и, напротив, усиление сегментных характеристик [Светозарова 2001: 13]. Существенными фонетическими явлениями такого рода среди прочих названы: качественная и количественная редукция гласных; ослабление согласных; выпадение согласных; уменьшение степени контрастности между гласными и согласными в пределах слога.
Говоря о реализации согласных в спонтанной речи, стоит отметить следующие фонетические явления [Гейльман 1983; Гейльман 1988: 27-53, Тананайко и Васильева 2005, Van Son and Pols 1996]: ослабление смычки (спирантизация аффрикат и замена смычных щелевыми); отсутствие взрыва перед паузой (имплозивные согласные); озвончение глухих шумных в интервокальном положении; ассимиляция альвеолярных смычных с губными или велярными; оглушение или, наоборот, вокализация сонантов.
Осциллограмма речевого сигнала и ее анализ
Чаще всего при обработке речевого сигнала применяют два представления речевого сигнала. Во-первых, это первичная форма оцифрованного речевого сигнала, а именно, осциллографическая, которая является амлитудно-временным представлением сигнала (рисунок 1.1). Во-вторых - спектр, содержащий информацию об амплитудных характеристиках частотных составляющих сигнала (рисунок 1.2).
Последнее десятилетие начали применять вейвлеты (wavelets). Этот подход позволяет получать информацию о частотно-временных
Глава 1. Моделирование речевого сигнала составляющих [Choueiter and Glass 2005]. Несмотря на теоретически предполагаемое превосходство вейвлет преобразования над спектральными методами обработки речевого сигнала, его эффективность пока ниже. Єкорей всего это связано с недостаточной разработкой данной группы методов цифровой обработки сигналов, а также с тем, что многие исследователи пытаютсяшока просто перенести приемы, отработанные для преобразования Фурье, на вейвлет-преобразование [Tufekci et al. 2006]; В то время как; вейвлеты обладают совершенно другими свойствами, своими- собственными плюсами: и минусами, которые обычно редко учитываются при применении алгоритмов хорошо зарекомендовавших себя при работе со спектром.
Некоторые исследователи разрабатывают акустические характеристики; учитывая информацию о фазах частотных составляющих речевого сигнала (например [Hegdeetal. 2004]).
Рассмотрим вкратце осциллографическиш и спектральный виды представления цифрового сигнала и. способы их применения для моделирования речевого сигнала, так как на них основаны разработанные в ходе диссертационного исследования акустические характеристики..
Осциллограмма описывает цифровой сигнал в: двумерной плоскости, где координатами являются время и амплитуда сигнала. Сам же сигнал на осциллограмме можно рассмотреть как функцию зависимости амплитуды сигнала от времени A = x(t), где t- это время:
На рисунке 1.1 представлена осциллограмма слова «Крым» (/krim/).
Метка «voc» обозначает гласную вставку между аллофоном /к/ и./г/.
В осциллограмме содержится вся информация о сигнале. Точность цифрового и, соответственно, осциллографического представления сигнала зависит от двух параметров: частоты дискретизации и частоты квантования сигнала. Частота дискретизации - это частота, с которой берутся значения сигнала, и от нее зависит точность отображения сигнала по оси времени. Частота квантования определяет точность, с которой берутся значения амплитуды, от нее зависит точность отображения сигнала по оси амплитуды.
Любое другое представление сигнала или множество акустических характеристик, полученное из осциллограммы, будет содержать меньше или, в лучшем случае, столько же информации.
Спектром называется частотно-амплитудное описание звукового сигнала, т.е. информация об амплитуде различных частот звукового сигнала. Спектр можно рассмотреть как функцию зависимости амплитуды от частоты А = х(со), где со- это частота. На рисунке 1.2 представлена спектрограмма слова «Крым», соответствующая осциллограмме, изображенной на рисунке 1.1.
Системы, распознавания слитной речи, использующие фонетические характеристики
Существует довольно большое количество различных фонетических характеристик или, точнее, акустических коррелятов фонетических характеристик звуков речи. В большинстве случаев они соответствуют дифференциальным признакам фонем. Основные фонетические характеристики, применяемые на данный момент для автоматического распознавания звуков речи, представлены в таблице 2.1. Все эти характеристики являются, в той или иной степени, артикуляторными, так как фонологические системы строятся на основе артикуляторных признаков фонем [Галунов и Гарбарук 2001]. Но при разработке некоторых из них учитываются и особенности человеческого восприятия и обработки речевого сигнала.
Одной из самых ранних систем, использовавших фонетические характеристики, была разработана для распознавания немецкого языка [Schmidbauer 1989]. В ней применялись 19 артикуляторных характеристик, описывавших место и способ образования фонем, которые определялись при помощи классификатора Байеса. На малом корпусе эффективность использования фонетических характеристик была выше, чем эффективность стандартных MFCC. Автор также определил, что эти фонетические характеристики были более дикторонезависимы, чем MFCC.
В работе [Eide et al. 1993] были использованы 14 фонетических характеристик для широкой классификации на фонетические классы и для выделения ключевых слов на материале английского языка.
Характеристики моделировались Гауссовыми распределениями и выделялись из осциллограммы. Результативность системы достигла 70% для корпуса TIMIT4. Кроме того, наблюдалось существенное увеличение эффективности при совместном использовании фонетических характеристик и MFCC с вручную подобранными весами, определяющими относительную значимость акустических характеристик для классификации.
Далсгаард с коллегами использовали фонетические характеристики для многоязычного маркирования [Dalsgaard 1992, Steingrimsson et al. 1995]. Характеристики (20 для датского и 25 для английского) выделялись при помощи самоорганизующихся нейронных сетей.
Возможно, наиболее тщательно разработанная система была сделана Денгом и его коллегами [Deng and Sun 1994, Erler and Freeman 1996]. Авторы использовали 18 многомерных характеристик для описания четырех измерений звонкости, места образования, вертикального и горизонтального движения языка. Они представляли речевой сигнал в виде последовательности артикуляторных векторов, которые определялись по правилам на основании артикуляторных характеристик.
Абделатти Али с коллегами разработали акустический анализатор речевого сигнала для распознавания согласных, который определял звонкость, место и способ образования звуков [Abdelatty АН et al. 1998], в дальнейшем подход был обобщен для распознавания всех фонем.
Проблемой определения основного тона (ОТ) начали заниматься еще на заре развития речевых технологий, в конце 60-х годов. Обзор существовавших тогда методов см. в работе проф. Рабинера [Rabiner et al. 1976]. Из современных систем, в которых применяется акустическая характеристика наличия ОТ, можно назвать системы, разработанные в технологическом университете Аахена (RWTH-Aachen) и Стенфордском исследовательском институте (SRI) [Zolnay et al. 2002, Graciarena et al. 2004].
Методы определения ОТ можно разделить на следующие группы: частотные методы (в частотной шкале); амплитудные методы (во временной шкале); корреляционные методы, (во временной шкале).
Каждая из вышеназванных групп методов имеет свои плюсы и минусы. Поэтому для точного вычисления частоты основного тона (ЧОТ) следует применять их комбинации. Для определения наличия ОТ часто достаточно реализации лишь одного из методов. Чаще всего используют автокорреляционный метод. В рамках данной работы был также реализован алгоритм на основе автокорреляционного метода. Для понимания плюсов именно этого метода рассмотрим все три.
Распознавание гласных по местоположению формант
Для оценки эффективности разработанных и реализованных акустических характеристик, основанных на фонетических принципах, рассмотренных в предыдущей главе, были проведены несколько экспериментов. В ходе экспериментов были проверены следующие методы автоматической интерпретации звуков речи: 1. определение гласных по местоположению их формант; 2. определение согласных по акустическим характеристикам, связанным с местом и способом образования согласных; 3. использование акустической характеристики наличия основного тона в комплексной статистической системе автоматического распознавания слитной речи; 4. использование акустической характеристики сонорности звуков речи в комплексной статистической системе автоматического распознавания слитной речи.
Первые два эксперимента проводились на материале выделенных вручную звуков русской речи, классификация звуков речи основывалась на вычислении Евклидова расстояния. В последних двух экспериментах использовалась комплексная система автоматического распознавания речи, основанная на статистических принципах и включающая в себя самые современные процедуры математического анализа данных, где фонетические характеристики: наличие основного тона и степень сонорности; использовались в качестве дополнительных к общепринятым акустическим характеристикам (MFGC,, PLP). В приложении 2 рассматривается; общая структура использованной системы автоматического распознавания речи.
Предложенный метод распознавания: гласных по формантам синхронно периодам ЧОТ (см. параграф 2.4) был проверен на материале русского языка.
Во время обучения системы распознавания гласных формировались эталоны, акустические характеристики: которых являлись средним арифметическим акустических характеристик гласных,; входящих; в данный; класс: Полученные эталоны использовались далее на; этапе распознавания, во время которого гласные автоматически выделялись из слов, составлявших тестовую часть корпуса; и затем интерпретировались. Звук речи интерпретировался как некий гласный,, если Евклидово расстояние между данным звуком речи и эталоном; соответствующим этому гласному, было меньше расстояния до других эталонов.
Обычно количество классов в базе эталонов генерируется автоматически с использованием различных статистических методов обучения и классификации, например, деревьев принятия решений.
Основными минусами такого подхода является необходимость наличия большого количества обучающих образцов. При этом обучающие образцы должны полностью покрывать все множество возможных реализаций звуков речи, которые могут быть поданы на вход системы автоматической интерпретации. Соответственно, образцы,
предоставляемые для обучения базы, должны отражать всю вариативность произношения носителей данного языка, кроме того, надо учитывать все возможные вариации фонем распознаваемого языка. В русском языке есть не менее 3500 перцептивно различающихся аллофонові Примерно такое количество используется для компилятивного синтеза русского языка [Skrelin 1999; Бондарко и др. 1997].
В данном эксперименте был опробован иной метод формирования базы эталонов. Он основан на использовании априорных знаний о фонологической системе языка и фонетических законах, действующих в русском языке. С лингвистической точки зрения для правильного распознавания любой реализации любого аллофона необходимо иметь в базе эталонов все комбинаторные и позиционные варианты фонем, которые являются лингвистически значимыми для носителей языка. С точки зрения влияния на качество гласного в русском языке важна позиция относительно ударного слога, а также соседство с мягкими согласными [Бондарко 1981, 1998]. Остальными позиционными и комбинаторными изменениями гласных можно пренебречь.