Содержание к диссертации
Введение
1. Состояние вопроса, обзор литературы и постановка основных задач диссертационного исследования 11
1.1. Оценка качества речи в системах передачи речи 11
1.2. Качество речи с точки зрения восприятия речи человеком 12
1.3. Традиционные средства для проверки качества речи в логопедии и при изучении иностранного языка 16
1.3.1. Системы "Видимая речь" и "Визуальный тренажер произношения" 16
1.3.2. "Профессор Хиггинс. Английский без акцента!" 17
1.4. Основные подходы к распознаванию речи 18
1.5. Методы оценки качества речи на основе систем распознавания речи 25
1.5.1. Бельгийская система The DEMOSTHENES 26
1.5.2. Американская система WebGrader 27
1.5.3. Японская система Goh Kawai 28
1.6. Постановка задачи 29
2. Теоретические основы распознавания речи 34
2.1. Динамическое программирование 34
2.2. Скрытое марковское моделирование 37
2.2.1. Определение 38
2.2.2. Алгоритм прямого хода 40
2.2.3. Алгоритм Витерби 42
2.2.4. Обучение скрытой марковской модели, алгоритм Баум-Уэлча 44
2.2.5. Виды скрытых марковских моделей 46
2.2.6. Проблема моделирования длительности состояний 48
2.3. Предсказывающие системы 51
2.4. Применение нейронных сетей для классификации образов 53
2.4.1. Нейронные сети - основные положения 53
2.4.2. Функционирование нейронной сети 57
2.4.3. Обучение нейронной сети 58
2.4.4. Выбор архитектуры многослойной нейронной сети 61
2.4.5. Распознавание образов с помощью многослойной нейронной сети. 62
2.5. Выводы 64
3. Выбор признаков описания речевого сигнала 66
3.1. Особенности речевого сигнала с точки зрения речеобразования 66
3.2. Особенности речевого сигнала с точки зрения восприятия человека 69
3.3. Предварительная обработка речевого сигнала 70
3.4. Признаки речевого сигнала 72
3.5. Выбор признаков описания речи 79
3.6. Эксперимент по сравнению двух систем признаков описания речи 80
3.7. Выводы 89
4. Распознавание изолированных слов и сегментация на фонемы на основе эталонов 90
4.1. Выбор словаря системы распознавания речи 90
4.2. Предварительная сегментация речевого материала 96
4.3. Сегментация в результате распознавания при моделировании на основе эталонов 101
4.4. Качество системы распознавания речи на основе эталонов в зависимости от размера обучающей выборки 104
4.5. Выводы 111
5. Распознавание изолированных слов и сегментация на фонемы на основе скрытых марковских моделей и нейронных сетей 113
5.1. Выбор оптимальной нейронной сети для распознавания речи 113
5.2. Выбор оптимальной архитектуры скрытой марковской модели 119
5.3. Качество системы распознавания речи на основе скрытых марковских моделей в зависимости от размера обучающей выборки 127
6. Автоматическая оценка произношения 132
6.1. Алгоритмы оценки качества произношения отдельной фонемы 132
6.2. Сравнение автоматической оценки произношения отдельных фонем на основе различных систем распознавания речи 134
6.3. Использование автоматической оценки произношения для задачи обучения иностранному языку 143
6.4. Использование автоматической оценки произношения для сравнения систем передачи речи 147
6.5. Программный комплекс автоматической оценки качества произношения. 148
6.6. Выводы 155
Заключение 157
Список литературы 159
Приложение 1 165
Приложение 2 166
Приложение 3 167
Приложение 4 169
- Основные подходы к распознаванию речи
- Эксперимент по сравнению двух систем признаков описания речи
- Выбор оптимальной архитектуры скрытой марковской модели
- Сравнение автоматической оценки произношения отдельных фонем на основе различных систем распознавания речи
Основные подходы к распознаванию речи
Распознавание речи - многоуровневая задача распознавания образов, в которой акустические сигналы исследуются и структурируются в иерархию единиц: подслова (например, фонемы, полуслоги и т.д.), слова и предложения. Каждый уровень может накладывать дополнительные ограничения, например, известное произношение слова или разрешенные последовательности слов, которые могут компенсировать ошибки или неопределенность на более низких уровнях. Эта иерархия ограничений лучше всего используется комбинацией вероятностных решений на нижних уровнях и приемом окончательных решений только на самом высоком уровне. Большинство широко распространенных систем распознавания речи могут быть описаны следующей блок-схемой (рис. 2).
Акустический речевой сигнал представляется последовательностью значений амплитуды через равные промежутки времени. Необработанную речь преобразовывают и сжимают для упрощения последующей обработки. Существует много методов анализа, позволяющих извлечь из акустического сигнала значимые свойства и представить его в компактной форме. Результат анализа сигнала - последовательность векторов речевых признаков, обычно с интервалом в 10 мс, состоящая из 10-40 коэффициентов на вектор. Дополнительно возможно применение процедур типа линейного дискриминантного анализа для уменьшения размерности задачи и декорреляции коэффициентов.
Компоненты системы распознавания речи Существует несколько типов акустических моделей, зависящих от способа представления речевых сигналов, выбранных фонетических единиц, контекста и т.д. На настоящий момент наиболее популярными являются два подхода к акустическому моделированию: подход на основе цельного речевого эталона или шаблонов [6,7 и др.] и подход на основе представления речевого сигнала последовательностью квазистационарных состояний [12, 13, 14, 15 и др.] (рис. 3).
Первый подход предполагает для моделирования единицы речи сохранение всей последовательности векторов признаков. Незнакомое слово может быть распознано сравнением со всеми имеющимися шаблонами, нахождением самого близкого соответствия. Построение эталона само по себе является нетривиальной задачей, поскольку необходимо создать эталон, обеспечивающий максимум меры подобия для некоторой обучающей выборки. В простейшем случае в качестве эталона можно выбирать некоторую реализацию или набор реализаций данной речевой единицы. К достоинствам данного метода можно отнести простоту реализации, легкую обучаемость и универсальность модели.
Моделирование речи с помощью эталонов имеет два основных недостатка [13]. Во-первых, эталон не способен в полной мере учесть акустическую изменчивость речевых сигналов, кроме непосредственного сохранения всех вариантов. Во-вторых, на практике данный метод предоставляет возможность использования только моделей для единиц речи не меньше слова, по причине трудоемкости сегментации речи на меньшие единицы (например, слог или фонема). Однако, для нашей задачи оценки качества произношения звуков, в связи с ограничениями на речевой материал, условия записи и требованиями к произношению (гиперартикуляция), сегментация в принципе возможна, что позволит использовать данную модель.
Более гибкое представление, заключается в подходе к речи как к локально-стационарному процессу на основе скрытых марковских моделях (СММ). В этом подходе каждое слово мо/делируется последовательностью квазистационарных состояний, описанных плотностями распределениями акустических векторов на стационарных участках. Распределения вероятности могут быть промоделированы параметрически, если они имеют простую форму (нормальное распределение), или непараметрически, представляя распределение гистограммой или нейронной сетью.
Акустические модели различаются по степени детализации и контекстной чувствительности [14]: части фонем (необходимое количество-200), фонемы (50), дифоны (2 000), полуслоги (2 000), аллофоны (2 000), трифоны (10 000), обобщенные трифоны (4 000), слога (10 000), слова целиком (количество ограничено только сферой применения системы).
При использовании шаблонов в качестве акустических моделей обычно возникает необходимость в предварительной сегментации речевого сигнала на объекты, на основе которых получены акустические модели. Наиболее простой с точки зрения реализации является сегментация на слова.
Акустический анализ применяет каждую акустическую модель для каждого кадра речи, рассчитывая матрицу оценок. Для акустических моделей на основе шаблонов матрица оценок - обычно евклидово расстояние между каждым кадром шаблона и неизвестным кадром. Для акустических моделей на основе состояний оценка для каждого состояния является вероятностью того, что текущее состояние генерируется текущим кадром, в соответствии с параметрической или непараметрической функцией распределения вероятности. Ввиду временной изменчивости речевых сигналов, для адекватного сравнения эталонов необходимо применять процедуру так называемого временного выравнивания (DTW) [7, 15, 16, 17]. В случае представления речи скрытыми марковскими моделями для нахождения наиболее вероятной последовательности состояний применяют алгоритм Витерби [14, 18, 19, 20]. В результате применения указанных методов выбирается или шаблон, имеющий наибольшую меру подобия, или последовательность наиболее вероятных состояний. В процессе распознавания учитывают ограничения, отражающие тот факт, что речь представляет собой необратимый во времени процесс. Внутри слова последовательные ограничения определяются последовательностью векторов (для модели на основании эталонов), или последовательностью состояний (для моделей на основании состояний), задаваемых лексиконом (словарем) системы распознавания. Между словами последовательные ограничения определяются исходя из предварительно заданных допустимых последовательностей слов -грамматики, используемой языковой моделью.
Рассмотрим основные причины, влияющие на качество распознавания.
Размер словаря, задача и языковые ограничения. Размер словаря и количество ошибок обычно находятся в прямой зависимости, если не задан словарь, специально содержащий трудные для распознавания слова [21]. Ограниченный словарь позволяет лучше устранять неопределенность на уровне слов и повышает процент распознавания [12, 22, 23]. Некоторые ограничения могут накладываться спецификой задачи применения; другие ограничения могут быть семантическими, или синтаксическими. Ограничения часто представляются грамматикой, которая отфильтровывает маловероятные или вовсе невероятные предложения.
Зависимость от диктора. Дикторозависимые системы, обучаясь на конкретном дикторе, дают самый высокий процент распознавания речи на ограниченном словаре. Дикторонезависимые системы так же работают на ограниченном словаре, но показывают меньший процент правильного распознавания из-за невозможности учесть речевые особенности конкретного диктора. Наибольше распространение получили адаптивные системы, требующие перед их применением настройки на конкретного диктора, обучения его специфики речи. Объемы словарей таких систем превышает 5 000 слов [24].
Тип речи. Различают три типа речи: изолированная речь - распознавание отдельного слова; прерывистая речь - искусственное разделение речи короткими паузами; и непрерывная речь - естественно звучащие предложения. Распознавание изолированной и прерывистой речи относительно просто, т.к. легко обнаруживаются границы слова, и слова обычно достаточно четко произнесены. Непрерывная речь более трудна в распознавании: границы слова размыты или вовсе отсутствуют, произношение становится сильно изменчивым. [13, 24].
Чтение или Диалог. Распознавать речь, которая произнесена спонтанно, в диалоге, значительно более сложно, чем речь, порожденную чтением текста, т.к. ухудшается артикуляция, появляются посторонние звуки (покашливание).
Неблагоприятные условия. Эффективность системы может также ухудшаться под воздействием неблагоприятных факторов [25]. Они включают: шум окружающей среды (например, шум в автомобиле или фабрике); акустические искажения (эхо); различие в микрофонах (близкий разговор, всенаправленный микрофон, телефон); ограниченная частотная пропускная способность (в телефонной связи); разговор нескольких людей и т.д.
Эксперимент по сравнению двух систем признаков описания речи
Исследуем применимость для распознавания речи коэффициентов линейного предсказания в сравнении с мел-кепстральными признаками. Эксперименты проводились в среде математического пакета MATLAB 6.0 и в специализированном статистическом пакете STATISTICA 5.5.
В качестве речевого материала - объекта распознавания, используем описанную выше формантную модель образования гласных звуков. Синтезируем гласные "А-О-И-У-Э-Ы" согласно таблице формантных частот с разным уровнем аддитивного гауссового шума. Отношение сигнал-шум в децибелах определяется согласно [82]:
Для получения необходимого соотношения сигнал-шум SNR поступим следующим образом. Рассчитаем для синтезированной гласной мощность сигнала Ps и для синтезированного гауссового шума sN мощность шума PN. Шумовой сигнал с мощностью, обеспечивающей требуемое соотношение сигнал-шум SNR, будем искать в виде:
Согласно кратковременному принципу обработки сигналов, последовательность отсчетов сигнала разбивается на перекрывающиеся окна длительностью 23,2 мс (256 отсчетов) каждые, длительность фрейма 10 мс (при частоте дискретизации 11025 Гц - 110 отсчетов) и подвергается взвешиванию оконной функцией Хэмминга. Согласно методу линейного предсказания [см. формулу (56)] и алгоритму расчета мел-кепстральных признаков речевого сигнала [см. формулу (64)] находим для каждого кадра один вектор признаков в виде набора коэффициентов ЛП (порядок модели 10) и в виде набора мел-кепстральных коэффициентов (13 коэффициентов). Гласные звуки являются квазистационарными сигналами [6], следовательно, для сравнения гласных звуков можно ограничиться рассмотрением только одного вектора признаков для каждой реализации звука.
Сглаженный спектр, рассчитанный на основе коэффициентов линейного предсказания, хорошо согласуется со спектральным представлением гласного звука (рис. 20), т.е. имеет отчетливые максимумы на формантных частотах для данного звука.
1. При фиксированном уровне шумов вектор акустических признаков отдельного гласного звука имеет одномодальное многомерное распределение и распределен по нормальному многомерному закону распределения.
2. Вектора акустических признаков для синтезированного и для реального звука А, произнесенного одним диктором, имеют распределения одинакового вида, что подтверждает высокое качество выбранной модели гласных звуков.
3. Вид распределения вектора акустических признаков позволяет использовать отношение расстояния между центральными векторами различных классов к разбросу векторов внутри каждого класса в качестве критерия оценки качества описания объектов признаками того или иного типа.
Определение качества речи подразумевает проведение измерений в условиях тихого помещения, поэтому в ходе экспериментов отношение сигнал-шум меняется от 26 до 70 дБ с шагом 2 дБ. Для каждого уровня шума синтезируются 500 реализаций каждого гласного звука.
Для каждого типа признаков проведем следующие расчеты. Для каждой гласной Wj рассчитаем внутри группы реализаций центральный вектор jn(WbSNRj) для каждого уровня шума SNRr Рассчитаем разброс D(WitSNRj) реализаций в группе относительно центрального вектора f.i(WhSNRj) согласно евклидовой метрики и дисперсию этого разброса a"(Wl,SNRj). Далее находим расстояния RfjLij,/.(,-) между центральными векторами групп гласных для каждого уровня шума согласно евклидовой метрики. В приложении 2 и 3 приведены зависимости расстояния Rfa ,jU;), разброса D(Wj,SNRj) и дисперсии разброса 3 (Wj,SNRj) от уровня шума для всех пар гласных звуков для признаков на основе ЛП-коэффициентов и мел-кепстральных признаков. В результате проведенных исследований и сравнения гистограмм распределения коэффициентов признаков для обоих типов акустических признаков можно сделать следующие выводы:
1. Описание отдельных гласных звуков с помощью мел-кепстральных признаков позволяет получить лучшее разделение классов в пространстве признаков, чем при использовании признаков на основе модели линейного предсказания.
2. Мел-кепстральные акустические признаки, более устойчивые к шумам, сохраняют более высокую различимость классов при значительных шумах (в рассматриваемом диапазоне 26-70 дБ), чем признаки на основе модели линейного предсказания. Наиболее чувствительными к шумам оказался звуки "У-И-Ы" в парах "У-И", "У-Э", "У-Ы" и "И-Ы".
3. Изменение отношения сигнал-шум на интервале от 70 до 26 дБ привело к тому, что на всей совокупности выборок распределение коэффициентов вектора признаков перестало носить одномодальный характер нормального распределения. При этом наибольшему изменению подверглось распределение вектора признаков на основе линейного предсказания.
4. Для статистического моделирования распределения вектора акустических признаков реальных звуковых сигналов при изменяющемся уровне шумов не достаточно моделирования в виде многомерного гауссового распределения -необходимо представление распределения в виде нормальной смеси.
5. На основании приведенных заключений можно сделать обобщающий вывод о преимуществе описания речевого сигнала мел-кепстральными признаками перед описанием признаками на основе модели линейного предсказания.
Рассмотрим более подробно классы реально произнесенных изолированных гласных звуков одного диктора. Для этого были записаны по 20 реализаций каждого звука, что позволило реализовать около 600 векторов акустических признаков на каждый класс. Отношение сигнал-шум при записи составляло 23,4 дБ, после процедуры предискажения - 35,1 дБ. Осциллограммы (временные отсчеты) реализаций звуков А и И представлены на рисунке 22.
Выбор оптимальной архитектуры скрытой марковской модели
После этапа обучения нейронная сеть моделирует функцию плотности распределения по каждому классу данных: при подаче на вход сети значений признаков объекта х в результате функционирования сети (прямого прохода) на выходе сети для каждого класса w,- рассчитывается оценка апостериорной вероятности P(WJ\X). Оценка правдоподобия p(x\wt) может быть получена согласно правилу Байеса. На рисунке 34 приведены уровни активации выходного слоя нейронной сети при подаче на сеть начальной части обучающего множества, содержащей по одному образцу для каждого слова. На рисунке 35 более подробно показаны уровни активации сети при поданной последовательности векторов признаков слова "СОБАКА".
Из анализа рисунка 35 можно заметить, что сеть успешно научилась классифицировать предъявляемые ей данные, а наибольшие затруднения возникли при разделении или близких классов ("А" и "А в первой степени редукции" слова "СОБАКА", фонемы "С" в разных контекстах в словах "УСЫ" и "СОБАКА"), или классов, для которых сложно было определить точную границу фонем ("К" и последний звук "А").
Отдельное слово словаря системы моделируется последовательностью состояний, представляющих собой классы эквивалентности триграмм, на которые обучена нейронная сеть. На рисунке 36 представлены выходы нейронной сети, рассчитанные для не участвовавшего в обучении НС слова "СОБАКА", отдельно для каждой модели слова из словаря. На рисунке 37 показаны более крупно уровни активации НС только для моделей слов "СОБАКА" и "ЗУБЫ".
Процедура распознавания заключается в расчете оценки правдоподобия для каждой модели слова из словаря (вероятности того, что данная модель является моделью произнесенного слова) и выборе слова, имеющего наиболее высокую оценку. В гибридных системах распознавания речи эта задача может быть решена несколькими способами. Проведем эксперименты по выбору оптимального подхода.
В простейшем случае, в качестве меры подобия каждой модели можно использовать сумму уровней активации выходных нейронов сети вдоль оптимального пути (максимизирующего эту сумму), найденного с помощью алгоритма временного выравнивания. Этот подход применим в силу того, что для каждого фрейма распознаваемого слова обученная сеть в общем случае выдает более высокий уровень активации для правильной фонемы и более низкий для всех остальных.
Поскольку нормированные уровни активации выходных нейронов можно считать оценкой апостериорной вероятности наблюдения каждого класса, то с точки зрения теории скрытых марковских моделей выходы НС необходимо не складывать, а умножать, так же вдоль оптимального пути, максимизирующего общее произведение. Эта задача решается с помощью алгоритма Витерби, подобному алгоритму временного выравнивания. Уровень активации нейрона в случае использовании сигмоиды как активационной функции лежит в диапазоне от нуля до единицы, длина анализируемых последовательностей составляет от 40 до 100 фреймов - при умножении такого количества малых величин имеется опасность превысить разрядную сетку компьютера. Поэтому, обычно переходят в логарифмическую область, где умножение заменяется сложением, и рассчитывают не оценку правдоподобия, а логарифм правдоподобия. Отметим, что при подходе на основе скрытых марковских моделей, необходимо от оценки апостериорной вероятности P(wi\x), рассчитываемой НС, перейти к оценке правдоподобия p(x\Wj) согласно правилу Байеса: P(w,\x) разделить на априорную вероятность класса wh а в логарифмической области - вычесть логарифм априорной вероятности.
Алгоритм временного выравнивания, примененный к выходам НС, не учитывает ограничения на максимальную и минимальную длительность звуков речи. Очевидно, что в результате работы алгоритма может получиться оптимальный путь, не отражающий процесс реального речеобразования и, соответственно, не дающий адекватной оценки правдоподобия.
В стандартной скрытой марковской модели длительность звуков моделируется с помощью экспоненциального закона распределения (см. главу 2), что также неточно отражает реальное распределение длительности фонем. С минимальными накладными расходами (по увеличению количества параметров модели и уменьшению быстродействия алгоритмов) эту модель можно улучшить, разбив каждое состояние СММ на несколько (обычно 2-3), тем самым, вводя ограничение на минимальную длительность нахождения модели в одном состоянии [56] (рис. 38). Распределения вероятности наблюдаемых акустических признаков для каждого нового состояния принимаются одинаковыми с общим макросостоянием, а переходные вероятности СММ рассчитываются как соответствующие частоты переходов модели из одного состояния в другое согласно алгоритму Баум-Уэлча.
В работе [14] показано, что ограничения на минимальную и максимальную длительность фонемы позволяют достичь большей точности распознавания, чем при непосредственном моделировании (параметрическом или непараметрическом) распределений длительности фонем. Все переходные вероятности в графе состояний принимаются равновероятными (рис. 39).
На рисунке 39 показаны уровни активации НС при произносимом слове "ЗУБЫ" для моделей слов "ЗУБЫ" и "ЛУК", изображены маршруты переходов между состояниями при использовании каждой из трех типов СММ:
Из рисунка видно, что для верной модели слова "ЗУБЫ" каждый тип СММ формирует одинаковые маршруты переходов, а для модели слова "ЛУК" первые два типа СММ дают близкие маршруты, не соответствующие процессу речевоспроизведения (звук "Л" получил хценку длительности равную длительности почти всего слова). В таблице 19 приводятся оценки правдоподобия для каждой модели слова и каждого типа СММ.
Из таблицы 19 видно, что СММ типа В обеспечивает максимальную разницу оценки правдоподобия для этих двух моделей слов, что повышает уверенность распознавания.
Заметим, что несмотря на то, что второй фонемой в словах "ЗУБЫ" и "ЛУК" является фонема "У", уровни активации НС в каждом случае различны. Это связано с тем, что классы эквивалентности триграмм звука "У" для каждого из этих слов разные и соответственно разные выходные нейроны отвечают за классификацию этих триграмм. Можно посмотреть, как повлияет на результат распознавания суммирование уровней активации по классам эквивалентности каждой триграммы. Проведем необходимое преобразование выходов НС
Сравнение автоматической оценки произношения отдельных фонем на основе различных систем распознавания речи
Как уже было отмечено выше, речевой корпус нашей системы распознавания спроектирован из условия покрытия множества всех анализируемых звуков, как правильных из проверяемых слов, так и парных им, потенциально ошибочных (для этого пришлось добавить три слова - "СОЛЬ", "ПЕЛЕ", "ОСЕНЬ"). Слова для проверки звуков взяты из [8]. Ниже приводится список трех дефектов произношения, рассматриваемых в нашей работе, проверяемая пара звуков, слова, в которых эти звуки обычно проверяются логопедами и их транскрипция - правильная и с дефектом произношения. Напоминаем, что прописными буквами обозначены твердые звуки, а строчными - мягкие. Алфавит транскрипции приведен в приложении 3.
1. Оглушение звонких согласных:
"3-С" - зубы [ЗуБЫ- СуБЫ], коза [К$3а- К$Са];
"з-с" - узел [узЬЛ- усЬЛ], газета [ГлзэТА- ГлсэТл], зебра [зэБРл- сэБРл].
2. Смягчение твердых согласных:
"Л-л" - лук [ЛуК- луК], пила [пЫЛа- пЫла], дятел [датЬЛ- датЬл]; "С-с" - собака [С$БаКА- с$БаКл], усы [УСы- Уси], нос [НоС- Нос]; "З-з" - зубы [ЗуБЫ- зуБЫ], коза [К$3а- К$за].
3. Отвердение мягких согласных:
"л-Л" - лейка [лэЖл- ЛэЖл], лимон [лИМоН- ЛЫМоН];
"с-С" - сеть [сэт- Сэт], синий [синШ- СЫнШ], гусь [Гус- ГуС];
"з-З" - узел [узЬЛ- уЗЬЛ], газета [ГлзэТА- ГлЗэТл], зебра [зэБРл- ЗэБРл].
В рассматриваемых дефектах произношения одна правильная фонема заменяется другой, также правильной фонемой, а дефект произношения заключается в замене одного звука другим - неправильном употреблении звука. Строго говоря, это положение не совсем верно. Например, француз, произнося слово "ЛУК" и смягчая в нем первый звук, благодаря артикуляционным усилиям, может произнести все же более твердый звук "Л", чем он его же произносит в слове "ЛЮК". Несмотря на это, указанный выше подход в постановки проблемы оценки произношения применим в силу нескольких причин. Во-первых, классы звуков в пространстве акустических признаков чрезвычайно размыты. Во-вторых, выбирая в качестве реперных опорных точек классы корректных фонем, мы имеем возможность с помощью процедуры оценки правдоподобия или степени близости в пространстве признаков оценить, к какому звуку ближе всего по звучанию анализируемый звук.
В каждом эксперименте (определенный дефект произношения, оцениваемый звук и слово для проверки) словарь системы распознавания составлялся из правильного и ошибочного варианта произношения проверяемого слова. При использовании скрытых марковских моделей модель слова с дефектным произношением строится следующим образом: в модели с правильным произношением проверяемый звук (а точнее класс эквивалентности триграмм) заменяется ошибочным звуком. Поскольку СММ слова определяется последовательностью состояний (акустических моделей отдельных фонем), задаваемой транскрипцией этого слова, то построение модели с ошибочном произношением сводится к заданию транскрипции этого слова (при условии, что в нейронной сети имеются акустические модели всех необходимых фонем). Эта процедура несколько сложнее в случае распознавания на основе эталонов слов. В обучающей выборке, которая составляет словарь системы распознавания, присутствуют только эталоны слов с правильным произношением. Теоретически, максимальной эффективности можно достигнуть, если добавить в обучающую выборку речевые образцы от дикторов, имеющих анализируемые дефекты произношения. Сбор такого речевого материала достаточно трудная задача. С другой стороны, предполагается, что в рассматриваемых дефектах произношения одна правильная фонема заменяется другой, также правильной фонемой. Все необходимые правильные звуки с учетом контекста представлены в обучающей выборке. Следовательно, в этом случае составление моделей слов с неправильным произношением заключается в конструкции соответствующих эталонов. Напомним, что эталон представляет собой последовательность векторов акустических признаков отдельного образца слова. Для получения эталона неправильного произношения слова поступаем следующим образом:
1. Согласно транскрипции слова с неправильным произношением определяем класс эквивалентности триграмм необходимого звука.
2. По транскрипции слов с правильным произношением определяем слово, содержащее необходимый класс эквивалентности.
3. Из эталона правильного произношения слова заменяем последовательность векторов признаков, представляющих анализируемый звук, на последовательность векторов признаков найденного звука.
4. Корректируем описание сегментации нового эталона.
Следуя приведенной методике получаем по 3 эталона неправильного произношения на каждое проверяемое слово для каждого диктора.
Все последующие эксперименты проведены только для образцов речи дикторов мужского пола. Собраны два множества речевых данных для проверки качества произношения: слова с правильным произношением (до 10 экземпляров от одного слова от 8 дикторов), слова с неправильным произношением (в таком же объеме). С учетом того, что рассматриваемые дефекты произношения заключаются в замене одного звука другим, неправильного произношения легко добиться после небольшой тренировки, что и было успешно реализовано.
Эксперимент по определению процента распознавания выбранных дефектов произношения проведем в два этапа. На первом этапе системе распознавания предъявляются правильно произнесенные слова - определяется процент распознавания правильных звуков. На втором этапе предъявляются слова с дефектами произношения - определяется процент распознавания замененных звуков. На основании полученных величин рассчитывается общий процент распознавания.
Из формул (76) и (77) видно, что оценка качества произношения отдельной фонемы определяется по оценке звукового сегмента, определенного на этапе принудительного выравнивания. Очевидно, что в том случае, если границы сегмента не определены правильно (с учетом неоднозначности границ в 2 - 3 фрейма), оценка качества произношения фонемы по этому сегменту будет бессмысленна, т.к. сегмент будет включать значительную часть соседнего звука. Следовательно, в первую очередь определим процент правильно найденных сегментов при использовании системы распознавания на основе эталонов и на основе СММ.
Результаты эксперимента по оценке процента корректной сегментации для правильно произнесенных слов и слов с дефектами произношения приведены в таблицах 25 и 26.