Содержание к диссертации
Введение
Глава 1. Основные положения информационной теории восприятия речи 15
1.1. Задача фонетического анализа слитной речи 15
1.2. Метод обеляющего фильтра 25
1.3. Результаты экспериментальных исследований 39
1.4. Выводы 47
Глава 2. Формирование словаря эталонов элементарных речевых единиц 48
2.1. Задача классификации элементарных речевых единиц 48
2.2. Результаты экспериментальных исследований 54
2.3. Критерий минимума суммы информационных рассогласований ...66
2.4. Выводы 72
Глава 3. Элементы информационной системы фонетического анализа слитной речи 73
3.1. Архитектура и интерфейс блока ввода информационной системы73
3.2. Используемые средства для программирования 80
3.3. Оптимизация параметров информационной системы 90
3.4. Выводы 106
Глава 4. Формирование фонетической базы данных группы дикторов 107
4.1. Постановка задачи 107
4.2. Структурирование фонетической базы данных методом дерева .. 111
4.3. Переопределение дерева фонетической базы данных 120
4.4. Выводы 126
Заключение 127
Список литературы 130
Приложение 143
- Результаты экспериментальных исследований
- Критерий минимума суммы информационных рассогласований
- Оптимизация параметров информационной системы
- Структурирование фонетической базы данных методом дерева
Введение к работе
Актуальность темы исследований. Большинство современных методов автоматической обработки речи основывается на процедуре предварительного сегментирования сигналов на короткие отрезки данных. В результате задача сводится к поэтапному анализу речи. На первом, базовом этапе, формируются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором, заключительном этапе, исследуются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В результате, задача формирования ЭРЕ и фонем является неотъемлемой частью фонетического анализа слитной речи (ФАР) в общем случае. Соответственно, работа всей системы автоматической обработки во многом зависит от эффективности фонетического анализа речи. При этом состав и качество базового словаря, или фонетической базы данных (ФБД), некоторого фиксированного объема R < во многом определяют достигаемое качество ФАР. Поэтому формирование или настройка ФБД является ключевой для большинства современных методов автоматической обработки сигнала. В информационной теории восприятия речи (Савченко В.В. Информационная теория восприятия речи. // Известия вузов России. Радиоэлектроника. - 2007. - Вып.6) для решения указанной задачи предложена модель «фонетического дерева)) и информациошшй (Я +1)-элемент. В основе функционирования последнего используется статистический подход к задаче R-альтернативного распознавания образов и критерий минимума информационного рассогласования распределений (МИР) в метрике Кульбака-Лейблера. В отличие от других известных алгоритмов информационный (Д + 1)-элемент имеет дополнительный (Л + 1)-йвыход, который сигнализирует об отказе при распознавании образов одновременно от всех возможных R альтернатив. Данная особенность может служить, в свою очередь, основой для построения эффективного алгоритма статистической классификации сигналов «без учителя», когда ни точные распределения-классы Vr}, ни их суммарное число R исследователю заранее не известны. Теории и практике осуществления анализа речи на основе принципа минимума информационного рассогласования распределений (МИР) и посвящена представленная диссертация. Ее тема представляется актуальной одновременно по ряду причин.
Во-первых, информационная теория восприятия речи (ИТВР) представляет собой одну из наиболее перспективных ветвей развития акустической теории речеобразования, которая своими корнями уходит в классические работы Г. Гельмгольца 1870-х г.г. /см., напр., Helmholtz Н. Die Lehre von der Tonempfindungen als physiologische Graudlage fur die Theorie der Musik, Braunschweig, 1870/. Основная идеология этих работ осталась без изменения до настоящего времени, и в явном или неявном виде принимается большинством современных специалистов в области обработки речи. При этом, конечно, учитывается целый ряд математических и технико-технологических усовершенствований, введенных и исследованных в работах Т.Чибо и М.Каджияма (Chiba Т., Kajiama М. The vowel, its nature and structure. - Tokyo,1941), Г.Фанта (Акустическая теория речеобразования.- М.: Наука, 1964) и ряде других работ последнего периода (см., напр., 1. Kent R.D at al.(Eds) Papers in Speech Communication: Speech production, Ac.Soc.of America, 1991; 2. Сорокин В. H. Теория речеобразования. - М.: Радио и связь, 1985; 3. Фланаган Дж. Л. Анализ, синтез и восприятие речи. - Связь., М.: 1968). Среди работ российских авторов в
данном направлении следует отметить, прежде всего, тематический цикл работ проф. Галунова В.И. (см., напр., Галунов В.И., Соловьев А.Н. Современные проблемы распознавания речи // Информационные технологии и вычислительные системы, 2004, №2). ИТВР в своей идеологии следует в русле гипотезы Л.А. Варшавского и И.М. Литвака о том, что качество звуков зависит, в основном, от уровня соотношений мощности в соседних спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. Проблема состоит в том, что особенности формы частотных спектров мощности сильно варьируются (изменяются произвольным образом) не только от одной ЭРЕ к другой, но и от одного диктора к другому в пределах одной и той же ЭРЕ и даже в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов речи. Данный эффект в теории обработки речи известен как проблема вариативности устной речи. До настоящего времени она является главным препятствием на пути автоматического формирования речевых баз данных, включая и ФБД как их фундаментальную разновидность. Как следствие, все существующие на данный момент речевые или фонетические базы данных, как в нашей стране, так и за рубежом (см., напр., 1. Галунов В.И. и др. Коллекция речевых баз данных.: Труды XXXIII Международной филологической конференция. - СПб., 2005; 2. - ИС Nuance speech recognition, 8.0) основываются, как правило, на эвристических процедурах обработки речевого сигнала. В противовес всем им ИТВР предлагает строгий подход к решению проблемы вариативности речи - на основе теоретико-информационного определения самого понятия «фонема». В этом состоит второй довод в подтверждение актуальности темы диссертационной работы.
Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря эталонов элементарных речевых единиц, образующих звуковой (фонетический) строй разговорной речи.
Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра для систем фонетического анализа слитной речи. Для достижения этой цели в диссертации решались следующие задачи:
1. Поставлена задача автоматического распознавания элементарных речевых
единиц и проанализированы подходы для ее решения.
2. Исследовано влияние нормировки элементарных речевых единиц на
величину информационных рассогласований между реализациями каждой фонемы
и, как следствие, на эффективность системы фонетического-анализа-речи.
3. Исследовано влияние словаря эталонов элементарных речевых единиц на
результирующие характеристики системы фонетического анализа речи.
Разработан новый, двухэтагшый алгоритм формирования словаря эталонов элементарных речевых единиц на основе критерия минимума информационного рассогласования.
Разработан программный блок обработки входных данных для информационной системы фонетического анализа речи.
Исследованы новые подходы к решению задачи формирования фонетической базы данных по группе дикторов.
7. Разработан новый метод сравнительного анализа фонетического состава речи одного диктора относительно друїого на основе их объединенного фонетического дерева.
Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории вероятностей, теории сигналов, а также информационной теории восприятия речи.
Научная новизна работы состоит в следующем:
Разработан новый двухэтапный алгоритм, автоматического формирования ФБД из слитной речи, отличающийся от известного одноэтапного дополнительной процедурой объединения в единый сегмент данных одноименных смежных сегментов речевого сигнала по критерию минимума информационного рассогласования. Благодаря указанному отличию повышается точность последующего авторегрессионного анализа и в след за ней качество формируемой ФБД в теоретико-информационном смысле.
Получены экспериментальные оценки эффективности ФАР в зависимости от значений параметров разработанного алгоритма в сравнении с теоретическими оценками. Даны рекомендации в отношении выбора оптимальных значений параметров: порядка авторегрессионной модели речевого сигнала типа ЭРЕ, длины сегмента, порога по величине информационного рассогласования при сегментации (1 этап), а также порога по величине информационного рассогласования при кластеризации (2 этап).
Впервые определены экспериментальные оценки выигрыша по эффективности ФАР за счет автоматической нормировки ЭРЕ в разработанном алгоритме; показано, что предложенная нормировка привела к уменьшению вариации величины информационного рассогласования в пределах множества реализаций фонем, за счет чего вероятность перепутьшания ЭРЕ при их автоматической классификации в асимптотическом случае (при большом объеме выборки) понизилась в среднем на порядок: с 4,5% до 0,5% для контрольной последовательности из десяти наиболее распространенных фонем.
Разработан новый метод сравнительного анализа речи, который основан на структурировании словаря эталонных ЭРЕ в виде фонетического дерева одного диктора и его переопределения фонетическим составом другого диктора, используя информационную метрику Кульбака-Лейблера. Показано, что чем сильнее отличается фонетический состав дикторов, тем большее новых «листьев» добавляется в переопределенное . фонетическое дерево, что позволяет дать количественные оценки качественных различий фонетических составов.
Практическая ценность работы состоит в том, что разработанный алгоритм и его модификации могут быть применены в современных системах обработки речи-, как на основе существующей структуры и состава таких систем, так и путем включения в эти системы в качестве вспомогательных (дополнительных) блоков для обработки и подготовки данных в режиме обучения.
Разработанный алгоритм был использован при создании программного блока обработки речевого сигнала по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042-офи (ориентированные фундаментальные исследования) «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством д.т.н., проф.- В.В. Савченко. В составе «Информационной системы фонетического анализа слитной речи» он
зарегистрирован в государственном реєстре программ для ЭВМ под № 2008615442 - по заявке 2008614233 от 15.09.2008.
Решением Ученого совета НГЛУ от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс для студентов и аспирантов лингвистических специальностей.
Достоверность полученных результатов подтверждается протоколом натурных испытаний лабораторного образца информационной системы, разработанного на основе предложенного алгоритма фонетического анализа речи.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ, 2007), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008), а также на трех (2006 - 2008) научных семинарах кафедры «Математика и информатика» НГЛУ.
Личный вклад автора заключается в разработке нового алгоритма автоматического формирования фонетической базы данных из речевого сигнала. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в составе информационной системы фонетического анализа слитной речи, поставлены и проведены экспериментальные исследования алгоритма на речевом сигнале от группы дикторов. Кроме того, в соавторстве с научным руководителем (50%), разработан метод сравнительного анализа фонетического состава речи разных дикторов на основе их объединенного фонетического дерева.
Публикации. Основные результаты, полученные в диссертации, опубликованы в одиннадцати работах, в том числе в шести статьях, среди которых две статьи - в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии». Полный список публикаций представлен в заключительной части автореферата.
Основные положения, выносимые на защиту:
1. Проблема оптимальности словаря эталонов элементарных речевых
единиц является ключевой проблемой для большинства современных методов
фонетического анализа речи, таких как метод обеляющего фильтра и другие; их
эффективность сильно варьируется при изменении состава обучающей выборки.
Использование оптимальных свойств решающей статистики минимума информационного рассогласования в предложенном двухэтапном алгоритме автоматического формирования фонетической базы данных по методу обеляющего фильтра с нормировкой ' элементарных речевых единиц в значительной мере ослабляет указанную проблему. Как следствие, границы применения алгоритма выходят за рамки гауссовых распределений сигналов.
Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает качественные характеристики, которые используются в основе метода объединенного фонетического дерева.
Структура и объем работы. Диссертационная работа включает введение, четыре главы, заключение, список используемой литературы и приложения. Вся работа изложена на 174 страницах текста, включающих 49 рисунков, 18 таблиц, 32 страницы приложения. Количество библиографических ссылок - 114.
Результаты экспериментальных исследований
Для практического исследования фонетического анализа слитной речи был поставлен и проведен эксперимент по автоматической обработке и распознаванию десяти наиболее характерных фонем: гласных «а», «и», «о», «э», взрывных согласных «б», «р», назальной «н», и шипящих «ф», «ш», «щ».
Для каждой фонемы на этапе подготовки данных было сформировано 20 файлов данных - по двадцати её независимым реализациям, полученным от одного диктора в разное время и в разных условиях. При этом использовался бытовой микрофон, персональный компьютер марки PENTIUM-4 и встроенный АЦП с частотой дискретизации 8 КГц, которая согласовывалась по теореме Котельникова с полосой частот стандартного телефонного канала связи. Причём каждая реализация предварительно нормировалась по своей средней мощности к некоторому фиксированному уровню. В результате был сформирован экспериментальный словарь X = {xrJ,r = \j0,j = V20}.
Из этого словаря для каждой фонемы был выбран один массив х в качестве её эталонной реализации длиной 0,03 с 8000 Гц = 240 отсчётов. При этом в каждом случае выбирались наиболее типичные (на слух и вид) реализации. В результате был сформирован словарь эталонов Х = {х яеї, г = 1Д0}. В соответствии с формулировкой МОФ (1.2.12) по каждому массиву данных из словаря эталонов были рассчитаны вектор коэффициентов авторегрессии Аг порядка к=20 и соответствующая дисперсия порождающего шума 72г. Такая задача обычно решается с применением рекуррентных вычислительных процедур с высокой скоростью сходимости [53]. Далее проводился расчет вероятности правильного распознавания каждого элемента из экспериментального словаря. Приведем описание экспериментальной установки системы распознавания речевых единиц. На схеме приведены следующие сокращения: И - источник речевых сигналов, содержит звуки из экспериментального словаря. БПО - блок предварительной обработки, осуществляющий центрирование сигналов, деление на сегменты и нормирование по ДПШ. ОФ - обеляющий фильтр с загруженными из словаря эталонов АР коэффициентами. СЭ - словарь эталонов, содержащий АР коэффициенты распознаваемых слов. СС - схема сравнения и выдачи решения. Определяет фильтр из набора, на котором решающая статистика минимальна и сравнивает результат распознавания с порогом. Результатом является суждение о верности распознавания ("1 "-распознал, с0"-не распознал). ГТИ - генератор тактовых импульсов для запуска макета. Сч1 - счётчик верно распознанных сегментов. Сч2 - счётчик распознаваемых сегментов. Д - делитель, определяющий вероятность распознавания сегментов. Принцип работы экспериментальной установки заключается в следующем:
Источник речевых сигналов И выдаёт речевые сигналы по команде генератора тактовых импульсов ГТИ. БПО осуществляет центрирование сигналов, деление на сегменты и нормировку по дисперсии порождающего шума. ОФ, в данном случае, набор обеляющих фильтров, настроенных по существующему словарю эталонов. На выходе ОФ получается дисперсия некомпенсированного остатка сигнала. Получившаяся дисперсия сравнивается с порогом и СС вырабатывает сигнал типа "1", если произошло верное распознавание сегмента и "О", если произошла ошибка. Таким образом, накопитель Сч1 считает количество верно распознанных сегментов за всё время распознавания. Накопитель Сч2 считает общее число сегментов, поданных на ОФ. Делитель Д вычисляет отношение правильно распознанных сегментов к общему числу сегментов, иначе говоря, вычисляет вероятность правильного распознавания сегмента. Естественно предполагается, что словарь эталонов уже создан и распознаваемые сегменты содержатся в экспериментальном словаре. Результат работы описанного алгоритма в табл. 1.3.1.
Наихудший результат получен при распознании фонемы «а». Причём, три реализации данной фонемы были перепутаны с фонемой «р» и одна с «ф». Это хорошо согласуется с данными теоретического анализа. По формуле (1.2.16) с использованием словаря эталонов была получена оценка величин информационных рассогласований для двух фонем «а» и «р», равная 0,784. Подставляя её в формулу (1.2.18), в которой m= 55, т =0,671, будем иметь avi = 0,5[1-Ф{0,867}]:=0,19 [61]. Отметим, что полученный результат существенно хуже аналогичных результатов при распознавании целых слов целиком. В этом состоит главная особенность автоматического распознавания ЭРЕ: их спектральный состав значительно беднее спектра мощности целого слова. Для решения данной проблемы ниже предлагается использование метода обеляющего фильтра с нормированием элементарных речевых сигналов по дисперсии порождающего шума в их АР-модели (1.2.19).
Эффективность алгоритма (1.2.14) была исследована экспериментально по предыдущей схеме вычислений с применением сформированных ранее экспериментального словаря и словаря эталонов. Полученные результаты сведены в табл. 1.3.2. Видно, что частота ошибок при распознавании фонемы «а» здесь сократилась до нуля. Для всех других фонем при этом достигается аналогичный эффект.
Критерий минимума суммы информационных рассогласований
Для распознавания речи необходимо сформировать набор речевых единиц, которые мы будем считать эталонными. С этими эталонами мы будем сравнивать вновь поступающие фрагменты речи, и по критерию максимальной близости к тому или иному эталону принимать решение о том, какой это сигнал [84]. Вычисление степени близости сигналов друг к другу проводится с помощью ранее описанных способов параметризации сигналов.
В соответствии с ИТВР все множество ЭРЕ в сознании человека разбивается на конечное число подмножеств, имеющих четкие границы. В связи с этим для обработки слитной речи на предварительном этапе необходимо сформировать классифицированный набор реализаций ЭРЕ.
После классификации возникает следующий вопрос: что же брать в качестве образа каждого такого класса? Основная проблема при вычислении параметров - это проблема малых выборок. Поскольку, как уже было сказано ранее, установленный период времени, на котором параметры речи не изменяются, составляет десятые доли секунды, следовательно, сегмент речи должен иметь длину, равную величине примерно такого значения. Естественно, что для оценки параметров сигнала, выборка такой длинны состоятельной быть не может. Решать эту проблему можно с помощью метода минимума суммы информационных рассогласований, который заключается в нахождении информационного центра по множеству различных реализаций одной фонемы. По найденной реализации, максимально приближенной к информационному центру, вычисляются параметры ЭРЕ. Рассмотрим эти вычисления подробнее.
Заметим, что внутри каждого такого класса информационный центр определяется аналогично поиску центра масс для множества точечных элементов. Реализацию, расположенную максимально близко к такому центру масс, будем считать эталонной, а ее образ будем считать образом всего класса.
Пусть R - количество подмножеств, полученных при классификации слитной речи. Количество реализаций r-то класса обозначим Lr.
Поскольку ВИР (1.2.19) не симметричная функция, то есть ptJ Ф р для определения информационного центра воспользуемся усредненной величиной информационного рассогласования:
Далее будем минимизировать сумму ВИР (1.2.19) в пределах множества вершин каждой из ветвей дерева, то есть по числу реализаций в каждом классе элементарных речевых единиц[85].
Используя предложенный подход, найдем согласно правилу ИТВР [1] величину суммарного информационного рассогласования для каждой вершины с остальными в классе. После этого реализация с минимальным значением суммарного информационного рассогласования S n выбирается в качестве эталонной, параметры которой становятся образом всего класса.
Полученный результат можно графически проиллюстрировать следующим образом. Отобразим отдельные вершины (реализации) каждой ветви (класса) в виде точек на плоскости (рис. 2.3.1). Реализации одного класса очерчены окружностью. Тогда точка с минимальной суммой расстояний выступает в роли своеобразного «центра массы» заданного множества (2.3.1) - это и есть признак оптимального эталона [86].
В качестве примера возьмем фонемы «А» и «Ш» из раздела 2.2. и найдем по ним симметричные матрицы значений Д; .. Полученные результаты в табл. 2.3.1 и 2.3.2 соответственно. ВИР оптимального эталона фонемы «Ш» 0,9579 0,8925 0,5685 0,3236 0,5725 Вектор коэффициентов линейного предсказания первой реализации фонемы «А» будет являться образом всего класса фонемы «А». В свою очередь, вектор коэффициентов линейного предсказания четвертой реализации фонемы «Ш» будет являться образом всего класса фонемы «Ш».
Набор образов каждого класса или эталонных реализаций ЭРЕ для всех классов называют словарем эталонов ЭРЕ. Ясно, что во многом его оптимальность определяет качество работы системы распознавания речи. Задачи формирования словаря эталонов ЭРЕ и его оптимизации под конкретного диктора или группу дикторов, несомненно, представляются интересными.
Применяя критерий поиска эталонной реализации (2.3.2) ко всем пополняющимся классам на каждом шаге формирования словаря эталонов ЭРЕ (1.2.19), (2.1.3), ... (2.1.5), сформулируем наш алгоритм следующим образом: 1. Нахождение эталонных реализаций по всем уже сформированным классам (словаря эталонов);
Оптимизация параметров информационной системы
Перед тем как предпринимать попытки распознавания речи, нужно выполнить предварительную обработку речевого сигнала. В ходе этой обработки следует удалить шумы и посторонние сигналы, частотный спектр которых находится вне спектра человеческой речи. Такую обработку можно выполнить при помощи аналоговых или цифровых полосовых фильтров.
Отфильтрованный звуковой сигнал нужно оцифровать, выполнив аналого-цифровое преобразование. Всю предварительную обработку звукового сигнала можно сделать при помощи стандартного звукового адаптера, установленного в компьютере. Дополнительная цифровая обработка звукового сигнала (например, частотная фильтрация) может выполняться центральным процессором компьютера. Таким образом, при использовании современных персональных компьютеров системы распознавания речи не требуют для своей работы какого-либо специального аппаратного обеспечения. Вычисления производились на персональном компьютере с процессором марки Pentium IV и встроенным АЦП. Частота дискретизации речевого сигнала 8 кГц была согласована с полосой стандартного (бытового) микрофона 4 кГц.
Важным этапом предварительной обработки входного сигнала является нормализация уровня сигнала. Это позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости.
Заметим, однако, что если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум. Поэтому для успешной работы системы распознавания речи необходимо отрегулировать оптимальным образом чувствительность микрофона.
Чрезмерная чувствительность может привести к нелинейным искажениям сигнала и, как следствие, к увеличению погрешности распознавания речи.
Для нашего исследования ограничим набор фонем, произнесенных диктором. Для этого будем формировать словарь эталонов ЭРЕ по десяти названиям числительных русского языка: «ноль», «один», «два», «три», «четыре», «пять», «шесть», «семь», «восемь», «девять». Каждое из числительных было записано сто раз, т.е. объем базы распознаваемых слов составлял тысячу речевых сигналов. отвечающих определенным требованиям, которые были изложены выше.
Проанализируем полноту базы данных. В нее входили по одной реализации слова каждого числительного. Слова выбирались случайным образом. Далее создавалась БД из отдельных сегментов по каждому числительному методом описанным выше.
Будем распознавать другие реализации слов числительных по сформированной БД. Если сегмент слова не относится ни к одной из эталонных ЭРЕ, то утверждаем, что сегмент распознан ошибочно.
На рисунках изображены долевые диаграммы вероятностей правильного распознавания при различных параметрах системы. В таблице под диаграммой приведено количество верно и ошибочно распознанных сегментов. уменьшении длины сегмента вероятность правильного распознавания сегментов улучшается. В частности, при распознавании сегментов слова "ноль", вероятность правильного распознавания увеличилась более чем на 12% (82% до 94,1%), что, несомненно, можно считать отличным результатом. Повышение порядка фильтра ведет к увеличению вероятности правильного распознавания сегментов. Это объясняется тем, что при большем порядке обеляющего фильтра спектр сигнала получается более изрезанным и, следовательно, информационно ёмким.
Но повышение порядка модели не всегда позволяет увеличить вероятность правильного распознавания - существует предел (для каждого сигнала в отдельности), при достижении которого распознавание сигнала ухудшается [92]. Поэтому значение порядка модели выбиралось в пределах от 12 до 20.
При проведении эксперимента был подобран порог расхождения информационного рассогласования между сегментами, равный 1. При увеличении или при уменьшении порога вероятность ошибочного распознавания сегментов увеличивается. Это говорит о том, что при формировании базы данных необходимо учитывать все факторы: порядок модели, длину сегмента и порог информационного рассогласования между сегментами. А так же можно сделать вывод, что при длине сегмента 80 отсчетов и порядке модели 20 наша база данных практически полная. Рассмотрим режимы кластеризации в зависимости от имеющихся настроек БВФ. Порог по количеству реализаций ЭРЕ в группе (в кластере); Порог по ВИР одноименных ЭРЕ нового диктора.
В качестве тестового сигнала был взят фрагмент слитной речи, содержащий все буквы русского языка. БС в этом случае выделял сегменты в режиме 1 с длинной сегмента 120 отсчетов, то есть разбивал тестовый сигнал на отрезки равной длительности по 15 миллисекунд. Варьируя величину информационного порога, получим зависимость числа кластеров (фонем) от ВИР. Результаты экспериментальных исследований приведены на рисунке 3.3.13 для случая: а) когда кластер содержит не менее 2 реализаций, то есть порог по количеству реализаций ЭРЕ в группе равен 2; б) объем кластера не ограничен, то есть порог по количеству реализаций ЭРЕ в группе равен 1.
Структурирование фонетической базы данных методом дерева
Структурирование фонетической базы данных в виде дерева необходимо для решения ряда задач. Первостепенные из них - это характеристика качества речи конкретного диктора на базовом, фонетическом уровне, а также сравнение группы дикторов по составу их речи [99]. Следуя указанным целям, отметим важнейшую в общем случае проблему сопоставимости результатов фонетического анализа речи разных дикторов между собой. Фонетический состав, и особенно индивидуальные характеристики фонем могут сильно различаться у разных дикторов. Тогда как же следует сравнивать их между собой? Эта проблема, по-видимому, не имеет строгого решения ввиду принципиальной субъективности фонетического анализа речи, хотя бы по причине субъективного подхода к выбору его параметров в (2.1.2) и (2.1.3) еще на этапе формирования базы данных. Однако актуальность проблемы от этого не уменьшается. Поэтому ниже предпринята попытка сравнительного фонетического анализа речи на основе метода дерева элементарных речевых единиц. Структурирование базы данных может быть проведено множеством вариантов. Критериями выбора метода в нашем случае служит облегчение в дальнейшем анализа состава базы данных, а также сравнение нескольких баз между собой. Наиболее удобным в этом смысле представляется вариант бинарного дерева, при котором поиск оптимума согласно критерию максимума правдоподобия сводится к последовательности нескольких дихотомий [100].
Программа, предназначенная для построения фонетической базы данных в виде дерева (в простом варианте бинарного дерева) фонем может быть реализована, как дополнение к информационной системе фонетического анализа слитной речи. Рассмотрим принцип ее работы подробнее [75]. Все множество альтернативных распределений {\Vr} разобьем сначала на R2 всевозможных пар щ,1У\ i,j R, и для каждой из них согласно критерию МИР вычислим удельную величину их взаимного информационного рассогласования где Xt - n-выборка из і-ой генеральной совокупности Wt. Из них два распределения t.j с максимальным значением величины информационного рассогласования между собой образуют первый ярус, или уровень, нашего «дерева».
Назовем их «вершинами» первого уровня. Разобьем (сгруппируем) после этого элементы исходного множества {Wr} на два подмножества по принципу их максимальной близости (в смысле Кульбака-Лейблера) к одной из двух сформированных нами вершин: Отметим, что при равенстве рассогласований вершина W1 войдет одновременно в оба множества Q и Qr. Этим учитывается множественный характер каждого образа: часть его реализаций (или образцов) может оказаться ближе к вершине W0, а другая часть - к Wr. В пределах каждого подмножества из выражения (4.2.3) найдем следующую пару наиболее рассогласованных между собой вершин (4.2.2). В результате получим второй уровень «дерева». Затем для каждой полученной пары вершин {jg,Wy) в пределах соответствующих множеств Q0 и Qy повторим процедуру группирования составляющих их распределений в два очередных подмножества (4.2.3) и определим по ним согласно (4.2.2) вершины третьего уровня. И так далее до тех пор (порядка log R раз), пока подмножества (4.2.3) очередного уровня не выродятся каждое в одну пару распределений (й И7,) - это «листья» или «вершины» последнего уровня нашего «дерева». На этом завершается построение «дерева» ЭРЕ - это первый этап фонетического анализа речи. Разным дикторам будут отвечать разные «деревья».
Однако возможен и дальнейший, более детальный сравнительный анализ на основе переопределения «дерева» данными от двух и более дикторов. До настоящего времени метод дерева применялся почти исключительно для поиска детерминированных объектов [101]. Понятие «речевой сигнал» в эту модель никак не укладывается. Напротив, его принципиальной особенностью является общеизвестная проблема вариативности реализаций (образцов) речи от одного произношения к другому [102, 103]. Указанная проблема, безусловно, ограничивает область определения дерева по схеме (4.2.1)...(4.2.3), причем в каждом конкретном случае по-разному. Например, даже без строгого анализа ясно, что надежнее других распознаются по выборке X те распределения {Wr}, которые характеризуются высокой степенью взаимного информационного рассогласования.
Напротив, распознавание «близких» в теоретико-информационном смысле распределений [104] неизбежно сопровождается увеличением вероятности ошибочных решений. Правда, идея «переспроса» [45] и в этом случае способна существенно улучшить характеристики эффективности, но только за счет применения дополнительного источника информации. Определенный оптимизм по данному поводу вызывает и доказанное в работе [105] свойство монотонности ВИР. Из него следует вывод о том, что используемый в методе переопределенного дерева набор решающих статистик в определенном смысле непрерывен относительно вариаций анализируемых сигналов. Причем вариация минимальной решающей статистики МИР от одной реализации сигнала Xv к другой существенно зависит от альтернативных распределений Wr, г ФУ. чем «ближе» они находятся по своим параметрам к W , тем меньше вариация. Напомним, что именно близкие друг к другу распределения и порождают, главным образом, проблему ненадежного распознавания сигналов. Таким образом, благодаря применению критерия МИР указанная проблема только ослабляется.