Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Зулкарнеев Михаил Юрьевич

Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях
<
Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зулкарнеев Михаил Юрьевич. Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях : диссертация ... кандидата физико-математических наук : 05.13.18.- Ростов-на-Дону, 2006.- 128 с.: ил. РГБ ОД, 61 07-1/192

Содержание к диссертации

Введение

1 Математические модели, методы и алгоритмы поиска ключевых слов, основанные на скрытых Марковских моделях 13

1.1 Байесовский критерий минимума средних потерь 14

1.2 Предобработка акустического сигнала 16

1.3 Моделирование акустического сигнала при помощи скрытых Марковских моделей 21

1.3.1 Определение скрытой Марковской модели 21

1.3.2 Моделирование акустического сигнала при помощи СММ 22

1.3.3 Учет контекстной зависимости при моделировании акустического сигнала с помощью СММ 26

1.3.4 Расчет акустической вероятности Р(0\9Я) 30

1.4 Оценка параметров скрытых Марковских моделей 30

1.4.1 Метод максимального правдоподобия 31

1.4.2 Дискриминативные методы оценки параметров акустических моделей 33

1.5 Моделирование языка 39

1.6 Декодирование 41

1.6.1 Витерби-декодирование 42

1.6.2 Алгоритм перемещающегося маркера 44

1.6.3 Компенсация ошибок языковой и акустической моделей при помощи штрафа добавления слова и языкового множителя 47

1.7 Системы поиска ключевых слов, основанные на скрытых Марковских моделях .48

1.7.1 Величины, характеризующие качество работы системы поиска ключевых слов

49

1.8 Недостатки и направление их разрешения 50

1.9 Постановка задачи исследования 52

Выводы 55

2 Длинноконтекстные акустические модели фонем для уточненного моделирования ключевых слов 56

2.1 Длинноконтекстные акустические модели фонем 58

2.2 Критерий близости скрытых Марковских моделей 60

2.2.1 Расчет интеграла / 61

2.2.2 Итеративный алгоритм расчета критерия близости для скрытых Макровких моделей 64

2.2.3 Аппроксимация акустической близости 66

2.3 Показатель влияния контекста на параметры акустических моделей фонем 71

2.4 Аппроксимация длинноконтекстных акустических моделей фонем, оптимальная с точки зрения влияния контекста на параметры моделей 72

2.5 Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинно контекстные модели фонем 74

2.5.1 Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем 74

2.5.2 Экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем 81

Выводы 85

3 STRONG Словарь системы поиска ключевых слов, оптимальный с точки зрения минимума

средней ошибки распознавания STRONG 86

3.1 Задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества 90

3.2 Целевая функция разбиения слов языка на непересекающиеся подмножества 91

3.3 Расчет перекрестной энтропии пары скрытых Марковских моделей 97

3.3.1 Расчет интеграла l[x[y),Xmm) 98

3.3.2 Итеративный алгоритм расчета перекрестной энтропии для скрытых Марковских моделей 101

3.4 Метод кластеризации слов языка на непересекающиеся подмножества 105

3.5 Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания 108

3.5.1 Программная реализация системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения 108

3.5.2 Экспериментальные исследования системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения 111

3

Выводы 113

Заключение 114

Литература

Введение к работе

Актуальность темы. В начале 90-х годов XX века в мире возобновился интерес к автоматическим системам распознавания речи после весьма скромных успехов в 70-х годах XX века. Этот интерес был связан прежде всего с техническим прогрессом в области информационных технологий и телекоммуникационных систем, а в частности:

• с развитием компьютерной техники и появлением более дешевых и более быстродействующих процессоров;

• с расширением сферы использования персональных компьютеров, и соответствующим ростом количества неквалифицированных пользователей ПК, для которых голосовой интерфейс взаимодействия с компьютером был бы наиболее предпочтительным;

• с развитием Интернета, мультимедиа, а также голосовых телекоммуникационных систем.

В связи с техническим прогрессом на первый план выдвинулись следующие практические задачи, связанные с распознаванием речи:

• автоматические телефонные сервисы;

• диалоговые системы "человек-компьютер", использующие естественный язык;

• голосовые системы управления проборами, роботами, технологическими процессами и т.д.;

• автоматическая обработка медиа-информации (видео, звук) с целью ее классификации и цензурирования;

• автоматические системы перевода с одного языка на другой.

Необходимо отметить, что значительные усилия исследователей к настоящему времени привели к серьезным успехам при создании систем распознавания речи [35, 40, 48, 93]. В таблице 1 приводятся характеристики некоторых из них. Из таблицы видно, что очень хорошие результаты достигнуты при создании систем распознавания речи с малыми словарями, в частности систем распознавания последовательностей цифр (0.3 - 5.0 %). Немного отстают от них системы транскрибирования новостных программ и распознавания читаемой речи (2.0 - 17.0 %). Однако весьма далеки от совершенства системы распознавания речи с большими словарями в случае, когда они применяются к спонтанной телефонной речи (25-29 %J и особенно к речи, записанной из сотовых каналов связи (40 %).

В связи с этим, несмотря на достигнутые успехи, весьма актуальными в настоящее время остаются работы, направленные на повышение точности систем распознавания речи вообще и для этих условий работы в частности.

Таблица 1 - Современный уровень точности, достигнутый при решении различных задач распознавания речи

Речевая база Тип речи Размер словаря Ошибкараспознавания слов 0.3 %2.0 %

Распознавание цифр - ТІ Database Спонтанная 11 Распознавание цифр - Mall Recordings Спонтанная 11 Распознавание цифр - HMIHY Разговорная 11 5.0%

RM (ResouceManagement) Читаемая речь 1000 2.0 %

ATIS (Airline travel information system) NAB (North American Business) Broadcast NewsSwitchboardCall Home СпонтаннаяЧитаемая речьНовостныепрограммыТелефонныйразговорТелефонныйразговор 2500 64000 210000 4500028000 2.5 %6.6 % 13-17% 25-29 % 40%

В данной диссертационной работе рассматривается одна из задач распознавания речи - задача поиска ключевых слов в аудио-сообщениях [96, 97]. В отличие от распознавания речи, под которым обычно понимается преобразование речевого сигнала в текстовое сообщение, при поиске ключевых слов необходимо обнаружить наличие в речевом сигнале слов из некоторого набора ключевых слов.

Объект исследований. Объектом исследования является система распознавания ключевых слов, основанная на скрытых Марковских моделях.

Цель и задачи работы. Целью диссертационной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов за счет: 1) создания более точных по сравнению с существующими на данный момент акустических моделей ключевых слов; 2) создания словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Для достижения этой цели в работе решаются следующие задачи:

1. Предложить понятие длинноконтекстных акустических моделей фонем, предназначенных для создания более точных по сравнению с существующими акустических моделей ключевых слов;

2. Разработать метод обучения длинноконтекстных акустических моделей фонем, позволяющий качественно оценивать параметры длинноконтекстных моделей фонем;

3. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем;

4. Поставить задачу формирования словаря заполнения как оптимизационную задачу, в которой в качестве критерия используется критерий Байеса;

5. Получить выражение для целевой функции, соответствующей критерию Байеса, и разработать алгоритм процедуры формирования словаря заполнения, использующий полученную целевую функцию;

6. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.

Методы исследования. Для решения поставленных задач используются методы теории случайных процессов (цепи Маркова), Байесовская теория принятия решений, теория информации, методы статистической обработки сигналов.

Научная новизна. В процессе исследований предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов. Основные научные результаты заключаются в следующем:

1. Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;

2. Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;

3. Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;

4. Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;

5. Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ-моделей;

6. Разработан метод и алгоритм расчета перекрестной энтропии СММ-моделей;

7. Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;

8. Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.

9. Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем.

Практическую ценность работы представляют:

1. Метод и алгоритм обучения длинноконтекстных моделей фонем, позволяющие строить более точные по сравнению с существующими акустические модели ключевых слов.

2. Метод и алгоритм расчета критерия близости скрытых Марковских моделей, который позволяет рассчитать близость скрытых Марковских моделей в пространстве признаков.

3. Метод и алгоритм расчета показателя влияния контекста на параметры акустических моделей фонем.

4. Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем.

5. Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания.

6. Метод и алгоритм расчета перекрестной энтропии для СММ-моделей.

7. Программная реализация системы поиска ключевых слов, использующей предложенный метод формирования словаря заполнения.

Использование результатов работы. Результаты диссертационной работы были применены при создании программных средств [78, 79] а также при выполнении следующих работ:

• НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик - ФГУП "18 ЦНИИ" МО РФ;

• НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик - ФГУП "НИИ "КВАНТ";

• НИР "Речь-О", заказчик - ФГНУ НИИ "Спецвузавтоматика".

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).

Основные положения, выносимые на защиту. На защиту выносятся следующие положения:

• Метод и алгоритм обучения длинноконтекстных моделей фонем

• Метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания

• Доказательство леммы о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества

• Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем

• Программная реализация и экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения

Краткое описание работы. Работа состоит из введения, трех глав и заключения.

В первой главе проведен анализ методов и алгоритмов, используемых при создании систем распознавания речи, основанных на скрытых Марковских моделях. Основной акцент делается на методах, которые используются при создании систем поиска ключевых слов. Дается общая схема системы распознавания речи, использующей СММ-модели. Описываются методы обучения акустических моделей, среди которых можно выделить методы, основанные на максимизации величины правдоподобия. Также описываются так называемые дискриминативные методы, в которых в качестве критерия выступает не максимальное соответствие моделей обучающим данным, как в методах, основанных на величине правдоподобия, а дискриминативная способность моделей, то есть способность разделять различные гипотезы. Описываются методы декодирования, используемые при распознавании речи. В основе современных подходов к декодированию речи лежит декодер Витерби и его реализация, используемая в распознавании речи - метод перемещающегося маркера. Показаны особенности системы поиска ключевых слов, использующей описанные в первой главе методы. Основной особенностью является то, что словарь системы поиска ключевых слов состоит из двух частей - словаря ключевых слов и словаря элементов заполнения. Проведен анализ недостатков существующих методов и выявлены пути повышения качества системы поиска ключевых слов. На основе выявленных путей повышения качества системы поиска ключевых слов поставлены задачи исследования.

Во второй главе описывается метод создания акустических моделей ключевых слов, основанный на длинноконтекстных моделях фонем. Описывается метод обучения длинноконтекстных моделей, основанный на аппроксимации моделей, если для них не существует достаточного количества обучения. Описывается метод выбора аппроксимирующей модели, основанный на понятии показателя влияния контекста на параметры модели, и приводится метод и алгоритм для его расчета. На основе предложенного метода во второй главе создана программная реализация системы поиска ключевых слов, использующая длинноконтекстные модели, и проведены экспериментальные исследования, показывающие, что предлагаемый метод позволяет повысить точность поиска ключевых слов по сравнению с существующими системами на 3.8 %.

В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания. Описывается постановка задачи формирования словаря заполнения, основанная на понятии модели распознавания. Модель распознавания проецирует множество слов языка во множество слов-заполнений, осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества. Предлагается метод разбиения, основанный на критерии Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. Записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку. Доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. На основе созданной программной реализации проведены экспериментальные исследования, которые показывают возрастание вероятности правильного распознавания на 1.27% по сравнению с существующими системами. Математические модели, методы и алгоритмы поиска ключевых слов, основанные на скрытых Марковских моделях

Под распознаванием речи в настоящей диссертации понимается автоматическое определение содержания речевого сообщения, представленного в виде звукового файла, выполняемое при помощи компьютере.

На рисунке 1.1 показана упрощенная схема процесса распознавания речи, который в настоящее время используется в автоматических системах распознавания. Этот процесс разбит на отдельные этапы. Первоначально фраза, которую диктор собирается сказать, появляется у него в голове. После произнесения фразы она, в виде акустического сигнала, попадает в блок предобрабогки, в котором сигнал представляется в виде, подходящем для распознавателя. После этого модель языка вместе с акустическими моделями используются для того, чтобы определить что сказал диктор.

Модель языка

Рисунок 1.1 -Процесс производства/распознавания речи

Даже без необходимости выделить смысл произнесенного, процесс автоматического распознавания речи очень сложен, и для его осуществления требуются знания из многих отраслей науки, таких как:

Цифровая обработка сигнала. Чтобы обеспечить качественное распознавание речи, блок предобработки сигнала должен аккуратно выделить значимую для распознавателя информацию и удалить малозначимую, или даже мешающую информацию. Распознавание образов. После того, как сигнал представлен в подходящем для распознавателя виде, он должен быть распознан, или декодирован в соответствующую последовательность символов, для чего в декодере должны содержаться шаблоны, или модели, с которыми сравнивается неизвестное высказывание для получения наиболее вероятной последовательности символов.

Теория информации. Модели, с которыми сравнивается неизвестное высказывание, должны содержать информацию о всевозможных видах вариативности, которые встречаются в естественной речи. Для этого параметры моделей должны быть оценены соответствующим образом. Теория информации предоставляет исследователю различные методы оценки параметров моделей.

Компьютерные науки. Поскольку в настоящее время для создания автоматических систем распознавания речи используются цифровые машины, огромное значение при создании систем распознавания речи имеют компьютерные науки: умение составлять эффективные алгоритмы и программы является весьма важным при создании систем распознавания речи.

Не смотря на бурное развитие подходов к распознаванию речи [68, 69, 71], в настоящее время наиболее хорошие результаты показывают методы, основанные на скрытых Марковских моделях.

В первой главе описываются методы, используемые для создания систем распознавания речи, основанные на скрытых Марковских моделях [2, 94].

Моделирование акустического сигнала при помощи скрытых Марковских моделей

Рисунок 1.6 - Конкатенацией СММ-моделей фонем формируется СММ-модель слова Пример модели слова «мама», построенной конкатенацией моделей фонем «м» и «а», приведен на рисунке 1.6. В данной диссертационной работе используется второй подход - модель слова строится конкатенацией моделей фонем, составляющих фонетическую транскрипцию Пример СММ-модели фонемы приведен на рисунке 1.5. Модель имеет три генерирующих состояния: 1) начальное состояние, которое подвержено влиянию предшествующей фонемы; 2) центральное состояние, чистое состояние фонемы; 3) конечное состояние, которое подвержено влиянию последующей фонемы.

Таким образом, для создания СММ-модели слова требуется фонетическая транскрипция слова. Существуют различные способы получения фонетической транскрипции. Один из способов - использовать готовый словарь фонетических транскрипций [98]. Такие словари имеют большой размер и требуют больших усилий для их создания. Однако даже при большом объеме словаря фонетических транскрипций всегда существует возможность, что системе потребуется фонетическое представление слова, которое не содержится в словаре.

В работах [99, 76] предлагаются методы получения фонетических транскрипций слов при помощи правил преобразования последовательностей графем (букв) в последовательность фонем, которые называются фонетическими правилами. Фонетическое правило можно представить в виде: LmLRn P,prob (1.3) Это правило задает преобразование графемы L в контексте Lm_Rm в последовательность фонем Р с вероятностью prob. Цепочку графем LmLRn называют содержанием фонетического правила, цепочку фонем Р - транскрипцией фонетического правила.

Особенностью работ [99, 76] является то, что фонетические правила строятся автоматически при помощи статистического анализа обучающего словаря фонетических транскрипций.

Однако обучающий словарь существует не всегда, в этом случае фонетические правила создаются вручную. Будем называть такие правила эвристическими. Количество фонетических правил, которые адекватно описывают фонетические структуры слов, достигает сотен или тысяч, поэтому ручное создание фонетических правил является очень трудоемким.

В работе [87, 91] предлагается метод построения эвристических фонетических правил, использующий множества графем/фонем, который позволяет значительно сократить количество правил и, таким образом, снизить трудоемкость создания фонетических правил. Предлагаемый метод используется для построения фонетических транскрипций слов русского языка. В предлагаемом методе используются фонетические правила в виде (1.3), где вместо графем используются множества графем. Такое вид фонетического правила приводит к тому, что оно может соответствовать не одному, а ряду последовательностей графем. Соответственно меняется и результат применения фонетического правила - результатом является описатель. После применения всех соответствующих данной графеме в данном окружении фонетических правил создается строка описателей, которой соответствует множество фонем, из которых выбирается окончательный результат преобразования «графема- фонема».

На практике окружение очень сильно влияет на акустические характеристики фонем. Одна и та же фонема в разном окружении может звучать совершенно по-разному. Поэтому, чтобы улучшить качество акустического моделирования, для фонем в различном окружении используют различные модели [63, 64].

Далее изложение идет в соответствии с работой [64]. Под контекстом понимаются последовательности одинаковой длины п предшествующие и следующие за данной фонемой, п - размер учитываемого контекста, п может быть равно 1 или 2. В случае, когда п = 1 образуются структурные элементы языка, которые называются трифонами.

Количество моделей сильно возрастает с увеличением размера контекста. Если количество фонем в языке равно N, количество моделей равно JV2n+1.

Представление выходных функций распределения в виде гауссовых смесей позволяет моделировать распределение каждого состояния очень точно. Однако при использовании грифонов мы имеем систему, в которой необходимо обучать очень много параметров. Например, система распознавания, основанная на межсловных трифонах имеет приблизительно 60000 грифонов. На практике десятикомпонентная смесь дает хорошее качество распознавания для дикторонезависимых систем. Предполагая диагональную ковариационную матрицу и 39 мерный вектор признаков получим, что на одно состояние приходится 790 параметров, которые необходимо оценить. Следовательно, 60000 моделей, состоящих из трех состояний требуют оценки приблизительно 142 миллионов параметров.

Проблема большого количества параметров и малого количества обучения является очень серьезной при разработке распознающих систем речи, основанных на статистических методах распознавания. Ранние СММ - системы выходили из этой ситуации следующим образом. Имелось общее множество гауссоид, и каждое состояние задавалось просто как набор весов, которые могли быть сглажены контекстно-независимыми моделями. Это так называемые системы, основанные на связывании смесей. Сравнение между такими системами, дискретными системами и с системами, представляющими выходные распределения в виде непрерывных функций (непрерывные СММ - системы), показали, что системы, основанные на связывании смесей лучше. Однако это следовало главным образом из отсутствия хороших способов сглаживания для непрерывных систем. Позднее стало популярным сглаживание, основанное на связывании параметров. Особенно широко исследовались связывание состояний и связывание компонентов [95].

Итеративный алгоритм расчета критерия близости для скрытых Макровких моделей

Перепишем формулу (2.10), используя новые обозначения: а (г + 1) = I V a4j i(r)a4i l , Mq \j:""Ll \ ,. , U , V l V / Z_ »P(i.nt,4k)"p(J-"i 9l) V / np(i,nk,qk)nc(i,nk,qk) n p[j ,n, ,q,)nc(j ,n, ,q,) nkn, где учитывается, что переход в текущее состояние возможен только из предыдущего (/,/ = -1), или текущего (/, j = 0), при этом: qp(i,n,q) - номер фонемы, которой принадлежит состояние, из которого происходит переход в состояние п фонемы q, если переход происходит из предыдущего состояния (/,7 = -1), или текущего (/,7 = 0): , ч [q-l i = -\,n = 2 q (i,n,q) = \ [q во всех остальных случаях np(i,n,q) - номер состояния, из которого происходит переход в состояние п фонемы q, если переход происходит из предыдущего состояния (/,7 = -1), или текущего (/,7 = 0): np(i,n,q) = #,-1-1 / = -1,л = 2 п-\ І = -\,ПФ2 п во всех остальных случаях nc(i,n,q) - номер состояния, в которое происходит переход; этот номер может отличаться от п в случае, когда п - номер первого состояния некоторой модели и переход осуществляется из предыдущего состояния (/,7 = -1), в этом случае nc(i,n,q) - номер последнего состояния предыдущей модели: /. х К-, і = -1,л = 2 nc\},n,q) = \ \п во всех остальных случаях

Результаты двух предыдущих подразделов позволяют рассчитать критерий близости между скрытыми Марковскими моделями: (9Л,ЯЛ )= J sT(m,DJl ), (2.12) 7 =Ї;„ .,(9Л,ШГ)=Х хх /=1 П а а , ,1 , axTNax TN В том числе, основываясь на результатах предыдущего подраздела (2.9), (2.10) для моделей типа "слева направо" можно записать выражение для sr (y,v): sT (ТІМ ) = aw_, {T)aNANaN,AN, ( nfvv \ \r (2ЛЗ) [/=/:-1/=/-1 J

Однако, рассматривая выражение (2.12) совместно с (2.13) можно заметить, что ряд в правой части (2.12) может быть расходящимся. В этом случае необходимо принимать меры, которые бы позволили более адекватно рассчитать акустическую близость.

Используя выражение (2.9) можно записать: jr+1 (ЯЯ, ЯП ) = aN_w (Т + l)aN_]Na N,_w, = Г N-l N -\ 1 = \ ZJ 2-І aij\ )aiN-\ajN -1\ N-\N -\aN-\NaN -\N [i=N-2j=N -2 J — aN-lN -\\ )aN-\N-\aN -\N -\ N-\N -\aN-\NaN -\N = 5r jjc, JJt )ctN_]N_laN,_w,_]iN_lN,_] Из этого выражения следует, что sT+](ffl,Wl ) sT(Wl,%R ), если , ,, ,,, ,,,/ 1, то есть при выполнении условия IN_]N, ряд в правой части (2.12) будет aN-\N-\aN -\N -\ расходящимся, поскольку не выполняется необходимое условие сходимости ряда +1(ШТ,ШГ) 5у(2Я,тГ).

Таким образом, сумма (2.12) может быть расходящейся. Причиной этого является тот факт, что скрытые Марковские модели не способны адекватно моделировать длительности генерируемых последовательностей наблюдений О. Причиной этого является то, что вероятность состояния зависит только от одного предшествующего состояния.

В связи с этим выражение (2.12) должно быть изменено таким, образом, чтобы устранить этот недостаток. В данной диссертационной работе предполагается аппроксимация s{m№ ) sf{m№ ), (2.14) где Т - средняя длительность последовательности наблюдений О. По определению средней величины Т = Тр{Т), (2.15) где р(Т) - вероятность того, что длительность последовательности состояний равна Т, или, другими словами, вероятность того, что модель сгенерировала последовательность наблюдений длиной Т.

Однако если взглянуть на выражение 2.1 можно увидеть, что интеграл симметричен относительно перестановки моделей sT (мм1) = \Р{О m)p(o і ж)do. В этой ситуации, не ясно, какая модель сгенерировала последовательность наблюдений О, и поэтому не ясно какую модель использовать для расчета величины р(Т).

В данной диссертационной работе для расчета средней длительности последовательности наблюдений Т в соответствии с выражением (2.15) используется вероятность ИГ).А1± 2, (2.16) где рт(Т), рж(Т) - распределения длительностей последовательностей наблюдений, сгенерированных моделями ЗЯ, Ж . В следующем подразделе предлагается метод расчета вероятностей рт (Т), рш, (Г). Далее, в подразделе 2.2.3.2 доказывается лемма, результаты которой дают способ расчета величины Т в соответствии с выражениями (2.16), (2.15).

В этом подразделе предлагается способ расчета вероятности длительности последовательности наблюдений, генерируемой скрытой Марковской моделью 9Л.

Пусть задана СММ-модель типа «слева-направо» (см. рисунок 2.3) и пусть необходимо рассчитать вероятность того, что последовательность наблюдений, представляющая некоторое высказывание, имеет длину Т. Представим эту вероятность как сумму вероятностей всех возможных последовательностей состояний длительностью Т:

Целевая функция разбиения слов языка на непересекающиеся подмножества

Вид целевой функции предполагает, что для ее расчета требуется обучающая выборка речевых сообщений {[/, }"=1, R - их количество с соответствующими словесными транскрипциями {Wr} Обучающая выборка представлена в виде множества последовательностей наблюдений {Or}Rr=v v(Wr) - транскрипция, получаемая преобразованием v каждого слова эталонной транскрипции Wr.

Необходимо отметить, что второе слагаемое в (3.6) не влияет на решение задачи (3.5), потому что не зависит от v. Поэтому вместо целевой функции (3.6) можно рассматривать целевую функцию F(v) = log P(0r,v(FPr)). (3.7)

Выбор целевой функции (3.6) определяется тем, что в этом случае решение задачи нахождения модели распознавания (3.5) становится Байесовским [1]. Использование Байесовского критерия в данном случае имеет два преимущества:

- Байесовский критерий принятия решений минимизирует средние потери, что в случае систем распознавания речи означает минимизацию средней ошибки распознавания [25];

- При распознавании (решающее правило (1.1)), как уже упоминалось, используется та же статистика, это означает, что модель распознавания v является наилучшей в том смысле, что при распознавании наиболее вероятно будет реализован способ распознавания, определяемый моделью распознавания v.

Для расчета целевой функции (3.5) и решения задачи разбиения слов языка на непересекающиеся подмножества (3.6) требуется размеченная по словам речевая база. Основным требованием к этой базе, помимо естественных требований по качеству исполнения, является ее большой объем, что связано с представлением в ней по возможности наибольшего объема слов языка. Поскольку процесс создания речевых баз является весьма трудоемким, в данной диссертационной работе предлагается метод аппроксимации целевой функции (3.5) величиной, для расчета которой не требуются реальные данные, а используются акустические и языковые вероятности. Необходимо отметить, что при такой замене для решения задачи разбиения слов языка на непересекающиеся подмножества используется акустическая и языковая информации не из реального речевого сигнала, а содержащиеся в акустических и языковых моделях.

В данном разделе доказывается теорема, результаты которой дают возможность записать аппроксимацию целевой функции (3.5), для расчета которой требуются лишь акустические и языковые модели. При этом показывается, что при неограниченном росте гипотетической речевой базы значение целевой функции (3.5) в вероятностном смысле стремится к значению предлагаемой аппроксимации.

Далее приводятся необходимые для дальнейшего изложения понятия и утверждения.

Понятие выборки и состоятельной оценки излагается в соответствии с работой [62]. Определение 3.2 - Выборкой случайной величины х, имеющей функцию распределения вероятностей F(x) называется множество случайных величин х,,..,х„, распределенных в соответствии с функцией распределения вероятностей F[x). Пусть а - некоторый параметр, определяющий функцию распределения вероятностей F(x).

Определение 3.3 - Состоятельной оценкой ап параметра а называется функция величин xv..,xn, которая стремится к точному значению параметра, когда п - со. Под стремлением одной величины к другой понимается стремление в вероятностном смысле: Р(а„ а г:)- 1 при п - со и любом є 0. Лемма 3.1: Линейная комбинация состоятельных оценок 6$ параметров сс\ i = l,..,N, является состоятельной оценкой линейной комбинации этих параметров где N - количество слагаемых в линейной комбинации. В соответствии с определением статистика fn является состоятельной оценкой величины /, если для любого

Итеративный алгоритм расчета перекрестной энтропии для скрытых Марковских моделей

С использованием разработанных стендов были проведены экспериментальные исследования системы поиска ключевых слов, использующей оптимальный словарь, целью которых было проверить работоспособность предложенного метода формирования оптимального словаря заполнения.

Эксперименты проводились в тех же условиях, что и предыдущий ряд экспериментов, за исключением того, что в этих экспериментах использовался оптимальный словарь заполнения.

В ходе экспериментов изменялся языковой множитель у, который входит в выражение для расстояния (3.45). Зависимости вероятности правильного распознавания и количества ложных вызовов от языкового множителя приведены в таблице 3.2.

Экспериментальные исследования системы распознавания ключевых слов, не использующей оптимальный словарь (стандартная система), показали, что наилучший результат получается при языковом множителе, равном 11 и штрафе добавления слова, равном -15 (понятие языкового множителя и штрафа добавления слова вводится в подразделе 1.6.3). При таких условиях эксперимента вероятность правильного распознавания составила 78.9% при количестве ложных вызовов, равном 244.

Сравнение полученных результатов с результатами тестирования стандартной системы показывает, что использование процедуры оптимизации словаря заполнения приводит к повышению точности системы выделения ключевых слов в случае, когда / = 10, у = 15, на 0.21% и в случае, когда/ = 20, на 1.27%.

Как видно из таблицы при некоторых значениях у оптимальный словарь не приводит к увеличению точности. Это связано с тем, что используемая предлагаемым методом построения оптимального словаря модель распознавания 3.3 не является достаточно точной. В частности, эта модель распознавания является предполагает, что слова языка распознаются как слова словаря, при этом не учитывается факт, что найденное слово может лежать на границе двух слов, или несколько слов может быть распознано на участке, на котором имеется только одно слово (эти случаи показаны на рисунке 3.2). Выводы

В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания.

Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания и в частности понятие модели распознавания на уровне слов. Эта модель проецирует множество слов языка во множество слов-заполнений, таким образом осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества.

Существует множество способов, которыми можно выполнить это разбиение. В третьей главе это сделать предлагается используя критерий Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. В третьей главе записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку.

В третьей главе доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. Модификация требуется из-за того, что полученные расстояния не являются евклидовыми.

В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. Программная реализация выполнена в виде двух стендов, которые представляют собой консольные приложения, написанные на языке программирования Perl, и выполняют последовательность вызовов утилит для работы с моделями, словарями и т.д. Утилиты реализованы на языке программирования С.

С использованием созданной программной реализации проведены экспериментальные исследования, которые показали преимущество разработанных методов по сравнению с существующими - достигнуто приращение вероятности правильного распознавания 1.27%.

Похожие диссертации на Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях