Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Применение вейвлет-анализа в задачах автоматического распознавания речи Бойков Федор Геннадиевич

Применение вейвлет-анализа в задачах автоматического распознавания речи
<
Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи Применение вейвлет-анализа в задачах автоматического распознавания речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бойков Федор Геннадиевич. Применение вейвлет-анализа в задачах автоматического распознавания речи : Дис. ... канд. физ.-мат. наук : 05.13.18 : Москва, 2003 111 c. РГБ ОД, 61:04-1/235-7

Содержание к диссертации

Введение

Глава.1. Обзор применения технологии вейвлет-анализа 11

В ейвлеты и их свойства 13

В ей влет-преобразование 13

Кратном ас штабный анализ и ортогональные вейвлеты 19

Быстрый алгоритм вычисления ортогонального ее йв лет-преобразования 26

Мул ъти в ей влеты 2S

Бен влеты в обработке речи 33

Очистка речевого сигнала от шума 34

Сегментация речевого сигнала и определение основного тона ^^ 38

Автоматическое распознавание речи ^ .44

Выводы к главе 1: 59

Глава 2. Разработка и исследование методов параметризации речевого сигнала на основе ьейвлет-аиализа 60

Параметризация на основе диад и чески* в ей влетов 60

Схема вычисления коэффициентов вей влет-преобразования 60

Схема формирования вектора признаков 67

Оценка параметров на основе недпадических вен влетов 68

Вейвлет преобразование в области нижних частот на основе голосового источника 71

Вейвлет преобразование в области верхних частот 80

Выводы к главе 2: 83

Глава 3. STRONG Численное моделирование распознавания речи на основе веивлетного

анализа STRONG 84

Распознавание СЛИТНОЙ речи на основе вейвлет-аналнза 84

Архитектура системы распознавания слитной речи 85

Оненка параметров дискретных марковских моделей с помощью самоорганизующихся карт

признаков Кохонена. 89

Оценка параметров на основе диадическик вей влет о в 96

Расчетные формулы 96

Речевой материал 97

Результаты численных экспериментов 98

Оценка параметров на основе неднадическнх вей влетов 100

Расчетные формулы 100

Речевой материал 102

Результаты численных экспериментов 102

Выводы к главе 3: 103

Заключение 105

Список литературы 107

Введение к работе

В связи со стремительным развитием информационных технологий в течение последних десятилетий значительно расширился круг задач, решаемых с помощью вычислительной техники. Также более разнообразными стали способы взаимодействия человека с различного рода электронными информационными системами. В частности речевые пользовательские интерфейсы внедряются в разнообразные автоматизированные системы.

Речь является наиболее естественной формой обмена информацией между человеком и машиной. Преимущества использования устной речи для общения с машинами сказываются также в снятии некоторых ограничений, которые присущи традиционным устройствам ввода-вывода, например, в освобождении рук и фиксированного положения тела оператора, необходимости использования клавиатуры и дисплея. Для многих миниатюрных устройств, таких как мобильные телефоны и ладонные компьютеры наличие встроенных систем распознавания и синтеза речи является единственным удобным способом обмена информацией.

Несмотря на то, что реализация речевого диалога с компьютерами на естественном разговорном языке до сих пор остается нерешенной задачей, современные методы цифровой обработки речевых сигналов успешно позволяют частные прикладные задачи из этой области. К таким приложениям можно отнести задачи распознавания раздельно и слитно произносимой речи (от простого распознавания произносимых слов и предложений до голосового управления различными системами),

верификации идентификации дикторов, медицинскую диагностику на основе исследования параметров речи (обнаружение патологий), и даже разработку детекторов лжи (распознавание эмоционального состояния).

Существующие технологии имеют ряд ограничений по надёжности и скорости распознавания, чувствительности к помехам, искажениям, ограничениям полосы частот. Эти ограничения не позволяют использовать системы с речевыми интерфейсами, во многих практических ситуациях, когда необходимо принятие ответственных решений. Это обстоятельство делает актуальными задачи разработки и исследования принципиально новых методов оценки информативных признаков речевого сигнала,

В связи с этим актуальными задачами являются задачи улучшения надёжности и скорости речевых систем на основе новых технологий.

До настоящего времени основным средством анализа речевого сигнала являются, в частотной области, преобразование Фурье, которое переводит исходный сигнал из амплитудно-временного пространства в частоти о-временное, а во временной области- линейное предсказание речи, которое описывает речевой сигнал с помощью модели авгорегрессии.

Существующие подходы несут в с^бе ряд ограничений связанных как с качеством частотно-временного представления сигнала, так и со скоростью и объемом вычислений, необходимых для преобразования. С появлением теории вейвлет-преобразования эти ограничения частично снимаются. Например, алгоритм быстрого вейвлет-преобразования (Fast Wavelet Transform — FWT) на основе ортогональных вейвлетов позволяет

— 4 —

сократить объём вычислений и повысить скорость преобразования, которая так важна для задач в масштабе реального времени.

Возможность успешного применения вейвлетов в задачах обработки и распознавания речи вытекает из свойств речевого сигнала. Вейвлеты, как средство многомасштабного анализа позволяют выделять, одновременно как основные характеристики сигнала, так и короткоживущие высокочастотные явления в речевом сигнале. Это свойство является существенным преимуществом в задачах обработки речевого сигнала по сравнению с оконным преобразованием Фурье, где, варьируя ширину окна, приходится выбирать масштаб явлений, которые необходимо выделить в сигнале- Кроме того, оконное Фурье-преобразование, являясь частным случаем вей влет-преобразования, не даёт в полной мере варьировать свои частотно-временные характеристики для подстройки системы под конкретную задачу. В отличие от традиционного преобразования Фурье, вейвлет-преобразование определено неоднозначно: каждому вейвлету соответствует свое преобразование. Это позволяет тщательнее подобрать вейвлет-функцию с хорошими свойствами частотно-временной локализации.

Получение дополнительной информации с разных масштабов времени и разных масштабов разрешения сигнала может улучшить точность распознавания речи.

Существуют также психофизиологические соображения [7] в пользу использования анализа речевого сигнала на основе вейвлетов. Человеческое ухо устроено так, что при обработке звукового сигнала оно передает мозгу вейвлет-образ сигнала. Колебания амплитуды давления

— 5 —

передаются от барабанных перепонок не мембрану и далее распространяются по всей длине завитка внутреннего уха. Завиток скручен в виде спирали во внутреннем ухе. Если представить, что завиток распрямлён в некоторый сегмент, а вместе с ним и распрямлена мембрана, то можно показать, что результирующее преобразование сигнала будет с точностью до константы совпадать с вейвлет-преобразованием.

Многочисленные исследования применения веивлет-анализа речевого сигнала, некоторые результаты которых рассмотрены в Главе 1, показали адекватность применения технологии веивлет-анализа для исследования речевого сигнала.

Обзор и анализ опубликованных работ показывает, что:

  1. Технология веивлет-анализа может быть успешно применена для исследования характерных особенностей сигнала, как средство многом асштабного анализа с хорошими показателями частотно-временной локализации;

  2. До сих пор на основе вейвлетов не создана система распознавания речи, сравнимая по показателям с системами, основанными на Фурье-преобразовании;

  3. Задача разработки системы распознавания речи с применением вейвлетов требует подхода, учитывающего особенности человеческого восприятия речевой информации и речевоспроизведения.

— 6—

Цель диссертационной работы заключается в разработке и исследовании методов параметризации речевого сигнала на основе вей влет-преобразования, а также практическом применении этих методов в системе распознавания речи.

Для достижения указанной цели в диссертационной работе решаются следующие основные задача исследования:

  1. Анализ существующих методов обработки речевых сигналов на основе вейвлетов;

  2. Анализ существующих систем автоматического распознавания речи с использованием вейвлетов;

  3. Разработка методов предобработки речевого сигнала на основе диадических вейвлетов;

  4. Конструирование методов и алгоритмов анализа речевого сигнала, основанных на вейвлетах, с использованием свойств восприятия звуковой информации и речеобразования;

  5. Экспериментальное исследование и настройка разработанных алгоритмов в системе автоматического распознавания речи.

Научная новизна работы заключается в следующем:

1. Разработаны алгоритмы вейвлет-анализа речевого сигнала с применением диадических вейвлетов для построения системы распознавания речи.

2. Разработаны алгоритмы вейвлет-анализа речевого сигнала на основе моделирования механизмов речеобразования и слуха человека.

На основе разработанных алгоритмов построен блок предобработки речевого сигнала для системы автоматического распознавания речи. Выполнены численные эксперименты по тестированию созданной системы.

Диссертационная работа состоит из введения, трёх глав и заключения.

В главе 1 излагаются основные особенности вейвлет-преобразования применительно к задачам обработки речи, особенности кратномасштабного анализа и ортогональных вейвлетов, а также быстрый алгоритм вычисления параметров вейвлет-преобразования.

В этой главе также анализируются существующие методы обработки речевого сигнала на основе технологии вейвлет-прсобразования; методы сегментации, очистки речевого сигнала от шума, определения основного тона и распознавания речи.

Быстрый алгоритм вычисления ортогонального ее йв лет-преобразования

Можно предположить, что изначально заданный сигнал x(t) известен с разрешением. Другими словами, пусть x(t)eVot и нам даны коэффициенты х„ его разложения по сдвигам скейлинг-фупкции: Естественно считать версией масштаба 2 ортогональную проекцию x(t) на подпространство V_r Она задается набором скалярных произведений x(t)c функциями из ортобазиса. Из уравнения (4) и условий ортогональности (5) имеем: Другими словами, проекция осуществляется путем свертки с фильтром h и прореживания вдвое. Заметим, что прореживание вдвое «встроено» в эту формулу (через индекс 2 + 5), Разумеется, это следствие выбора базиса в V_,. В качестве деталей сигнала (/), исчезающих при переходе к масштабу 2, следует взять компоненту x(t), ортогональную к сигналам масштаба 2, т.е. к пространству V_,. Мы видели, что имеет место разложение V0 = V_, ffi \V_X, где для любых функций a(t) е V_3, b(t) є выполнено a(t)tb(t) = 0, и ортобазисом w- будет набор функций вид gk =(-1) Л,. Искомая проекция задается набором скалярных произведений x(i)c функциями из ортобазиса. Совершенно аналогично (9) получаем что равносильно свертке с фильтром g и прореживанию вдвое. Та же схема действует на любом масштабе. При любом j V, =V;4 \VH, ортобазисом \V/4 будет "Vt2 -1 -)} и разложение сигнала из V на сглаженную часть и детали (т.е. его проекции на V и wy-l) находятся по формулам (9) и (10). Совокупность же функций {l y/fat-m)}, где j и т пробегают все целые значения, будет базисом всего пространства L2(R). Введем матрицы Ни G: Эту процедуру иногда называют быстрым вейвлет-преобразованием (Fast Wavelet Transform), а иногда - алгоритмом Малла (Mallat algorithm). Число итераций N может быть произвольным. Если вектор х конечен, его надо продолжить «на бесконечность»; проще всего это сделать периодическим образом. Каждое применение операторов Ди Ссокращает длину вектора вдвое, поэтому общее число операций линейно по длине входа.

Наряду с вейвлстами используются также мультивейвлеты. Мультивейвлеты (multi wavelets) - это векторнозначное обобщение вейвлетов. Они предназначены для разложения «многоканальных» сигналов, имеющих не одну, а несколько компонент. Впрочем, к такому виду можно привести и скалярный сигнал (переходом к четным и нечетным компонентам, например).

Мультивейвлеты определяются точно такими же (внешне) уравнениями рескейлинга, что и обычные всйвлеты:

Их привлекательность том, что они, как и обычные вейвлеты, порождают многомасштабный анализ: сильнее локализованы в пространстве, что может оказаться удобно в ряде задач (например, в матфизике). допускают быстрый алгоритм преобразования (алгоритм Малла с матричными коэффициентами дословно переносится на этот случай) Однако построить мультивейвлеты оказалось сложнее, чем обычные вейвлеты. Дело в том, что уравнения скейлинга имеют матричные коэффициенты, которые не коммутируют между собой. Поэтому найти подходящий набор коэффициентов, дающий гладкие решения уравнения рескейлинга, довольно сложно. Первый пример ортогональных и непрерывных мул ьтивей влетов получен Джеронимо, Хардином и Массопустом (Geronimo, Hardin, Massopust - GUM). Скейлинг-функции и вейвлеты в их примере были кусочно-самоподобными, и пример был построен с использованием методов из теории ИФС (итерационных функциональных систем), порождающих, вообще говоря, фрактальные функции, GHM-мультивеЙвлеты и скейлинг-функции показаны на рисунках

Фильтры, связанные с этими функциями, плохо локализованы по частоте, однако их свойства можно улучшить простой предобработкой сигнала. Gcronimo, Donovan, Hardin получили также новое семейство ортогональных мультивеивлетов, которые являются сплайнами с непрерывной производной. Эта конструкция тоже довольно сложна, и использует ортогональные многочлены. Уравнения рескейлинга содержат всего 4 коэффициента, но они являются матрицами (в порядке возрастания гладкости вейвлетов) 4-10 порядков. Т.е., в последнем случае есть 10 скейлинг функций и 10 вейвлетов, порождающих соответствующие пространства.

На пути практического применения мультивеивлетов мы сталкиваемся с еще одной трудностью. Масштабирующие функции и, соответственно, компоненты низкочастотного мультифильтра имеют различные спектральные характеристики. Они являются "разбалансировапными". Это приводит к перекрытию в области спектра низкочастотных и высокочастотных субполос, вызывая искажения в виде колебании на сжатом изображении. В общем случае, мы нуждаемся в некотором правиле, согласно которому можно было бы конструировать сбалансированные мультивейвлеты, свободные от указанного выше недостатка. В работах М.Веттерли, Г.Стрэнга [1, 2] доказано необходимое условие, которому должна удовлетворять сбалансированная масштабирующая функция. Известными методами конструирования сбалансированных мультивейвлетов являются: получение сбалансированных мультивейвлетов из комплексных фильтров Добеши; балансировка существующих мультивейвлетов. Недостатком мультивейвлетов, полученных первым способом, является то, что при итерировании мультифильтров достигается лишь условная сходимость- Использование подобных мультивейвлетов проблематично, так как они неробастны к отбрасыванию коэффициентов: отбрасывание малых коэффициентов приводит не к плавному ухудшению качества сжимаемого сигнала, но к появлению паразитных колебаний. Сбалансированные мультивейвлеты, полученные вторым способом, свободны от этого недостатка. Как отмечается, они весьма робастны к отбрасыванию коэффициентов без применения какой бы то ни было пре/постфил ьтраци

Схема вычисления коэффициентов вей влет-преобразования

Использование вейвлет-анализа в обработке речевого сигнала показало эффективность этой технологии применительно к обработке речи. Однако до настоящего времени не удавалось разработать дикторонезависимую систему распознавания слитной и раздельной речи на основе вейвлет-анализа сопоставимую по точности распознавания с аналогами, использующими Фурье-преобразование.

Настоящая глава посвящена разработке алгоритмов и методов параметризации речевого сигнала с использованием диадических и недиадических вейвлетов, а также с учётом особенностей человеческого слуха и моделирования механизмов речевоспроизведения.

Применение вейвлет-анализа для построения системы распознавания речи является целесообразным ввиду многомасштабности вейвлет-анализа, а также возможности подобрать функции вейвлет-базиса с хорошей частотно-временной локализацией.

Схема вычисления коэффициентов вейвлет-преобразования Допустим, требуется обработать дискретный сигнал \ = {x,}f=0 с постоянной частотой дискретизации fd с целью выделить характерные особенности сигнала для дальнейшего анализа или обработки. Одним из способов для решения поставленной задачи является дискретное вейвлст разложение, которое позволяет представить сигнал в следующем виде: где pt(0 v;i(0 — функции вейвлет базиса. Физический смысл w — вероятность того, что сигнал локализован в окрестности: v/21 — по частоте, Vsк — по времени, если у/(ї) локализована в окрестности: v — по частоте, 0-— по веремени В случае ортонормированного вейвлет базиса с конечным по времени носителем функции вейвлет базиса могут быть вычислены по конечному набору определяющих базис коэффициентов {hr}% с любой точностью с помощью итерационного алгоритма. Как правило, N1 — нечетное число, и вычисляется по формуле где Nv — номер вейвлет базиса. Количество коэффициентов и размер носителей вейвлет функций по времени связаны: У; (0 отлична от нуля на интервале шириной 2 Л7 в таких единицах измерения времени, где y/ {i) отлична от нуля на интервале [0; 1],

Набор {K)1U определяющих базис коэффициентов позволяет вычислять коэффициенты вейвлет разложения последовательно от более мелкомасштабного (высокочастотного) слоя к менее мелкомасштабному: При этом необходимо знать коэффициенты u j к на некотором мелкомасштабном уровне. Желательно выбрать этот уровень таким, чтобы более мелкие масштабы (более высокие частоты в сигнале) нас не интересовали (чтобы не проводить дополнительные вычисления в область более высоких частот). Выбираем единицу измерения времени равной расстоянию между двумя последовательными точками сигнала, а уровень —J таким, чтобы величина единичного сдвига вейвлет функции на этом слое была равна выбранной временной единице. Свяжем точки сигнала с серединами отрезков- Полученная картина представлена на рис. 33. единичных отрезков, а следовательно, —L непересекающихся носителей всйвлет функций -У-го слоя. Каждый носитель (кроме последнего) порождает N1 коэффициентов u Jk. Последний носитель порождает только один коэффициент (так как для вычисления остальных не хватает информации). Итого на -У-м слое: коэффициентов и л и столько же w J&t Эти коэффициенты могут быть вычислены непосредственным интегрированием сигнала умноженного на соответствующую вейвлет функцию. Если па отрезке [ir; tr } = [г; г-f-1] считать сигнал постоянным и равным хг

Далее по формулам (18) последовательно вычисляются коэффициенты более низкочастотных слоев. Частота, которую максимально выделяет -J-й слой равна где vw — максимум в спектре вейвлет функции, у которой носитель по времени [0;NI]. Известно, что vw l, но, как правило, vw 0,5. В силу теоремы Котсльникова выделять частоту больше fd бессмысленно. Это приведет лишь к накоплению вычислительных ошибок. Для анализа сигнала будет вполне достаточно выделения частоты в t 5 0 7)/rf. Частота, которую максимально выделяет -у-и слой

Архитектура системы распознавания слитной речи

Таким образом, распознавание речи (как распознавание последовательности слов) разделяется на две, предположительно независимые, составляющие: априорную оценку вероятности появления последовательности слов WIN, которую вычисляется с помощью модели языка и условную вероятность последовательности наблюдений при заданной последовательности слов, которая вычисляется в блоке акустико-фонетического моделирования.

Обе задачи (акустико-фопетического моделирования и языкового моделирования) решаются совместно при декодировании речевого сигнала. При численных экспериментах, которые приведены ниже, модель языка практически е использовалась, так как словарь системы распознавания был невелик - в пределах 70 слов. Архитектура системы распознавания слитной речи, основанной на вейвлетном анализе и созданной в соответствии с приведенной выше вероятностной трактовкой задачи распознавания речи приведена на следующем рисункеЗадачей блока нормализации является нормализация входного сигнала по отношению к каналу связи, D данном случае нормализация включает в себя вычисление среднего вей влет-коэффициентов и его удаление из входного сигнала. Кодер (векторный квантователь) преобразует вектор непрерывных вейвлет-параметров в номер элемента кодовой книги. Детектор наличия речевого сигнала выполняет разделение непрерывного потока аудиосигнала на участки пауз и речи. Паузы игнорируются, а речевой сигнал распознается.

Декодер Витерби выполняет собственно распознавание речевого сигнала, на основе представления лексикона (акустических моделей слов словаря - произносительных транскрипций), акустических моделей звуков речи и модели языка. Результатом работы декодера Витерби является распознанное высказывание в виде последовательности слов словаря.

Изображенная система функционирует следующим образом: на вход системы подается речевой сигнал, который оцифровывается аппаратурой ввода сигналов и поступает на акустический препроцессор. Акустический препроцессор выполняет вычисление параметров, которые описывают входной речевой образ в пространстве выбранных признаков. На следующем этапе кодер выполнит преобразование непрерывных значений векторов признаков в последовательность символов из конечного алфавита с помощью кодовых книг. Этот поток подается на вход речь-пауза детектора, который производит поиск речевого сигнала и при его обнаружении направит этот речевой поток на декодер Витерби. Именно в этом блоке выполняется сравнение распознаваемого высказывания с эталонами, используя, при этом, акустические модели слов и модель языка. Результатом сравнения является распознанное высказывание. (последовательность слов wlw2...wN) представляется соответственно как конкатенация последовательностей состояний образующих каждое отдельное слово.

Собственно вычисление вероятности Р(Х1 Т WIN) основано на последовательном: интегрировании двух типов так называемых "локальных" вероятностей: эмиссионных вероятностей p(xt\q) появления вектора признаков xt в состоянии q и вероятностей переходов a(qi qj) от состояния qi к состоянию qj, которые определяют произносительную модель слова и выполняется в соответствии с алгоритмом Витерби.

В диссертационной работе вычисление акустических вероятностей типа p(xt\q) основано на использовании дискретных Марковских моделей, когда каждый непрерывнозначный вектор вейвлетных коэффициентов xt кодируется дискретным кодом j - номером элемента кодовой книги: {yj}, j=l,rt , такого, что yj .= F(xt), Функция F выбирает ближайший, по выбранной метрике (использовалось евклидово расстояние) к входному вектору коэффициентов, элемент кодовой книги.

Оценка параметров акустических моделей звуков при использовании дискретных моделей сводится к оценке распределения вейвлетных параметров звука по элементам кодовой книги.

Для повышения точности оценки локальной вероятности наблюдения вектора признаков х в состоянии q используется сглаженная оценка вероятности, вычисленная по нескольким элементам кодовой книги, ближайшим к вектору параметров сигнала: Таким образом, для реализации процедуры распознавания с использованием дискретных моделей нужно построить кодовые книги, которые осуществляют процесс векторного квантования входящих векторов коэффициентов вейвлетного разложения.

В качестве векторного квантователя в диссертационной работе была выбрана модель самоорганизующихся карт признаков Кохонена, В отличие от обычно используемых в этих целях алгоритмов кластеризации типа -среднего, карта признаков обладает свойствами "сохранения топологии", что позволяло организовать процедуру быстрого поиска на карте при выполнении распознавания, что было существенно, с точки зрения времени распознавания (основные вычислительные затраты при распознавании приходились на векторное квантование). Оценка параметров дискретных марковских моделей с помощью самоорганизующихся карт признаков Кохонена. состоит из набора элементов, образующих М-мерную решетку. Все элементы сети получают в момент времени t в качестве входа один и тот же вектор признаков x(t).

Каждый элемент сети и(к) (индекс к соответствует координатному вектору элемента в сети) характеризуется собственным набором коэффициентов связей, по которым к нему поступает x(t): (/) {w(0)}f ієі,,-.,ЛГ. Величина реакции элемента и(к) на входной вектор признаков x(t) вычисляется как расстояние между этими векторами в некоторой, например, евклидовой метрике

Оценка параметров на основе неднадическнх вей влетов

Предыдущие эксперименты показали невысокую точность распознавания речи с применением акустического процессора, основанного на диадических вейвлетах. Причиной тому послужило малое количество частотных уровней фильтров акустического процессора. Применение недиадических вейвлетов позволяет использовать различные частотные уровни фильтров.

В связи с этим был построен акустический процессор на основе вейвлетов, имеющих спектральные максимумы в соответствии с частотными диапазонами характерными для механизма человеческого восприятия речи. Он был интегрирован в систему распознавания речи. Обучение системы велось как на раздельном произношении слов, так и на слитном. Материал распознавания состоял, как из слов, используемых при обучении системы, так и новых слов. На стадии распознавания было также использовано произношение дикторов, которое не использовалось на стадии обучения системы.

При проведении экспериментов с использованием недиадических вейвлетов была использована составная система анализирующих функций: в области ниже 250 Гц использовался вейвлет-базис на основе функции голосового источника в соответствии с формулой (22): Масштабирующие параметры были подобраны так, чтобы спектральные максимумы приходились на частоты: 50 Гц, 100 Гц, 150 Гц, 200 Гц. В области выше 250 Гц был использован базис Добеши-8. Каждая из этих функций была отмасштабирована таким образом, чтобы спектральные максимумы совпадали с серединами критических полос слуха. То длина носителя в сэмплах есть в соответствии с формулой (26) находилась следующим образом

Вычисление свёртки S(n) происходило на основании значений интегралов вейвлет-функций каждого частотного уровня: где M— размер носителя, m — индекс точек в носителе, ал — индекс частотной полосы. Логарифм значений свёртки с каждой из анализирующих функций даст компоненты вектора признаков в каждый момент времени. В экспериментах с применением недиадических вейвлетов был также использован материал фонетической части речевого корпуса данных TeCoRus [44]. Как и в экспериментах с диадическими вейвлетами всего в экспериментах было использовано произношение 6 дикторов на цифровом словаре, а также на словаре из 60 слов. В частности, использовался сигнал микрофонного качества, с частотой квантования 22050 Гц, D качестве системы вей влет-функций в диапазоне частот 250 — 13000 Гц для исследования речевого сигнала были выбраны функции Добеши-8, отмасштабиро ванные в соответствии с критическими полосами человеческого слуха. А в частотной области 50 — 250 Гц в качестве анализирующих функций были выбраны отмасштабированные вейвлет-функции голосового источника.

В качестве обучающего материала опять использовалось изолированное и слитное произношение слов различными дикторами. На стадии распознавания использовалось произношение дикторов, произношение которых использовалось на стадии обучения, а также дикторов, чьё произношение на стадии обучения использовано не было. Оцененная таким образом точность распознавания не превысила 77%.

С целью повысить точность распознавания был реализован механизм предыскажения верхних частот. Эксперимент аналогичный предыдущему дал оценку точности распознавания около 80%. В следующем эксперименте использовался цифровой материал речевой части TeCoRus, Производились оценки точности для изолированного произношения и слитного произношения цифр. Обучение системы велось отдельно для дикторов-мужчин и диктров-женщин. Результаты оценки точности распознавания представлены в таблице 14 раздельно для каждого пола.

Ти произношения Мужчины Женщины Изолированное произношение 98% 98% Слитное произношение 84% 80% Всего 91% 89% Описанные в данной главе численные эксперименты по оценке точности распознавания в системе распознавания речи с применением всйвлет-анализа позволяют сделать следующие выводы: 1- Экспериментальное тестирование системы распознавания речи с использованием диадических вейвлетов показало невысокий процент автоматического распознавания (не более 94% для раздельного произношения и не более 72% для слитного произношения слов). 2. Эксперименты по использованию педиадических вейвлетов, учитывающих особенности человеческого слуха, а также вейвлеты, основанные на моделировании механизмов речевоспроизведения, показали точность распознавания, сравнимую с точностью распознавания при использовании блока предобработки, основанном на Фурье-преобразовании (точность распознавания раздельного произношения слов в системе с недиадическими вейвлетами составила 98%,

Похожие диссертации на Применение вейвлет-анализа в задачах автоматического распознавания речи