Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Герасимов Александр Вячеславович

Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала
<
Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Герасимов Александр Вячеславович. Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала : диссертация ... кандидата физико-математических наук : 05.13.01 / Герасимов Александр Вячеславович; [Место защиты: Нижегор. гос. техн. ун-т].- Нижний Новгород, 2007.- 151 с.: ил. РГБ ОД, 61 07-1/1682

Содержание к диссертации

Введение

Глава 1: Методы акустической обработки сигналов в задаче автоматического распознавания речи (литературный обзор)... 13

1.1 Архитектура и задачи систем обработки речи. Место алгоритмов акустической обработки 13

1.2 Акустическая модель речеобразования 15

1.3 Алгоритмы получения акустических признаков 20

1.3.1 Анализ временных параметров 21

1.3.2 Кратковременный спектральный анализ [29, 30, 38] 26

1.3.3 Гомоморфная обработка [61] 35

1.3.4 Параметрическое моделирование: авторегрессионная модель и линейное предсказание [34, 35, 41, 42] 41

1.4 Заключение и выводы по главе 46

Глава 2: Метод вычисления параметров устойчивой линейной модели и акустических признаков для вокализованного речевого сигнала 49

2.1 Метод вычисления параметров линейной модели 49

2.1.1 Расчет первичного набора параметров на основе собственных векторов разложения автокорреляционной матрицы сигнала [75] 50

2.1.2 Связь разложения речевого сигнала по собственным векторам с гармоническим разложением писаренко 52

2.1.3 Связь модели писаренко сигнала с авторегрессионной моделью и методом линейного предсказания 54

2.1.4 Влияние белого шума наблюдения на авторегрессионные параметры 55

2.1.5 Описание алгоритма вычисления параметров модели 57

2.2 Экспериментальная оценка применимости модели к зашумленным речевым сигналам 59

2.2.1 Анализ оценок амплитудных спектров, рассчитанных на основе коэффициентов традиционной и предложенной модели 59

2.2.2 сравнительный анализ устойчивости параметров модели по отношению к шумам 62

2.3 Расчет акустических признаков 64

2.3.1 Проблема выбора метрики для сравнения признаков 64

2.3.2 Алгоритм вычисления кепстральных коэффициентов по коэффициентам параметрической модели [80] ;. 65

2.3.3 Визуальная оценка сходства формантной картины и огибающей спектра рассчитанной по акустическим признакам на основе предлагаемого метода 67

2.4 Сравнительный анализ шумовой устойчивости алгоритмов вычисления

Акустических признаков [80] 71

2.5 Заключение и выводы по главе 73

Глава 3: Исследование влияния помех на акустические признаки и решение задачи их устранения 75

3.1 Постановка задачи 75

3.2 Методы фильтрации сигнала 78

3.3 Метод фильтрации сигнала на основе анализа собственных чисел разложения его автокорреляционной матрицы 80

3.4 Проблемы, связанные с обработкой реального (немодельного) сигнала 82

3.4.1 Исследование поведения собственных чисел разложения акм для реальных сигналов и шумов 83

3.5 Исследование влияния помех на признаки. Методы устранения нежелательных последствий 89

3.5.1 Влияние тренда на распределение собственных чисел и способы его устранения 89

3.5.2 Влияние низкочастотных составляющих сигнала на распределение собственных чисел и способы их коррекции 93

3.6 Оценка эффективности фильтрации в зависимости от уровня шума 97

3.7 Заключение и выводы по главе 99

Глава 4: Методы вычисления порядка параметрической модели 101

4.1 Постановка задачи 102

4.2 Традиционные способы определения порядка модели и их применимость к задаче кодирования речевых сигналов 104

4.2.1 Пороговый метод 104

4.2.2 Методы минимизация целевой функции (критерии акаике) 105

4.3 Метод определения порядка модели на основе сравнения амплитудных оценок спектра моделей смежных порядков [85,87] 107

4.3.1 Свойство подобия спектральных и формантных картин 107

4.3.2 описание алгоритма [87] 108

4.4 Метод определения порядка модели на основе сравнения векторов параметров для различных методов линейного прогнозирования [86,88] 111

4.4.1 Подобие параметров коэффициентов традиционного и модифицированного методов линейного предсказания 111

4.4.2 Описание алгоритма 112

4.5 Сравнительный анализ устойчивости работы алгоритмов определения порядка модели в условиях помех 115

4.6 Заключение и выводы по главе 116

Глава 5: Анализ эффективности работы метода получения акустических признаков. Методики тестирования 118

5.1. Тестирование метода акустической обработки 118

5.1.1 Схема блока акустической обработки сигнала, построенного на базе предлагаемого метода 119

5.1.2 Схема блока акустической обработки сигнала, применяемого в распознающей системе 1s1p-asr [106] 121

5.2. Методика оценки устойчивости алгоритмов акустического кодирования... 123

5.2.1 Создание алфавита акустических речевых единиц 124

5.2.2 Метод оценки ошибок классификации 126

5.2.3 Сравнительный анализ устойчивости работы алгоритмов акустической обработки [89] 129

5.3. Заключение и выводы по главе 130

Заключение 131

Список литературы

Введение к работе

Речевой сигнал как средство передачи информации используется для создания естественных интерфейсов связи с машиной, что упрощает решение многочисленных задач в разнообразных приложениях. Одна из главных возникающих при этом трудностей связана с построением комплексной системы обработки речевых данных, дающей корректный устойчивый результат независимо от возможных искажений сигнала. Основной функцией систем обработки речевого сигнала является распознавание произнесенной фразы и извлечение смысла принятого сообщения, достаточного для принятия решения и генерации соответствующего ответа.

Первичной процедурой в задаче обработки речевого сигнала является акустическая обработка, которая заключается в сопоставлении каждому фрагменту сигнала некоторого набора признаков, в которых закодирована фонетическая информация, содержащаяся в данном фрагменте сигнала. Среди вопросов, относящихся к акустической обработке сигналов, одним из важнейших является вопрос устойчивого кодирования сигнала в условиях искажений и различного рода помех[1-9, 34]. Задача обнаружения сигнала в помехах и его извлечения имеет большое практическое значение для проектирования систем обработки речевых данных [10-16, 52]. Большинство существующих систем построены по модульному принципу, поэтому получаемая с помощью процедуры акустического кодирования информация в том или ином виде используется всеми остальными процедурами, и ошибки, допущенные на начальном этапе обработки, приводят к снижению эффективности работы системы в целом [10,13]. Результат работы методов акустического кодирования определяет качество работы всей системы, поэтому особое внимание уделяется разработке методов, чувствительных к изменениям фонетической структуры, и в то же время устойчивых к шумовым искажениям сигнала. Устойчивость к шумовым искажениям

означает, что изменение уровня помех не приводит к существенному изменению вычисляемых признаков. В случаях, когда в структуре помехи наблюдается некоторая закономерность, достаточно легко подобрать метод компенсации такой помехи в сигнале и отфильтровать ее на этапе предобработки сигнала. В случаях, когда данные о помехе отсутствуют, и компенсирующий алгоритм подобрать затруднительно, фильтрация сводится к отбрасыванию всех данных кроме тех, которые соответствуют полезному сигналу. Фильтрация помех также является задачей акустической обработки.

Известно, что необходимая для распознавания фонетическая информация в речевом сигнале в значительной степени представлена его вокализованной частью. Таким образом, важной задачей алгоритмов акустической обработки является кодирование фонетической информации для вокализованных фрагментов речевого сигнала, устойчивое к наличию в нем вариаций произношения, а также помех.

Этап акустической обработки в системах распознавания речевого сигнала представлен целым семейством алгоритмов, основная цель которых заключается в оценке огибающей мгновенного спектра сигнала, содержащей фонетическую информацию [10,13,14,35,61]. Современные методы обработки вокализованных сигналов подразумевают использование для этих целей линейных параметрических моделей, позволяющих эффективно моделировать гармоническую структуру сигнала и потому более предпочтительных. В данном случае параметры модели рассматриваются как акустические признаки. С параметрическими моделями тесно связана задача определения порядка модели. Неверные значения порядка приводят к потере полезной либо к внесению паразитной информации в оценки параметров, что отрицательно сказывается как на оценках вычисленных признаков, так и на качестве работы использующих их методов в целом. Существующие в настоящее время методы определения порядка модели дают, как правило, заниженные значения и не обеспечивают требуемой точности решения,

потому в большинстве существующих систем используются некоторые усредненные значения порядков, установленные экспериментально.

Таким образом, важной задачей акустической обработки сигнала является формирование устойчивых акустических признаков на основе линейной параметрической модели.

Целью диссертационной работы является определение устойчивых акустических признаков речевых сигналов на основе методов линейного предсказания, разработка методов и алгоритмов вычисления этих признаков, исследование эффективности разработанных методов и алгоритмов на модельных и реальных данных. В задачи работы входит:

  1. Разработка метода формирования устойчивых признаков речевых сигналов на основе линейной модели авторегрессии - скользящего среднего (АРСС) и методе модифицированного линейного предсказания.

  2. Разработка методов определения порядка используемой линейной модели.

  3. Анализ и алгоритмов устранения искажений признаков, связанных с обработкой немодельных речевых сигналов.

  4. Исследование эффективности работы реализованных методов и алгоритмов по отношению к помехам высокого уровня для модельных и реальных вокализованных речевых сигналов.

Актуальность работы состоит в том, что использование устойчивых акустических признаков в распознающих и кодирующих системах является ключевым фактором повышения эффективности этих систем, что в свою очередь обеспечивает возможность применения этих систем в более широком диапазоне условий. Вместе с тем в настоящий момент отсутствует универсальный подход к созданию оптимальной системы акустических признаков. Поиск новых методов и алгоритмов формирования акустических признаков, эффективно решающих те или иные классы задач, составляет в

настоящее время одно из важных направлений в области обработки речевых данных.

Научная новизна работы состоит в том, что создан новый метод формирования и вычисления устойчивых акустических признаков, основанный на представлении вокализованного речевого сигнала в виде суммы гармонических составляющих в белом шуме и использовании модели Писаренко сигнала вместо традиционно используемой авторегрессионной модели. Этот метод обладает свойством информационной оптимальности и тем самым гарантирует максимальную информационную эффективность в классе линейных моделей. Для данного метода разработан алгоритм определения порядка используемой модели, учитывающий специфику анализируемого сигнала и дающий устойчивый результат.

Практическая ценность работы состоит в том, что разработанные алгоритмы могут быть использованы в современных системах обработки речевых сигналов, как на основе существующей структуры и состава этих систем, так и путем включения в эти системы дополнительных блоков, реализованных программным или аппаратным образом.

Апробация работы.

Основные результаты диссертационной работы докладывались и обсуждались:

на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ, 2002,2003, 2005 гг.),

на Научной конференции «Роль молодых ученых в развитии информационных технологий и подготовке специалистов» (Нижний Новгород, 2002),

на V-й Международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2003),

на П-й Всероссийской научной конференции «Проектирование научных и инженерных приложений в среде MATLAB» (Москва, 2004),

на VI-й, VIII-й, ІХ-й Научной конференции по радиофизике (Нижний Новгород, Радиофизический факультет ННГУ, 2002, 2004, 2005 гг.),

на Конференции МэИнфо-2005 (Зеленоград, МИЭТ, 2005),

на V-й Международной научно-технической конференции «Электроника и информатика - 2005» (Зеленоград, МИЭТ, 2005),

на XXIV-x научных чтениях имени академика Н.В.Белова (Нижний Новгород, 2005).

Публикации.

Основные результаты, полученные в диссертации, опубликованы в 12-ти работах, в том числе в 5-ти статьях, среди которых статьи в журналах:

«Вестник нижегородского университета им. Лобачевского, серия радиофизика, 2004,

«Радиотехника и электроника», 2005,

«Радиофизика», 2006.

Основные положения, выносимые на защиту.

  1. Метод формирования устойчивых признаков речевых сигналов на основе модифицированной линейной модели.

  2. Результаты исследования на признаки реальных помех. Применение методов фильтрации в пространстве признаков для повышения их устойчивости.

  3. Методы определения порядка используемой линейной модели.

  4. Результаты исследования эффективности разработанных методов в условиях высоких уровней помех и меняющихся помех.

Содержание работы.

Диссертационная работа состоит из введения, пяти глав, заключения, списка используемых литературных источников и двух приложений.

Первая глава содержит краткий обзор актуальных в настоящее время задач, связанных с акустической обработкой речевых сигналов, а также обзор используемых подходов. Рассматривается речевая акустическая модель, представляющая вокализованный речевой сигнал в виде свертки двух компонент; первый представлен сигналом с голосовых связок и характеризует тембр речи, а второй представлен фильтровой функцией речевого тракта и характеризует фонетический состав произносимого сигнала. Отмечается значимость информации о формантах для описания речи. Далее рассматриваются базирующиеся на описанной модели и традиционно применяющиеся для вычисления акустических признаков методы оценки характеристик речевых сигналов, таких как анализ временных параметров, кратковременный спектральный анализ. Особое внимание уделяется кепстральному анализу и параметрическому моделированию, представленному авторегрессионной моделью сигнала и методом линейного предсказания. Приводится краткое описание преимуществ и недостатков, присущих данным методам, в основном связанных с наличием помех в сигнале. В заключение сделан вывод о перспективности разработки метода вычисления устойчивых признаков.

Вторая глава посвящена решению задачи получения устойчивых акустических признаков вокализованных сигналов. Так как параметрическое представление сигнала, максимально подходящее для описания содержащейся в нем информации, в общем случае может быть неприменимо для широко используемых процедур сравнения и классификации, предлагается разделить задачу получения акустических признаков на два этапа. На первом этапе рассчитывается первичный набор параметров модели, для вычисления которых используется метод модифицированного линейного

предсказания. На втором этапе на основе полученных параметров рассчитываются кепстральные коэффициенты, которые интерпретируются как акустические признаки.

Отказ от использования традиционной модели авторегрессии в задаче вычисления первичного набора параметров обусловлен тем, что передаточная функция, соответствующая модели зашумленного вокализованного сигнала, содержит не только полюсы, но и нули. В этих условиях целесообразнее использовать модель Писаренко, которая представляет собой частный случай АРСС-модели, и удобным способом учитывает данную особенность сигнала. Показано, что АРСС-процесс, описываемый моделью Писаренко, обладает особым видом симметрии, в результате чего его АР-параметры оказываются идентичными СС-параметрам. Это свойство при решении задачи определения вектора коэффициентов соответствующей ему модели позволяют свести задачу к анализу собственных значений разложения его автокорреляционной матрицы (АКМ) и найти вектор коэффициентов с помощью метода модифицированного линейного предсказания. Основной особенностью такого подхода является то, что корни характеристического полинома, сформированного на основе коэффициентов используемой модели, лежат на единичной окружности, а процедура нахождения собственного вектора устойчива и может быть выполнена с высокой точностью.

Для решения задач сравнения и классификации сигналов по их акустическим признакам в качестве таких признаков используются кепстральные коэффициенты, для которых имеются алгоритмы сравнения и большой опыт применения в системах обработки речи. Кепстральные коэффициенты вычисляются на основе коэффициентов традиционного линейного предсказания с помощью алгоритма, который может быть легко распространен и на модифицированный метод предсказания. Использование в качестве акустических признаков кепстральных коэффициентов позволяет

применять получаемые результаты в существующих системах обработки речи.

Третья глава посвящена вопросам ослабления влияния на акустические признаки присутствующих в сигнале аддитивных помех. Формулируется задача фильтрации, описываются применяемые подходы. Рассматривается применимость алгоритма фильтрации собственных чисел автокорреляционной матрицы для речевых сигналов как алгоритма фильтрации в пространстве признаков. Экспериментально исследуется влияние различных помех на признаки, предлагаются способы ослабления или полного устранения их влияния. В заключительной части главы приводятся результаты экспериментального исследования эффективности работы алгоритма фильтрации в зависимости от уровня шума.

В четвертой главе рассматривается проблема определения порядка линейной параметрической модели. Формулируются отличия от классической задачи оценки порядка модели и основные возникающие проблемы. Приводятся существующие подходы к оценке порядка модели, рассматривается их применимость к моделированию реальных речевых сигналов. Предлагается два метода определения порядка модели, ориентированных на специфику речевого сигнала. Первый метод основан на анализе сходства спектральных оценок, соответствующих смежным порядкам моделей. Второй метод основан на анализе соответствия векторов коэффициентов, вычисленных с помощью традиционного метода линейного предсказания и предложенного метода. Приводятся экспериментальные результаты сравнительного исследования эффективности определения порядка модели.

Пятая глава посвящена анализу эффективности метода акустического кодирования, решающего задачи предварительной фильтрации по собственным числам, определения порядка модели, вычисления набора коэффициентов модифицированного предсказания и расчета на их основе

кепстральных признаков для решения дальнейших задач классификации. Оценивалась корректность классификации входных акустических данных сформированным вокализованным данным полного фонемного алфавита.

Для проведения исследования эффективности работы блока акустического кодирования, в качестве входного сигнала использовался сформированный фонетический алфавит, состоящий из гласных и носовых звуков. Оценивался процент ошибочных отнесений зашумленного экземпляра фонемы к остальным фонемам сформированного алфавита. Для сравнения был взят метод акустического кодирования, используемый в одной из существующих систем распознавания речи. Приведенные в главе результаты исследования, показывают, что процент ошибок классификации фонем для предложенного метода ниже, чем для стороннего метода, что говорит об устойчивости акустических признаков, вычисленных предложенным методом.

В заключении содержится сводка основных результатов по всем главам, и даются выводы по работе в целом.

В приложении 1 приводится вывод формулы разложения по собственным векторам автокорреляционной матрицы сигнала, представляющего собой смесь синусоид в белом шуме.

В приложении 2 обосновывается выбор модели авторегрессии -скользящего среднего в качестве подходящей модели для вокализованного речевого сигнала. Приводится процедура нахождения параметров модели.

Архитектура и задачи систем обработки речи. Место алгоритмов акустической обработки

Кепстр мощности бы впервые описан как эвристический метод нахождения моментов прихода отражений составного сигнала и применялся в задачах подавления эха и реверберации. Комплексный кепстр связан с теорией гомоморфных систем и относится, по существу, к одному из конкретных приложений этой теории. Для задач акустического кодирования речевого сигнала, где нет необходимости восстанавливать сигнал, сохранение фазовой информации, а значит, применение комплексного кепстра является избыточным. Вполне достаточно ограничиться анализом кепстра мощности, который и будет рассмотрен ниже.

На практике применение кепстра оказывается эффективным, если элементарная волна и импульсная последовательность, свертка которых образует сложные данные, имеют различные спектральные свойства, а потому в кепстральном пространстве занимают различные области кепстральных частот (сачтот). Поэтому предлагается следующее определение: кепстр мощности последовательности данных - это квадрат модуля z-преобразования (на практике используют Фурье) логарифма квадрата модуля z-преобразования последовательности данных. Математически выражение для кепстра мощности записывается в виде cW = ( _1(logX(z)2))2 (1.3.3-5) —Aog\ X(z)2\z"-ldz 2m где X(z) - z-преобразование последовательности данных x{n). Таким образом, если речь идет о свертке двух последовательностей/ ) ng(n): x(n) = f(n)g(n) \X(z)\2=\F(z)\2-\G(z)\2 (L3 3"6) откуда log X{zf = log F(z)2 + log G(z)21. (1.3.3-7) Используя (3.3-5), получаем xpe(n) = fpe(n) + gpc(n) + член перекрестного _ произведения (1.3.3-8а)

Если кепстры мощности / и g занимают различные области сачтот, то (1.3.3-8а) можно привести к соотношению Xpe(n) = fpe(n) + gpe(n), (1.3.3-86)

При указанном условии вклады каждого кепстра мощности можно выделить посредством лифтрации (фильтрации в области сачтот). Для речевых сигналов описанный метод кепстрального анализа может быть легко распространен на свертку из трех последовательностей, отвечающих теории речеобразования.

Применение кепстрального анализа в распознавании речи [61,94]

В области исследования речи можно выделить по меньшей мере две проблемы, к которым применим кепстральный анализ. Первая - это оценка огибающей речевого спектра. Речевой спектр обычно сильно изрезан и выглядит как волнообразный частокол. Изрезанность или модуляция спектра отражает влияние основной частоты (тона) говорящего, или периодической импульсной последовательности. Импульсную последовательность можно исключить из кепстра с помощью лифтра (фильтра в кепстральной области) коротких сачтот. Процесс обращения (см. рис. 1.3.3-2) завершается получением спектра. В результате находится оценка огибающей речевого спектра. Однако такая оценка хуже оценки по методу линейного прогнозирования (обращение свертки методом прогнозирования), поскольку допускает проникновение в вычисляемые данные просодической информации [35,41,42, 61].

Вторая общая проблема - оценка периода основного тона или интервала между импульсами возбуждающей импульсной последовательности. Такую оценку легко осуществить путем воздействия на кепстр лифтра длинных сачтот с последующей операцией обращения. Период основного тона можно также измерить непосредственно по спектру, определяя промежуток времени от начала координат до первого пика [61].

В задачах распознавания речи, как правило, в качестве вектора акустических признаков используется набор кепстральных коэффициентов в Mel масштабе (MFCC) фиксированной размерности. Каждый коэффициент представляет собой вычисленное значение энергии внутри полосы по Mel-или Bark-шкале от спектра сигнала, обработанного лифтром низких сачтот для удаления просодической информации.

К параметрическому описанию процесса можно прийти, рассматривая модель временного ряда, соответствующего анализируемому случайному процессу. Многие детерминированные и случайные процессы с дискретным временем (к коим относится и речевой сигнал), с которыми приходится иметь дело на практике, хорошо аппроксимируются моделью на основе рациональной передаточной функции. В этой модели входная последовательность пп и выходная последовательность х„, которые используются для моделирования данных, связаны линейным разностным уравнением вида

Расчет первичного набора параметров на основе собственных векторов разложения автокорреляционной матрицы сигнала [75]

Традиционная процедура разложения анализируемого сигнала по набору базисных функций предполагает наличие единого (общего) базиса для всего набора входных сигналов, в котором каждый входной сигнал представляется распределением весовых коэффициентов (спектром). Спектр, соответствующий каждой реализации сигнала, и является тем самым первичным набором параметров, который используется в дальнейшем для вычисления акустических признаков [17,43]. Оптимальным является ортогональный базис минимальной размерности, достаточной для представления всей информативной составляющей сигнала. Энтропия спектрального распределения входных сигналов в таком базисе минимальна [57, 58]. В этом случае спектр сигнала в выбранном базисе, т.е. набор первичных параметров, будет удовлетворять сформулированному выше требованию информационной оптимальности кодирования.

Идеальным базисом для речевого сигнала представляется базис, размерность которого равна числу возможных акустических единиц (фонем) для данного языка, каждая из которых исчерпывающе представляется вектором базиса. В этом случае каждая фонема кодируется номером вектора в базисе.

Акустические свойства речи весьма вариативны и избыточны [10, 16,32, 57, 58, 76]. Варианты произношения большинства акустических единиц (в силу тембрового окраса, высоты голоса, акцента и т.п.) настолько различаются, что невозможно собрать полный набор реализаций произношения любой взятой фонемы, равно как и разделить в пространстве акустических параметров все фонемы на непересекающиеся области (кластеры) [101]. Традиционно применяющийся в качестве базиса разложения Фурье-базис, насчитывает 128/256/512 векторов, для возможности кодирования диапазона частот от 20 Гц до 7 кГц, т.е. каждой реализации сигнала ставится в соответствие набор из нескольких сотен признаков [44,76]. Исследования избыточности информации при спектральном кодировании [57] показали, что для представления фонем достаточно 3-5 признаков. Этот факт иллюстрирует избыточность Фурье-базиса для представления сигнала, т.к. при этом вносится дополнительная (шумовая) информация в признаки.

В работе предлагается отказаться от поиска единого базиса для всех реализаций входных сигналов и использования спектрального распределения как набора признаков, характеризующего сигнал. Вместо этого предлагается каждый входной сигнал представлять в базисе собственных векторов автокорреляционной матрицы с их весами. В качестве первичных параметров предлагается использовать не спектр (весовые коэффициенты), а сами собственные векторы разложения автокорреляционной матрицы сигнала [75]. Такое разложение обладает рядом неоспоримых преимуществ. Во-первых, каждый входной сигнал представляется векторами собственной размерности, отражающей всю необходимую информацию о сигнале и не включающей в себя шумовой информации. Во-вторых, использование векторов, содержащих только информацию о сигнале, является мощным средством повышения значения соотношения сигнал/шум (фильтрации сигнала).

Как было отмечено в главе 1, вокализованный сигнал может быть представлен как амплитудно-модулированный набор синусоид в шуме. При некоторых допущениях шум можно положить «белым», тогда модельное представление речевого сигнала будет соответствовать представлению, для которого возможно применение алгоритма гармонического разложения Писаренко (ГРП) [34,45, 95]. Модель, представляющую сигнал в виде суммы синусоид в белом шуме также будем называть ГРП-моделью.

Разложение по собственным векторам автокорреляционной матрицы сигнала, представляющего собой сумму синусоид в белом шуме подробно рассматривается в Приложении 1 и может быть записано в виде: м р RP = ! НМ" +Р0 2 ,я , (2.1.3-1) Ы /=Л/+1 где Rp - автокорреляционная матрица (АКМ). V,- - собственные векторы автокорреляционной матрицы, ЛІ - собственные числа, соответствующие векторам подпространства сигнала, Ра, - дисперсия шума и собственные значения подпространства шума, М- ранг АКМ, р - размерность АКМ.

При визуальном анализе получаемых результатов порядок разложения может варьироваться экспериментатором исходя из распределения собственных чисел. В частности, при р=М+1, шумовому подпространству будет соответствовать один вектор. Соответствующее ему собственное значение будет минимальным [34, 46].

Метод фильтрации сигнала на основе анализа собственных чисел разложения его автокорреляционной матрицы

Поступающий входной сигнал разбивается на небольшие выборки (фреймы). Размер выборки определяется соображениями с одной стороны о ее представительности (т.е. чем длиннее, тем лучше), с другой стороны о времени ее стационарности. Для речевого сигнала с частотой дискретизации 8000 Гц оптимальный размер такой выборки составляет 512 отсчетов [\6]. Для сохранения информации на границах выборки часто используют половинное или третичное перекрытие фреймов.

Для каждой выборки сигнала по ее автокорреляционной последовательности строится теплицева автокорреляционная матрица размера р\. Размер матрицы должен быть несколько больше, чем истинный порядок модели, чтобы по распределению собственных чисел можно было найти границу между сигнальным и шумовым подпространством. Для кодирования речевых сигналов порядок модели, как правило, берут равным 12-18, так что размера АКП равного 30 отсчетам вполне достаточно.

В процессе вычисления параметров линейной модели (см. главу 2) матрица подвергается разложению вида 3.3.1-1, R = U-S-VT , (з.зл-1) где R - автокорреляционная матрица, U- унитарная матрица собственных векторов, S- диагональная матрица собственных чисел, V - унитарная матрица собственных векторов. называемому также сингулярным. Так как матрица R - квадратная и действительная, матрицы U и V будут совпадать, и состоять из действительных элементов.

В случае если сигнал представляет собой набор синусоид в белом шуме, это разложение может быть записано также в виде: Р2 р\ Rpx = Е (Р + Л iv" + Рсо Xv,v/ (з.зл-2) ;=i /=/72+1 где Rpi - автокорреляционная матрица (АКМ). V/ - собственные векторы автокорреляционной матрицы, ЛІ - собственные числа, соответствующие векторам подпространства сигнала, ра, - дисперсия шума и собственные значения подпространства шума, р2 - ранг АКМ сигнала, а также истинная величина порядка модели, pi - размерность АКМ.

По собственным значениям (диагональные элементы матрицы S) определяется порядок модели pi. Алгоритм поиска подробно описывается в следующем разделе. Все элементы с индексом больше р2, приравниваются нулю, что соответствует устранению вклада всех собственных векторов, принадлежащих шумовому подпространству. Чем больший размер р\ взят, тем больший процент шума будет вычищен, но тем больше будет вычислительная стоимость алгоритма.

Матрицы разложения перемножаются. Таким образом, векторы шумового подпространства с нулевыми весами больше не входят в получившуюся АКМ. Из получившейся матрицы берется первый вектор АКП и усекается ср\ дор2.

Получившаяся АКП и является «отфильтрованной». По ней нельзя восстановить временную выборку, но можно использовать для дальнейшего вычисления информативных признаков. В качестве наглядной оценки результата фильтрации могут использоваться, например, амплитудные Фурье-образы зашумленной исходной и очищенной АКП одного порядка или распределение собственных чисел вновь рассчитанного разложения отфильтрованной АКМ.

Акустическая модель речи [21] и, тем более, реальный сигнал отличаются от опорной модели, представляющей сигнал как аддитивную смесь синусоид и шума с нормальным распределением плотности вероятности. Реальный шум, как правило, коррелирован, а эквидистантно расположенные гармоники, за счет амплитудной модуляции, составляют пики с плавно изменяющейся амплитудой. Распределение собственных чисел такого сильно плавно спадает, что сильно осложняет процесс их разделения на сигнальные и шумовые составляющие (методы разделения сигнального и шумового подпространств более подробно рассматриваются в следующей главе).

Человеческая речь обладает таким свойством, что энергия сигнала сосредоточена преимущественно в низкочастотной области, около частоты основного тона. Отличия реального речевого сигнала от модельного обуславливается также присутствием тренда в сигнале вследствие погрешностей записи. Все вышеперечисленные особенности влияют на распределение собственных значений, используемое, в конечном счете, для построения модели правильного порядка. Ниже приводятся результаты исследования влияния указанных особенностей на признаки и способы устранения их нежелательного влияния.

Традиционные способы определения порядка модели и их применимость к задаче кодирования речевых сигналов

Речевой сигнал содержит широкий набор звуков с различными формантными свойствами. Число формант (гармоник) для каждой фонемы, в общем случае, различается. Это означает, что не существует единственного «идеального» значения порядка модели. Поэтому задача определения порядка модели превращается в задачу выбора из набора векторов коэффициентов линейной параметрической модели такого вектора коэффициентов, что полученная модель кодирует информативную составляющую анализируемого сигнала. Для этого вычисляются несколько векторов коэффициентов различной длины (соответствующей порядку модели), которая выбирается из некоторого диапазона, где предположительно, находится оптимальный порядок модели, а потом производится выбор на основе какого-либо критерия [34].

При необходимости построения модели, соответствующей гармонической картине сигнала (т.е. содержащей в себе все гармоники, которые присутствуют и в сигнале) оптимальность кодирования означает, что ошибка предсказания (разница между модельным и исходным сигналом) будет минимальна и равна в идеальном случае дисперсии шума. На этом свойстве построено большинство алгоритмов определения порядка модели [51,68,70].

В рассматриваемом случае необходимо получить не гармоническую, а формантную картину. При этом одна форманта, как правило, соответствует той гармонике из группы гармоник, у которой наибольшая амплитуда. Таким образом, формантная картина в большинстве случаев может не совпадать с гармонической, а минимум ошибки предсказания не будет подходящим критерием для определения порядка модели. Соответственно, основанные на этом критерии методы будут давать нестабильный результат.

В настоящее время не существует однозначного решения описанной проблемы в контексте авторегрессионного моделирования. Подобные задачи извлечения информации о формантной картине, представляемой в виде огибающей спектра, существуют в кепстральном анализе и представляют собой отдельную проблему [2,3,61]. В контексте авторегрессионного моделирования соответствие авторегрессионной спектральной оценки формантной картине определяется экспериментатором «на глаз» и потому является субъективной оценкой качества работы алгоритма. Однако, несмотря на трудность математической формулировки соответствия, существует возможность экспериментальной проверки эффективности работы рассматриваемого алгоритма (в том числе и эвристического).

Таким образом, задача определения порядка модели формулируется как нахождение алгоритма, опирающегося на специфику вокализованного речевого сигнала и дающего удовлетворительный результат соответствия спектральной оценки формантной картине. Оценка соответствия проводится экспериментатором для каждого тестового экземпляра входного сигнала единожды, после чего проводится экспериментальная проверка в широком диапазоне значений соотношения сигнал/шум.

Несмотря на тенденцию получения с помощью традиционных алгоритмов заниженного результата для реальных сигналов, особенно в случае проявления негауссовых статистических свойств и низком соотношении сигнал/шум, их целесообразно включить в рассмотрение, чтобы провести сравнительный анализ устойчивости методов.

Пороговый метод исходит из предположения о наличии «ступеньки» в распределении нормированной ошибки либо в распределении собственных чисел. Если распределение с увеличением порядка модели собственных чисел спадает, а после некоторого значения остается постоянным (см. рис.3.3.1-2d), возможно подобрать такое пороговое значение изменения, что спадающая часть распределения собственных значений будет разделена с постоянной частью.

Выбор порогового значения зависит от формы распределения. Если «ступенька» большая, то пороговое значение можно выбирать с некоторой степенью произвола, полагая, что в большинстве случаев пороговое значение будет находиться между последним собственным значением сигнального подпространства и первым (и единственным) значением шумового подпространства. Если ступенька отсутствует или для каждой реализации занимает свой диапазон (в котором проблематично выделить общую область) - оценить значение порога, равно как и порядок модели, весьма проблематично.

Выбор значения порядка зависит от степени зашумленности сигнала (а эта информация в большинстве случаев отсутствует) и информации о анализируемой фонеме, которая станет доступно лишь после правильного «опознавания». Таким образом, подобрать единое пороговое значение или алгоритм определения порогового значения для каждой выборки сигнала подобрать весьма затруднительно. Поэтому приходится счесть пороговый метод непригодным.

Похожие диссертации на Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала