Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование системы автоматического выделения основного тона речи Лузин Дмитрий Александрович

Разработка и исследование системы автоматического выделения основного тона речи
<
Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи Разработка и исследование системы автоматического выделения основного тона речи
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Лузин Дмитрий Александрович. Разработка и исследование системы автоматического выделения основного тона речи : диссертация ... кандидата технических наук : 05.13.01, 05.11.16 / Лузин Дмитрий Александрович; [Место защиты: Ижев. гос. техн. ун-т].- Ижевск, 2009.- 168 с.: ил. РГБ ОД, 61 09-5/2620

Содержание к диссертации

Введение

ГЛАВА 1. Методы выделения основного тона речи 17

1.1. Общие положения 17

1.2. Классификация методов выделения основного тона 20

1.3. Предварительная обработка речевого сигнала 21

1.4. Методы выделения ОТ 22

1.4.1. Временные методы выделения основного тона 24

1.4.2. Спектральные методы выделения основного тона 29

1.4.3. Комбинированные методы выделения ОТ 32

1.5. Выделение интервалов вокализованных и невокализованных звуков 32

1.5.1. Классификация выделителей Т/НТ З 3

1.5.2. Методы принятия решения Т/НТ на основе частоты пересечений сигналом нулевого уровня 34

1.5.3. Методы принятия решения Т/НТ на основе энергетического критерия 35

1.5.4. Методы принятия решения Т/НТ на основе линейного предсказания речи 36

1.5.5. Методы принятия решения Т/НТ по оценке общей периодичности речевого сигнала 3 8

1.5.6. Методы принятия решения Т/НТ по изменению периодичности, получаемой при выделении ОТ 39

1.5.7. Принятие решения Т/НТ на основе многомерного анализа 40

1.6. Методы анализа результатов выделения ОТ 41

1.7. Выбор алгоритма выделения ОТ речи 42

1.8. Основные выводы и постановка задачи 44

ГЛАВА 2. Выделитель основного тона по методу GS 46

2.1. Основные положения метода GS 46

2.1.1. Выделение ОТ алгоритмом GSI 50

2.1.2. Алгоритм принятия решения Т/НТ в методе GSI 51

2.1.3. Выводы по особенностям работы алгоритма GSI 53

2.2. Выбор частоты среза фильтра верхних частот, устанавливаемого в блоке предобработки 56

2.3. Переключение полярности входного сигнала на этапе предобработки 57

2.4. Речевой материал для проведения испытаний ОТ 62

2.5. Оценка влияния динамического диапазона речевого сигнала на надежность выделения ОТ по методу GS и на надежность принятия решения Т/НТ 66

2.6. Выводы 67

ГЛАВА 3. Алгоритм начальной оценки частоты ОТ 69

3.1. Введение 69

3.2. Диапазон допустимых отклонений начальной частоты ОТ 71

3.3. Начальная оценка частоты ОТ с использованием автокорреляционной функции спектра (алгоритм АКФС) 72 3.3.1 Эксперименты по выбору окна 77

3.3.2. Оценка значения шага, используемого для смещения кадра анализа 80

3.3.3. Определение оптимального порога отбора гармоник 82

3.4. Экспериментальная оценка надежности выделения ОТ алгоритмом АКФС 84

3.5. Организация совместной работы метода GS и алгоритма АКФС 88

3.6. Выводы 94

ГЛАВА 4. Совместный алгоритм выделения от с использова нием методов gs и акфс 96

4.1. Адаптация коэффициента асимметрии^ к анализируемому сигналу 96

4.2. Алгоритм поиска оптимального значения коэффициента асимметрии в выделение основного тона по методу GS 101

4.3. Приращение максимума функции решения алгоритма GS 102

4.4. Изменение коэффициента заполнения Q в алгоритме GS 104

4.5. Динамическое определение порогов и алгоритм принятия решения Т/НТ 104

4.5.1. Введение дополнительного критерия в обобщенный признак Т/НТ 110

4.6. Структурная схема алгоритма выделения основного тона речи с адаптацией параметров алгоритма 112

4.7. Выводы 115

ГЛАВА 5. Сравнительный анализ выделителей основного тона, внедрение результатов диссертационной работы 118

5.1. Выделители основного тона в системе SIS 118

5.2. Сравнение результатов работы выделителей основного тона 123

5.3. Информационно — измерительная система с использованием алгоритма GS1 138

5.3.1. Программа TwoPass3 139

5.3.2. Программа SignalGSExplorer 140

5.4. Система обучения интонационным особенностям языка. 142

5.5. Идентификация диктора по параметрам траектории ОТ -предварительные результаты 145

5.6. Выводы 149

Заключение 151

Список литературы 154

Приложение Акты об использовании результатов

Введение к работе

Актуальность темы. Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация, связанная с контекстом произнесения, информация об интонационном типе высказывания (повествование, вопрос, восклицание), об эмоциональной направленности высказывания, об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст, читаемый газетный текст и т.д.), об окружающей диктора обстановке, информация о заболевании голосового аппарата человека и т.д.

В области наук, связанных с речью работали и работают многие известные ученые, как в России, так и за рубежом: Л.Н. Бондарко, В.И. Галунов, В.Р. Женило, Н.Г. Загоруйко, Л.В. Златоустова, С.Л. Коваль, О.Ф. Кривнова, В.Г. Михайлов, А.А Пирогов, М.А. Сапожков, В.Н. Сорокин, Р.К. Потапова, В.Н. Трунин-Донской, Л.А. Чистович, Атал, Гоулд, Итакура, Рабинер, Редди, Шафер, Фант, Фланаган и ряд других.

Научные работы в области использования речи в человеко-машинных системах относятся к приоритетному направлению РФФИ «Теория человеко-машинных систем управления».

Одним из основных параметров устной речи является частота повторения колебаний голосовых связок при произнесении вокализированной речи, называемая «Основным тоном» (ОТ). В мгновенных значениях частоты ОТ, в траектории контура ОТ переносится значительное количество информации, отличающей устную речь от письменной. Статистические параметры основного тона, диапазон его значений, диапазон скоростей изменения и т.д. в значительной мере определяют структуру и параметры устройств выделения основного тона. Эти устройства входят в состав большинства систем распознавания и обработки речи и относятся к одним из основных и наиболее сложных блоков. Взаимодействие факторов, влияющих на контур ОТ, нелинейно и имеет довольно сложные зависимости, трудно поддающиеся математическому описанию. В значительной мере методы анализа и обработки речи, используемые в системах распознавания и передачи данных, основаны на эвристических предположениях.

Методы выделения ОТ, которые можно было бы использовать для решения всех поставленных выше проблем, отсутствуют. Разработка алгоритма выделения ОТ, обеспечивающего точную и надежную оценку значений частоты ОТ, работающего в автоматическом режиме с реальным речевым сигналом в условиях реальной речевой обстановки, является актуальной задачей.

Выделитель частоты ОТ должен определять мгновенные значения частоты ОТ на всем интервале работы голосового источника, включая моменты начала и окончания вокализации. Знание мгновенных значений частоты ОТ позволяет сохранить всю информацию, содержащуюся в контуре ОТ, включая изменения, связанные с мелодией ОТ. Этот алгоритм должен работать в автоматическом режиме для произвольного речевого сигнала в условиях реальной речевой обстановки. Алгоритм должен быть достаточно прост и удобен для встраивания в другие программы по обработки речи человеко-машинных систем управления. Интерфейс алгоритма должен быть дружественным по отношению к произвольному, в том числе, незнакомому с особенностями алгоритма, пользователю.

Объект исследования: системы выделения информации из акустического сигнала речи, системы автоматизации измерений, системы выделения основного тона речевого сигнала.

Предмет исследования: интегральные и локальные методы выделения основного тона и методы принятия решения «ТОН/НЕ ТОН» (Т/НТ), обеспечивающие повышенную точность и надежность выделения частоты ОТ и признака Т/НТ, методы предварительной обработки речевого сигнала, методы организации совместной работы локального и интегрального выделителя ОТ, методы автоматизации измерений в алгоритме выделения ОТ. Цель работы: разработка и научное обоснование алгоритма выделения основного тона совместно с алгоритмом принятия решения Т/НТ, позволяющих с высокой надежностью и точностью в автоматическом режиме определять положения моментов возбуждения речевого тракта, начал и окончаний интервалов вокализации и предназначенных для работы с речевым сигналом произвольного диктора в условиях реальной окружающей обстановки.

Для достижения поставленной цели следует решить следующие задачи:

- провести анализ существующих методов выделения ОТ и методов принятия решения Т/НТ, позволяющих с высокой надежностью и точностью определять мгновенную частоту ОТ и признак Т/НТ и способных к адаптации к конкретному речевому сигналу в процессе выделения частоты ОТ и признака Т/НТ;

- уточнить параметры существующих и разработать новые способы предварительной обработки речевого сигнала, обеспечивающие повышение надежности и точности работы алгоритма выделения ОТ;

- разработать алгоритм интегральной оценки начальной частоты ОТ, необходимой для инициализации локального выделителя ОТ в моменты перехода от невокализированных интервалов речи к вокализированным;

- разработать алгоритм организации совместной работы двух выделителей ОТ, построенных на различных принципах работы: локальном и интегральном;

- разработать методику динамической адаптации параметров алгоритма выделения ОТ к конкретной реализации речевого сигнала, определить параметры алгоритма динамической адаптации;

- разработать методику выбора порогов принятия решения Т/НТ, обеспечивающую адаптацию алгоритма к конкретному произнесению в условиях реальной речевой обстановки;

- на реальном речевом сигнале провести сравнительные эксперименты по оценке надежности и точности выделения ОТ, надежности и точности принятия решения Т/НТ предлагаемым в настоящей работе алгоритмом выделения ОТ и известными методами выделения ОТ. Методы исследования включают в себя методы: системного анализа, математической статистики, теории распознавания образов, теории анализа речевых сигналов, теории цифровой обработки сигналов, методы математического моделирования на ЭВМ. Экспериментальные исследования проведены с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.

Программно-инструментальные средства реализованы на алгоритмическом языке — С\С++. Программное обеспечение разработано в среде программирования Borland C++Builder 6.

Достоверность и обоснованность полученных результатов подтверждается результатами теоретических и экспериментальных исследований. Математические модели, алгоритмы и прикладные программы, предложенные в работе, основаны на фундаментальных положениях теории речеобразования, теории цифровой обработки сигналов, в том числе речевых сигналов, а так же на методах математической статистики.

Достоверность экспериментальных результатов обеспечивается использованием большого объема экспериментального материала, экспериментальным подтверждением предложенных в диссертации решений, а также сравнением экспериментальных результатов, полученных предложенным в настоящей работе алгоритмом, с результатами работы известных методов выделения основного тона.

На защиту выносятся результаты теоретических исследований и предложений по построению алгоритма автоматизированного выделения ОТ, в том числе:

- способ адаптации параметров локального выделителя ОТ, построенного по методу GS, к конкретному сигналу произвольного диктора в условиях обработки речи, близких к реальным;

- алгоритм организации совместной работы локального и интегрального методов выделения ОТ, использующей нестабильность длительностей последовательных периодов ОТ как критерий включения алгоритма интегральной оценки ОТ;

- методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу;

- алгоритм интегральной оценки частоты ОТ на основе вычисления автокорреляционной функции огибающей спектра;

- методика определения полуволны речевого сигнала, по которой оценивают положение начала периода ОТ;

- способ оценки величины порогов принятия решения Т/НТ по гистограмме обобщенного признака Т/НТ.

- результаты сопоставительных экспериментов по выделению контуров ОТ предложенным алгоритмом выделения ОТ и известными методами выделения ОТ;

- информационно - измерительный комплекс для обучения интонационным особенностям языка;

- программно - измерительный комплекс для использования в учебном процессе при изучении дисциплин связанных с цифровой обработки сигналов.

Научная новизна полученных результатов определяется проведенными комплексными исследованиями, в результате которых разработан алгоритм выделения контура ОТ, не требующий ручной настройки, работающий в условиях реальной речевой обстановки с повышенной точностью и надежностью оценки частоты ОТ;

- впервые предложена, разработана и исследована методика автоматической адаптации параметров GS-метода, используемая для выделения основного тона речевого сигнала в условиях реальной речевой обстановки, и предложен критерий выбора текущего оптимального значения параметров этого метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала;

- впервые разработана и обоснована стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, основанного на методе GS, и интегрального выделителя ОТ, использующего автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода GS на переходах от невокализиро-ванных звуков к вокализированным, осуществляет коррекцию сбоев метода GS и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода;

- предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма;

- впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используют автокорреляционную функцию огибающей спектра и медианную фильтрацию. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокали-зированных звуков к вокализированным, при работе с сигналом при низких значениях соотношения сигнал/шум; 

- впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона;

- предложен, разработан и исследован алгоритм оценки значений порогов для принятия решения Т/НТ по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.

Практическая полезность работы состоит в том, что в результате комплексных исследований и предложений создана информационно-измерительная система автоматического выделения частоты ОТ, не требующая нормализации сигнала по амплитуде, обладающая повышенной точностью оценки мгновенных значений частоты ОТ, определяющая начало периода ОТ и обеспечивающая автоматическую подстройку параметров алгоритма к произнесению произвольного диктора.

Разработанный в ходе исследований алгоритм определения полуволны речевого сигнала, повышает точность оценки положения начала импульса ОТ, позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе системы синхронного с ОТ анализа речи.

Созданный в работе алгоритм начальной оценки частот ОТ с использованием автокорреляционной функции огибающей спектра (АКФС) обеспечивает получение интегральной оценки частоты ОТ на переходах от невокализирован-ных к вокализированным интервалам речи, на интервалах речи с повышенной нестабильностью траектории частоты ОТ при наличии аддитивных шумов и искажений. Совместная работа локального выделителя ОТ по методу GS и интегрального выделителя ОТ с использованием АКФС организована на основе критерия наибольшей близости соседних периодов ОТ. Данный критерий учитывает специфику речевого сигнала и позволяет выполнить автоматическую инициализацию метода GS в моменты начал вокализации, а также коррекцию ошибок метода GS при сбоях. Совместная работа обоих алгоритмов обеспечивает автоматическую инициализацию всего алгоритма в целом и повышение надежности и точности выделения мгновенных значений частоты ОТ.

Предложенный и реализованный алгоритм выбора оптимальной функции решения и алгоритм выбора времени блокировки выполняют автоматическую адаптацию параметров алгоритма GS к произнесению произвольного диктора.

Разработанный алгоритм определения порогов принятия решения Т/НТ по гистограмме обобщенного признака, вычисляемого синхронно с основным тоном, позволяет принимать решение Т/НТ для произвольного речевого сигнала в условиях изменения окружающей речевой обстановки.

Создан комплекс обучения интонационным особенностям иностранных языков, включая тональные языки. Комплекс обучения языку может работать как в интерактивном режиме, так и в условиях дистанционного обучения разговорной речи.

Разработанный в работе алгоритм автоматического выделения ОТ, обладающий повышенной точностью и надежностью выделения частоты ОТ и обеспечивающий автоматическую адаптацию к произвольному диктору в условиях реальной речевой обстановки, может найти применение в устройствах компрессии речи, используемых в системах связи и телекоммуникаций; в системах распознавания диктора по голосу для контроля прав доступа диктора к отдельным объектам; в системах оценки эмоционального состояния диктора, например в системах контроля состояния авиадиспетчеров; машинистов локомотивов и т.п.; в системах распознавания смысла высказывания и в других областях науки и техники.

Разработанные в диссертационной работе подходы анализа и обработки акустического сигнала нашли применение в экспертно - криминалистическом центре МВД по Удмуртской Республике при проведении криминалистической идентификации дикторов по фонограммам их устной речи, а именно при проведении микроанализа, на кафедре «Английский язык» при обучении интонационным особенностям иностранных языков, а также в виде программ и методик, внедренных в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета, что подтверждено соответствующими актами.

Апробация работы. Основные научные положения и практические результаты диссертационной работы обсуждались на: научно технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2004г.); на 3-ей научно-технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2006г.); на XVIII сессии Российского акустического общества. Секция «Акустика речи» (Таганрог, 2006г) (работа отмечена дипломом); на XIX сессии Российского акустического общества. Секция «Акустика речи» (Нижний-Новгород, 2007г.) (работа отмечена дипломом); на XX сессии Российского акустического общества. Секция «Акустика речи» (Москва, 2008г.) (работа отмечена дипломом).

Публикации. Основные результаты диссертации опубликованы в 21 работах, из них 2 опубликованы в издании, рекомендованного ВАК РФ. Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст изложен на 168 машинописных страницах, содержит 64 рисунка и 22 таблицы. Список литературы включает 142 наименований.

Во введении обоснована актуальность, сформулированы цель и задачи исследований, дана общая характеристика работы. Кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность.

В первой главе работы изложены вопросы, связанные с процессом выделения ОТ. Рассмотрены методы построения детекторов вокализации и выделителей основного тона. Указаны проблемы сравнения качества измерения ОТ разными методами. Сформулированы требования, которым должен удовлетворять выделитель ОТ. Обоснован выбор метода GS в качестве локального метода выделения ОТ. Показаны пути повышения надежности измерения ОТ и классификации речи по способу образования.

Во второй главе показан принцип работы GS - метода. Представлен алгоритм работы выделителя ОТ включая этапы предварительной обработки речевого сигнала, маркировки сигнала по GS - методу, принятия решения «ТОН/НЕ ТОН» по синхронному с ОТ способу. Описан используемый речевой сигнал и методика проведения испытаний.

Третья глава посвящена алгоритму начальной оценки частоты ОТ, выбору параметров алгоритма, проведению экспериментальной оценки надежности работы алгоритма АКФС, алгоритму совместной работы локального GS — метода и интегрального АКФС.

В четвертой главе описывается построение алгоритма выделения ОТ с использованием методов GS и АКФС; методика построения семейства решающих функций и методика выбора кандидата в следующий периодов ОТ; методика выбора оптимального значения коэффициента асимметрии, используемого для построения решающей функции в методе GS; методика выбора приращения и коэффициента заполнения решающей функции; двух проходной алгоритм принятия решения Т/НТ; общая структурная схема алгоритма выделения ОТ.

В пятой главе представлены результаты сопоставительных испытаний предложенного в работе алгоритма автоматизированного выделения основного тона GS2 с алгоритмом выделения ОТ по методу GS1, с алгоритмами выделения ОТ, основанными на пиковом, фильтровом, кепстральном методе, методе Рабинера-Гоулда и методе ЛЛК для чистого сигнала, для сигнала с добавленным шумом, для сигнала, ограниченного полосой телефонного канала и для предельно ограниченного сигнала с разным уровнем ограничения. В пятой главе дано описание разработанной в рамках настоящей работы системы обучения интонационным особенностям языка, показаны предварительные результаты по оценке возможностей использования параметров траектории ОТ для построения системы распознавания дикторов по голосу.

В заключении сформулированы основные научные и практические результаты диссертационной работы.

В приложении представлены акты внедрения.  

Методы принятия решения Т/НТ на основе частоты пересечений сигналом нулевого уровня

Подсчет числа пересечений сигналом речевого уровня (ЧПН) выполняют на длительности кадра анализа, соответствующей длительности стационарного участка звука, которую принимают равной 15..20 мс [29], [118], [105]. Точность принятия решения Т/НТ ограничена указанной длительностью. Точность принятия решения можно повысить, уменьшая величину сдвига кадра анализа. При этом пропорционально возрастает количество вычислений. Отметим, что указанный выбор положения кадра анализа не синхронизирован с речевыми событиями. Предпочтительнее использовать синхронный с ОТ анализ [5], [11] с длительностью кадра анализа, равной периоду ОТ. Признак ЧПН позволяет выполнить такой анализ [5], [7],[11].

В общем случае частота пересечений нуля не служит надежным методом принятия решения Т/НТ [11], [31]. Это вызвано низкой помехоустойчивостью этого признака, широкой изменчивостью параметров фонового шума, большой зоной перекрытия распределений частоты переходов через нуль двух рассматриваемых классов («ТОН», «НЕ ТОН»).

Энергия вокализированных звуков выше энергии невокализированных звуков и пауз. Для точной оценки возможностей использования энергии сигнала в качестве признака Т/НТ необходимо знание распределений энергии для рассматриваемых классов. Так же, как и в случае частоты пересечений нуля, существенное значение имеет длительность интервала, на которой определяют энергию сигнала [91].

Алгоритмы принятия решения Т/НТ по энергии сигнала с фиксированным порогом имеют относительно низкую надежность [31],[108],[109], поскольку принятие решения в существенной мере зависит от уровня сигнала и уровня шума. Уровни сигнала и шума не остаются постоянными даже во время произнесения достаточно короткого текста [111],[135]. Для компенсации подобных изменений используют адаптивный порог [91].

Изучение литературных источников показывает [21],[123], что, несмотря на указанные ограничения, абсолютный порог при принятии решения «РЕЧЬ/ПАУЗА» применяют достаточно часто, особенно при низком уровне шума. Это объясняется тем, что адаптация порога требует определенного времени для принятия решения и не гарантирует устранения всех ошибок при существенном усложнении алгоритма принятия решения.

Принятие решения по энергии в некоторой полосе частот, составляющей часть от полного спектра сигнала, позволяет учесть способ образования звука и, тем самым повысить надежность принятия решения [31]. Однако, ряд фрикативных и аспирированных шумных звуков, например /ф/, /х/, имеют довольно мощные составляющие в низкочастотной части спектра, что может вызвать сбои систем принятия решения по энергии в полосе частот. По данным работы [31] из-за перекрытия распределений энергии вокализированных и невокализи-рованных звуков ошибки принятия решений Т/НТ для подобных систем принципиально неустранимы и составляют величину порядка 5%.

Существенное влияние на надежность принятия решения Т/НТ как по частоте пересечения нуля, так и по энергии сигнала оказывает длительность и способ размещения интервала усреднения. Согласно [32] оптимальная длительность интервала усреднения для энергии сигнала равна 10 мс. При меньшей длительности возможны сбои из-за слишком высокого разрешения по времени, так как при длительности интервала усреднения меньше 10 мс есть вероятность попадания на участки с низким уровнем энергии даже в пределах периода основного тона. При большей длительности возможно присоединение участков глухих согласных к вокализированным участком. Так же, как и признак ЧПН, энергетический критерий предпочтительнее вычислять синхронно с ОТ на длительности кадра анализа, равной периоду ОТ [11].

В работе [106], [107] Атал и Рабинер среди других исследовали признаки, связанные с линейным предсказанием речи. Были исследованы следующие признаки: нормированный коэффициент корреляции с единичной задержкой R(l), значения которого совпадают с первым коэффициентом линейного предсказания при числе полюсов М = 1; первый коэффициент модели линейного предсказания а\ при числе полюсов М— 12 в ковариационном методе линейного предсказания; нормализованная ошибка линейного предсказания Ер.

Выбор частоты среза фильтра верхних частот, устанавливаемого в блоке предобработки

Фильтр высоких частот (ФВЧ) — необходим для удаления постоянной составляющей сигнала и подавления низкочастотных помех поступающих из канала связи на вход выделителя ОТ. С одной стороны, частота среза ФВЧ должна быть как можно меньше для уменьшения искажений низкочастотной части спектра речевого сигнала (нижний диапазон частота ОТ речи считается равным 50 Гц [40]). С другой, ФВЧ должен обеспечить подавление постоянной составляющей сигнала и низкочастотных помех. Для уменьшения вносимых искажений фильтр должен иметь наиболее плоскую АЧХ и линейную ФЧХ в полосе пропускания. В качестве фильтра ФВЧ наиболее часто применяют фильтры Баттерворта 6...8 порядка [87]. С учетом силлабической частоты речи, равной 25 Гц [103], [104] и с учетом технических характеристик звукозаписывающего оборудования (качественные микрофоны имеют диапазон 20 Гц - 20 кГц) частота среза ФВЧ выбрана равной/1 = 20 Гц. 2.3. Переключение полярности входного сигнала на этапе предобработки

В синхронном с основным тоном анализе речи [7],[40],[41],[99] необходимо находить положение начала периода ОТ. Для этой цели можно использовать метки, проставленные локальными выделителями ОТ, такими как пиковые выделители ОТ [91] или метод GS [8], [40]. Пиковые методы, как и метод GS, выносят свое решение путем обработки одной из полуволн речевого сигнала (положительной или отрицательной [8], [91], [99]) и ставят метки на глобальных максимумах этих полуволн.

На рис. 2.4 приведен пример осциллограмм двух речевых сигналов, поступивших на выделитель ОТ. Из рис. 2.4 следует, что а) глобальные максимумы одной из полуволн могут соответствовать, а могут и не соответствовать основным моментам возбуждения речевого тракта; б) на положение глобального максимума полуволны с полярностью, противоположной основному возбуждению, влияет формантная структура произносимого звука. Влияние формантной структуры вносит дополнительные погрешности в оценку длительности периода ОТ; в) полуволна с полярностью, противоположной основному возбуждению, не имеет ярко выраженных максимумов, связанных с началом периода ОТ. Возможны значительные сбои на ложные максимумы. Рис.2.5. Осциллограмма центрально-ограниченного речевого сигнала

Фаза сигнала, поступающего на вход выделителя ОТ, зависят от канала связи и тракта передачи сигнала. В частности, фаза сигнала определяется количеством инверсий в канале связи и тракте передачи. В общем случае фаза сигнала случайна. Для повышения точности и надежности выделения ОТ необходимо определить полуволну, по которой следует оценивать период ОТ. Найти необходимую полуволну можно, используя свойство асимметрии волны речевого сигнала [70],[78]. Различие в асимметрии сигнала могут быть незначительными.

Amax максимальное абсолютное значение сигнала на анализируемом интервале речи; г,-, / =1,2,.. JV — номер отсчета речевого сигнала, iV— общее количество отсчетов произнесения, Кп — относительный порог центрального ограничения, Кп \. Пример зависимости относительного значения критерия А от величины относительного порога центрального ограничения показан на рис. 2.6.

Данные представленные на рис.2.6, получены в ходе экспериментов для произнесения: «Не видали мы такого невода» диктор VBG [70], [78]. Проведенные эксперименты позволили сделать следующие выводы:

1) Центральное ограничение позволяет повысить надежность оценки полярности. 2) Уровень относительного порога центрального ограничения Кп существенно влияет на значение разностного критерия А, вплоть до смены знака критерия А. 3) Зависимость значения критерия А от величины Кп различна для разных дикторов, различных произношений, различного уровня окружающего шума и различных параметров тракта передачи речевого сигнала. Выбор оптимального значения К1Ъ при котором обеспечивается надежное определение знака критерия А, в значительной мере затруднен.

Рис. 2.6 показывает, что количество значений Кп, для которых разностный критерий А принимает положительное значение, существенно превышает количество значений Ки, для которых разностный критерий А принимает отрицательное значение. Это наблюдение позволяет найти способ для устранения зависимости оценки полярности сигнала от конкретного значения Кп. Для этой цели решение о полярности сигнала можно принимать по знаку суммы Az разностных критериев А, с различными значениями порога Кп: где і — 0, \,...L-J. Для оценки количества уровней L, необходимого для надежной оценки полярности входного сигнала, проведены эксперименты в которых участвовало 15 дикторов (8 мужчин, 7 женщин). Для четырех дикторов (2-е мужчин, 2-е женщины) были подготовлены записи без добавленного белого шума и с добавленным белым шумом при соотношении с/ш, равным: 40 дБ, 30 дБ, 20 дБ, ЮдБ, 5 дБ, 0 дБ, -5 дБ, -10 дБ.

Начальная оценка частоты ОТ с использованием автокорреляционной функции спектра (алгоритм АКФС) 72 3.3.1 Эксперименты по выбору окна

В соответствии со структурной схемой алгоритма АКФС (рис.3.3) входной речевой сигнал до этапа вычисления спектра умножают на временное окно w(ri). Спектр сигнала х(г) ограниченного временным окном w(ri), согласно теореме о комплексной свертке, является комплексной сверткой спектров сигнала и спектра временной функции окна. Влияние окна на результирующий спектр зависит как от формы временной функции окна, так и от конкретной временной функции сигнала. Путем расчета заранее выбрать оптимальную форму временной функции окна невозможно [87],[88]. Предпочтение тому или иному типу окна может быть сделано лишь на основе эксперимента путем оценки величиныДля оценки надежности выделения ОТ алгоритмом АКФС, проведены эксперименты на речевом материале, описание которого дано в разделе 2.3. Результаты выделения ОТ алгоритмом АКФС сравнивали с результатами выделения ОТ кепстральным методом. Кепстральный метод выбран исходя из следующих соображений:

1. Как и алгоритм АКФС кепстральный метод является интегральным методом с длительностью кадра анализа, такой же, как и в алгоритме АКФС.

2. Кепстральный метод, так же как и алгоритм АКФС, оценивает частоту ОТ на основе гармонических свойств спектра.

3. Кепстральный метод широко используется в речевых исследованиях [8],[16],[31],[35],[40],[41],[87],[88],[91]. В литературе имеется большое количество результатов испытаний кепстрального метода в различных условиях эксперимента [8],[16],[31],[35],[40],[41],[87],[88],[91].

В экспериментах, описание которых дано в настоящем разделе, надежность принятия решения Т/НТ обоими методами не оценивалась. Невокализи-рованные интервалы тестовых произнесений по этой причине исключали из рассмотрения. Ошибки Т/НТ и НТ/Т в ходе испытаний не оценивались.

Эталонные контуры, используемые в экспериментах для оценки надежности выделения ОТ (см. раздел 2.3), построены по мгновенным значениям частот ОТ, в то время как алгоритм АКФС и кепстральный метод относятся к интегральным.. Для устранения указанного противоречия при сравнении качества работы обоих методов учитывали только большие ошибки (см. раздел 2.3). В последующих таблицах и графиках символом «С» (CepstraY) - обозначали данные, полученные кепстральным методом, символом «Н» (Harmonic) - данные, полученные алгоритмом АКФС [77].

На рис. 3.11 представлены результаты испытаний 22 тестовых сигналов без добавленного шума (шестеро мужчин и трое женщин) и один сигнал с шумом (файл GNANV150.dat) при С/Ш = 5 дБ. Количество больших ошибок для алгоритма АКФС примерно в 2 раза меньше, чем для кепстрального метода, как без добавленного шума, так и при С/Ш = 5 дБ. Добавление шума привело к существенному возрастанию ошибок, полученных обоими методами. Исключение составило произнесение диктором VBG варианта предложения «Мама мыла Маню» с логическим ударением на первом слове (файл vbgml.dat). Большая изменчивость траектории ОТ на файле vbgml.dat незначительно увеличило количество ошибок алгоритма АКФС по сравнению с кепстральным методом (2.0%).

На рис. 3.12 показаны усредненные зависимости относительного количества больших ошибок (в % от общего числа измерений) от соотношения С/Ш для трех дикторов мужчин и трех дикторов женщин (файлы AIONV100.DAT, BNANV100.DAT, IGFNV100.DAT, IVANV100.DAT, KONNV100.DAT, VBGNV100.DAT).

Введение дополнительного критерия в обобщенный признак Т/НТ

В настоящей работе сделана попытка увеличить количество признаков, используемых для выделения G(f). Особенность работы выделителя ОТ по методу GS состоит в том, что метод GS ставит марки «начал» периодов ОТ как на вокализированных, так и на невокализированных интервалах речевого сигнала. Марки, проставленные на вокализированных отрезках речевого сигнала, соответствуют действительным моментам возбуждения речевого тракта квазипериодическими импульсами голосового источника. Относительные изменения периодов ОТ на вокализированных интервалах невелики и определяются скоростью изменения мелодии ОТ. Разброс оценок периодов ОТ на невокализированных отрезках речи имеет случайный характер и большую дисперсию. Эти различия в поведении метода GS на вокализированных и не вокализированных отрезках речевого сигнала были исследованы как дополнительный признак приятия решения Т\НТ. К достоинствам этого признака можно отнести то, что он не зависит от амплитудного диапазона речевого сигнала и, следовательно, не требует нормализации речи по амплитуде.

Относительное значение разности соседних периодов ОТ определяли по формуле (4.4) и относительные значения разности соседних периодов через один — по формуле:

Обобщенный признак G(t), учитывающий нестабильность периодов ОТ вычисляли как:

Признаки d\ и d2 для речевого сигнала, показаны на двух верхних графиках рис.4.9. На третьем сверху графике показан обобщенный признак G вычисленный по формуле (4.11), на нижнем графике - осциллограмма сигнала, совместно с признаком Т/НТ, принятым с учетом модифицированных значений G{t\ формула (4.11). Испытания, проведенные в работе [13],[71], показали, что использование добавочного признака — при формировании обобщенного признака G(f), действительно, в ряде случаев может улучшить качество принятия решения Т/НТ. Однако из выполненных нами экспериментов следует, что это улучшение нестабильно. Для некоторых дикторов и некоторых произнесений оно даже увеличивало количество ошибочных решений Т/НТ. Большая часть ошибок - это ошибки на переходах от невокализированных участков к вокализированным. На данных участках признаки d\ и d2 ведут себя наиболее нестабильно, обобщенный признак G из-за скачков d\ и d2 оказывается «изрезанным», что ухудшило определение признака Т/НТ. На рис. 4.10 приведены значения обобщенных ошибок для 14 дикторов, полученные на фразе «Не видали мы такого невода», для случая, когда при вычислении G(t) учитывали дополнительный признак (формула (4.11)) и без него. Рис. 4.11 показывает, что в большинстве случаев при введении дополнительного признака (di+d2)/2 значение обобщенной ошибки, полученной при выделении траектории ОТ, выросло. По этой причине от дополнительного признака пришлось отказаться и обобщенный признак G(t) в дальнейшем определяли по формуле (2.12).

4.6. Структурная схема алгоритма выделения основного тона речи с адаптацией параметров алгоритма

Структурная схема алгоритма представлена на рис. 4.11. Алгоритм состоит из четырех основных блоков: блок предварительной обработки, блок простановки марок, блок начальной оценки частоты ОТ и блок классификации по признаку Т/НТ [142].

Блок предварительной обработки. В состав блока предварительной обработки входят: фильтр нижних частот (ФНЧ), фильтр верхних частот (ФВЧ), определитель рабочей полуволны сигнала и логарифматор.

Блок преднлршслыюй обработки

ФНЧ с частотой срезаfc= 1500 Гц обеспечивает:

1. Сглаживание речевого сигнала с целью получения гладкой формы сигнала на максимуме основного лепестка [9],[40],[41].

2. Сохранение информации о быстрых изменениях частот ОТ в сигнале. ФВЧ предназначен для подавления постоянной составляющей входного речевого сигнала. Частота среза ФВЧ взята равной fc = 20 Гц в соответствии с рекомендациями раздела 2.2. ФНЧ и ФВЧ выполнены в виде фильтра Баттер-ворта восьмого порядка каждый.

Определитель рабочей полуволны работает по алгоритму, изложенному в разделе 2.3. Речевой сигнал, поступивший на выделитель ОТ, может быть инвертирован, если это необходимо для правильной оценки положения начала периода ОТ.

Блок простановки марок состоит РІЗ следующих субблоков: субблок построения семейства функций решения; субблок поиска максимума и простановки марки и субблок адаптации параметров алгоритма GS2 к значению нового периода ОТ.

В субблоке построения функций решения для каждого нового периода ОТ строят семейство функций решения с параметрами, приведенными в данной главе. Каждая из функций решения определяет положение максимума на новом лепестке сигнала, который рассматривают в качестве кандидата в марки нового периода ОТ.

Похожие диссертации на Разработка и исследование системы автоматического выделения основного тона речи