Содержание к диссертации
1 Введение 9
Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов 9
Область применения алгоритмов оценки частоты ОТ вокализованной речи Ю
Актуальность темы исследования 14
Цель работы 17
Структура диссертации 18
2 Обзор существующих методов оценки частоты ОТ
ВОКАЛИЗОВАННОЙ РЕЧИ 19
Постановка задачи оценки частоты ОТ вокализованной речи 19
Факторы, затрудняющие оценку частоты ОТ 25
Требования к точности оценки частоты ОТ в вокодерах 26
Общая структура построения выделителей ОТ 28
Методы предварительной обработки речевых сигналов 29
Линейная фильтрация 30
Выравнивание формантной структуры спектра 30
Нелинейные методы обогащения спектра гармониками частоты ОТ 34
Методы принятия решения 36
Общая классификация методов оценки частоты ОТ 43
Методы оценки частоты ОТ на основе анализа речевых сигналов во временной области 43
Методы частотной селекции 44
Методы амплитудной селекции 46
Многоканальные схемы построения выделителей ОТ 48
Использование нескольких признаков для анализа 48
Использование различных методов предварительной обработки 50
Использование различных частотных полос 50
2.9 Методы оценки частоты ОТ на основе анализа функциональных
отображений речевых сигналов 52
2.9.1 Корреляционные методы и методы линейного предсказания 53
Автокорреляционный метод 54
Разностные методы (AMDF и MSDF) 55
Метод, использующий функцию нормированной взаимной корреляции 57
Методы линейного предсказания высокого порядка 60
2.9.2 Методы, основанные на модификации спектра сигнала 61
Кепстральный метод 61
Другие методы модификации спектра 64
Методы максимального правдоподобия 65
Методы анализа через синтез 69
Методы поиска гармоник частоты ОТ в частотной области 71
Методы спектральной компрессии 72
Обнаружение гармоник ОТ с помощью гребенчатого фильтра 74
Корреляционный анализ спектров 75
Методы спектрального подобия 76
2.10 Методы классификации тон/шум 79
Общие подходы к классификации тон/шум для речевых сигналов 79
Подходы к классификации тон/шум в низкоскоростных вокодерах 80
Признаки, используемые при классификации тон/шум 82
Способы принятия решения тон/шум 85
Постановка задач исследования 88
Выводы 91
3 Исследование методов оценки частоты ОТ вокализованной речи
В ПРИСУТСТВИИ шума и разработка помехоустойчивого выделителя
ОТ 94
3.1 Разработка методики оценки помехоустойчивости выделителей ОТ... 94
Требования к тестовым сигналам 95
Количественная оценка помехоустойчивости 98
Формирование тестовых сигналов 101
3.2 Выбор функционального отображения и исследование его свойств ..106
3.2.1 Корреляционные отображения 108
- в.2.2 Отображения на основе гребенчатых фильтров 111
Гребенчатые КИХ и БИХ фильтры 111
Варианты построения отображений на основе гребенчатых фильтров 114
3.2.3 Сравнение свойств отображений на основе ФВНК и ФЭГФ 120
Качественное определение контрастности отображений 121
Количественное сравнение контрастности отображений 127
3.3 Исследование методов оценки периода ОТ для одного речевого кадра...
137
Выделение глобального максимума отображения 138
Выделение глобального максимума взвешенного отображения 139
Сравнение методов предварительной фильтрации 147
Сглаживание траектории ОТ для нескольких кадров 153
Медианное сглаживание траектории ОТ 153
Сглаживание траектории ОТ методами динамического программирования... 155
3.6 Выводы 160
4 Исследование помехоустойчивости разработанного выделителя
ОТ 162
Описание алгоритма разработанного выделителя ОТ 162
Постановка эксперимента по измерению помехоустойчивости 168
Краткая характеристика сравниваемых выделителей ОТ 170
Полученные результаты 170
Выводы 171
5 Реализация разработанного выделителя ОТ 174
5.1 Особенности реализации алгоритмов цифровой обработки сигналов на
цифровых процессорах обработки сигналов 174
Функциональное моделирование алгоритмов 175
Перевод алгоритмов в арифметику с фиксированной точкой 176
Разработка набора тестовых векторов 178
Реализация на ассемблере 179
Особенности многоканальной реализации 179
Метод раздельного программного кода 180
Метод переключения страниц памяти 181
Метод копирования контекстов 182
Метод переключения дескрипторов 183
5.2 Реализация разработанного выделителя ОТ в LPC вокодере 184
5.2.1 Общее описание реализованного вокодера 184
5
5.2.2 Особенности построения выделителя ОТ в LPC вокодере 186
5.3 Реализация разработанного выделителя ОТ в цифровом слуховом
аппарате 187
Общее описание реализованного цифрового СА 187
Особенности построения выделителя ОТ в цифровом СА 190
Особенности реализации выделителя ОТ на процессорах семейства ADSP-218x 192
5.4 Выводы 196
Заключение 198
Литература 200
Список принятых сокращений
АМВЕ - Advanced Multiband Excitation (алгоритм кодирования речи с улучшенным многополосным возбуждением)
AMDF - Averaged Magnitude Difference Function (функция среднего модуля разности двух сигналов)
CELP - Code Exited Linear Prediction (алгоритм кодирования речи на основе линейного предсказания с сигналом возбуждения из кодовой книги)
FPE - Fine Pitch Errors (малые ошибки в оценке основного тона)
GPE - Great Pitch Errors (грубые ошибки в оценке основного тона)
GSM - Global System for Mobile communications (глобальная система мобильной связи)
HSS - Harmonic Sum Spectrum (сумма гармоник спектра)
HVXC - Harmonic Vector Excitation Coding (алгоритм кодирования речи с гармоническим возбуждением)
IMBE - Improved Multiband Excitation, (алгоритм кодирования речи с улучшенным многополосным возбуждением)
ISO - International Standardization Organization (международная организация по стандартизации)
ITU-T - Interaational Telecommunication Union, Telecommunication standartization sector (международный союз электросвязи, отделение стандартизации электросвязи)
LHPS - Logarithmic Harmonic Product Spectrum (логарифм произведения гармоник спектра)
LPC - Linear Predictive Coding, (алгоритм кодирования речи с линейным предсказанием)
МВЕ - Multiband Excitation (алгоритм кодирования речи на основе линейного предсказания с многополосным возбуждением)
MELP - Multiband Excitation Linear Prediction, (алгоритм кодирования речи на основе линейного предсказания с многополосным возбуждением)
MIPS - Million Instructions Per Second (миллион операций в секунду)
MLE - Maximum Likelihood Estimation (оценка максимального правдоподобия)
MPEG - Moving Pictures Experts Group (группа экспертов в области видеоизображений)
MSDF - Mean Squared Difference Function (функция среднего квадрата разности двух сигналов)
PWI - Prototype Waveform Interpolation (алгоритм кодирования речи с интерполяция формы волны вокализованных звуков)
RC - reflection coefficient (коэффициент отражения)
SNR - Signal to Noise Ratio (отношение сигнал/шум)
STC - Sinus Transform Coding (алгоритм кодирования речи с разложением на гармонические составляющие)
VAD - Voice Activity Detector (детектор речевой активности)
АКФ - автокорреляционная функция
АОФ - адаптивный обеляющий фильтр
АЧХ - амплитудно-частотная характеристика
БИХ - бесконечная импульсная характеристика
БПФ - быстрое преобразование Фурье
ДП - динамическое программирование
ДПФ - дискретное преобразование Фурье
ИНС - искусственная нейронная сеть
КИХ - конечная импульсная характеристика
ЛП - линейное предсказание
НВКФ - нормированная взаимокорреляционная функция
ОС - операционная система
ОТ - основной тон
ПЭВМ - персональная электронно-вычислительная машина
СА - слуховой аппарат
ФВЧ - фильтр верхних частот
8 ФНЧ - фильтр нижних частот
ФЭГФ - функция энергии на выходе гребенчатого фильтра ЦОС - цифровая обработка сигналов ЦПОС - цифровой процессор обработки сигналов
Введение к работе
1.1 Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов
Речь является основным каналом обмена информацией между людьми. С момента изобретения фонографа и телефона технические средства, работающие с речевыми сигналами, постоянно совершенствовались и расширяли сферу своего применения. В настоящее время одним из наиболее перспективных и стремительно развивающихся направлений в этой области является цифровая обработка речевых сигналов, под которой понимается преобразование аналогового электрического сигнала в цифровую форму с последующей его обработкой вычислительными методами.
Речевой сигнал в цифровой форме может рассматриваться с позиций волнового, спектрального или параметрического описания. Последнее, в силу своей компактности, широко используется при решении задач анализа, синтеза, компрессии и распознавания речи. В его основе лежит классическая модель ре-чеобразования [120](Фланаган, 1968), [115](Рабинер, 1981), состоящая в первом приближении из пассивного речевого тракта с переменными во времени параметрами и источника возбуждения в нем акустических колебаний (рис. 1.1).
Усиление Av
Частота основного 1 тона
Генератор импульсов
Модель
голосовой
щели
Параметры речевого тракта
Модель (+)—* речевого тракта
Модель излучения
Речевой сигнал
Генератор шума
Усиление An
Рис. 1.1. Классическая модель речеобразования
10 Текущие параметры речевого тракта и сигнала возбуждения выбираются так, чтобы синтезированный на выходе модели сигнал был близок к оригинальному
^ речевому сигналу в смысле какого-либо критерия. Основной задачей при ис-
пользовании параметрического описания речевых сигналов является оценка параметров выбранной модели на основе анализа текущей речи.
Одним из важнейших параметров сигнала возбуждения колебаний в речевом тракте является частота основного тона (ОТ) речи, характеризующая высоту голоса при произнесении вокализованных звуков речи. Задача автоматической оценки частоты ОТ и ее траектории во времени (называемая часто задачей выделения ОТ) является классической и активно обсуждается в мировой научной литературе многие десятилетия. Человек легко определяет частоту ОТ на слух или на глаз при анализе осциллограмм или спектрограмм речи, однако, построить устройство (выделитель ОТ), автоматически определяющее частоту ОТ с малой ошибкой и малой задержкой во времени, даже при относительно низком уровне помех, довольно трудно [100](Пирогов, 1974).
^ Диссертационная работа посвящена исследованию методов оценки часто-
ты ОТ речи в присутствии белого шума и разработке помехоустойчивых выделителей ОТ, предназначенных для применения в низкоскоростных вокодерах и цифровых слуховых аппаратах.
1.2 Область применения алгоритмов оценки частоты ОТ вокализованной речи
В цифровой обработке речевых сигналов можно выделить следующие основные области применения алгоритмов оценки частоты ОТ вокализованной речи (рис. 1.2):
Алгоритмы оценки частоты ОТ речи
Распознавание речи
Идентификация дикторов
Компрессия
речи (вокодеры)
Очистка речи от шума
Слухопротезирование