Спектрально-временные методы и алгоритмы обработки звуковой информации Кудряшов Максим Юрьевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кудряшов Максим Юрьевич. Спектрально-временные методы и алгоритмы обработки звуковой информации : Дис. ... канд. техн. наук : 05.13.01 : Тверь, 2004 145 c. РГБ ОД, 61:04-5/3303

Содержание к диссертации

ОГЛАВЛЕНИЕ 2

ВВЕДЕНИЕ 5

Актуальность темы 5

Цели и научные задачи 9

Методы исследования : 10

Положения, выносимые на защиту 10

Научная новизна 10

Теоретическая значимость 11

Практическая значимость 11

Достоверность и обоснованность 12

Апробация работы 12

Публикации 13

Структура диссертации 13

ГЛАВА 1. СПЕКТРАЛЬНО-ВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ 14

1.1. ПОСТАНОВКА ЗАДАЧ НА РАЗРАБОТКУ СПЕКТРАЛЬНО-ВРЕМЕННЫХ МЕТОДОВ И
АЛГОРИТМОВ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ 14

1.1.1. Обзор по проблеме измерения колебаний скорости носителя и детонации звука в аппаратуре

магнитной звукозаписи 14

Применение цифровых методов в задачах измерения КС и детонации 16
Математическая постановка 17
Обзор по проблеме кодирования речевых сигналов 18
Применение методов спектрально-временного анализа в задачах сжатия речевых сигналов ... 24 1.1.5.1. Сжатие речевых сигналов на основе вейвлет-преобразования 24
Математическая постановка задачи 25 I

МЕТОД ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ КОЛЕБАНИЙ СКОРОСТИ НОСИТЕЛЯ МАГНИТНОЙ ЗАПИСИ И ДЕТОНАЦИИ ЗВУКА 27
МЕТОД ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ 36

Модель речеобразования 36
ЛП анализ 38
Автокорреляционный метод 41
Алгоритм Левинсона-Дарбина 42
Метод оценки частоты основного тона 43

1.4. МЕТОД АНАЛИЗА-ЧЕРЕЗ-СИНТЕЗ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ 49

Принципы CELP сжатия 49
CELP анализ 50
Остаточный сигнал ЛП кодирования 51
Взвешивание сигнала ошибки 54
Поиск в адаптивной кодовой книге 55
Поиск в стохастической кодовой книге 59

1.5. МЕТОД КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ И
УСЕЧЕННОГО ВОЗБУЖДЕНИЯ 60

Методы кодирования остаточного сигнала 60
Метод RELP 61

1.6. МЕТОД СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ДИСКРЕТНОГО ВЕЙВЛЕТ-
ПРЕОБРАЗОВАНИЯ 66

Схема компрессии 66
Обнуление малозначимых коэффициентов 68

Глобальный порог 69
У ровне вый порог 69

J.б. 2.3. Кодирование нулевых коэффициентов 71

1.7. МЕТОД КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ДВП ДЛЯ
КОДИРОВАНИЯ ОСТАТОЧНОГО СИГНАЛА ПРИ ЛИНЕЙНОМ ПРЕДСКАЗАНИИ 74

Кодирование остаточного сигнала с помощью вейвлет-преобразования 74
Анализ 74
Синтез 75

ГЛАВА 2. ПРЕОБРАЗОВАНИЯ И АНАЛИЗ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ ПАРАМЕТРОВ КС И ДЕТОНАЦИИ ЗВУКА НА ОСНОВЕ КОМПЬЮТЕРНЫХ МЕТОДОВ ОБРАБОТКИ ИНФОРМАЦИИ. 77

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СИСТЕМЫ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ КОЭФФИЦИЕНТОВ КС И ДЕТОНАЦИИ 77
ОСОБЕННОСТИ РЕАЛИЗАЦИИ МЕТОДОВ ДЛЯ ИЗМЕРЕНИЯ ДЕТОНАЦИИ ЗВУКА ПРИ МАГНИТНОМ СПОСОБЕ ЗАПИСИ СИГНАЛОВ 78

Выбор параметров оцифровки звукового сигнала 78
Предварительная обработка сигнала 81
Низкочастотная фильтрация 83
Децимация.» 86
Уточнение несущей частоты 87

2.3. ХАРАКТЕРИСТИКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 88

ГЛАВА 3. КОМПРЕССИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ КОМПЬЮТЕРНЫХ МЕТОДОВ
ОБРАБОТКИ 91

РЕАЛИЗАЦИЯ МЕТОДОВ ЧАСТОТНО-ВРЕМЕННОГО АНАЛИЗА 91
РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ 92

Предискажение 92
Сегментация „ 94
Анализ 95
Квантование параметров 96
Синтез „ 98
Характеристики сжатия 102

3.3. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА
АНАЛИЗА-ЧЕРЕЗ-СИНТЕЗ 103

Анализ 103
Синтез 104
Стандарт FS1016 105

3.4. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛП И
УСЕЧЕННОГО ВОЗБУЖДЕНИЯ 108

Анализ 108
Синтез 109
Характеристики метода 112

3.5. ВЫБОР ОПТИМАЛЬНЫХ ПАРАМЕТРОВ ДЛЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ

Реализация метода 113
Применение адаптивного алгоритма Хаффмана 114

Выбор вейвлета 116
Число уровней разложения 117
Число двоичных разрядов для квантования коэффициентов разложения 118
Выбор количества обнуляемых коэффицентов разложения 119
Обнуление коэффициентов усреднения 120
Выбор типа порога 121
Выбор схемы кодирования нулей 121

3.6. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ КОДИРОВАНИЯ
ОСТАТОЧНОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ДВП 124

Анализ 124
Синтез 125
Характеристики метода 127

ЗАКЛЮЧЕНИЕ 129

СПИСОК ЛИТЕРАТУРЫ 131

ПРИЛОЖЕНИЕ 1. РЕАЛИЗАЦИЯ МЕТОДА ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ В ЗАДАЧАХ СЖАТИЯ
РЕЧЕВЫХ СИГНАЛОВ 137

ПРИЛОЖЕНИЕ 2. РЕАЛИЗАЦИЯ МЕТОДА АНАЛИЗ-ЧЕРЕЗ-СИНТЕЗ В ЗАДАЧАХ СЖАТИЯ
РЕЧЕВЫХ СИГНАЛОВ 140

ПРИЛОЖЕНИЕ 3. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ
ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ И УСЕЧЕННОГО ВОЗБУЖДЕНИЯ 142

ПРИЛОЖЕНИЕ 4. РЕАЛИЗАЦИЯ МЕТОДА СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ
ДИСКРЕТНОГО ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ 143

ПРИЛОЖЕНИЕ 5. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ С
ИСПОЛЬЗОВАНИЕМ ДВП ДЛЯ КОДИРОВАНИЯ ОСТАТОЧНОГО СИГНАЛА ПРИ ЛИНЕЙНОМ
ПРЕДСКАЗАНИИ 145

Введение к работе

Актуальность темы

В настоящее время обработка аналоговых сигналов с использованием цифровых методов все шире используется для решения множества прикладных задач в связи, измерительной технике, медицине и других областях, в которых прежде доминировали аналоговые системы.

Преимущества цифровых систем обусловлены рядом факторов. Прежде всего, это фактор качества. Аналоговые реализации зачастую не позволяют обеспечить высоких показателей качества передачи и воспроизведения сигнала, а переход на мировые стандарты ужесточает требования, предъявляемые к таким параметрам систем, как помехоустойчивость, точность, быстродействие.

Если раньше основным сдерживающим фактором внедрения методов цифровой обработки было отсутствие требуемой элементной базы, то при современном уровне развития вычислительной техники об этом говорить уже не приходится. Цифровые методы, реализованные на современной элементной базе, находят все большее применение в различных областях обработки данных.

В частности, в задачах обработки звуковых сигналов применение цифровых систем имеет ряд преимуществ по сравнению с аналоговыми методами:

Хорошая стабильность и воспроизводимость. Характеристики цифровых цепей никак не меняются от устройства к устройству, тогда как две аналоговые цепи, например, использующие одни и те же элементы, могут работать по разному:

Отсутствие таких дестабилизирующих факторов, присущих аналоговым устройствам как температурный и временной дрейф, разброс параметров, воздействие наводок и помех. Свойства и характеристики аналоговых цепей, состоящих из резисторов, конденсаторов, диодов и других операционных

усилителей, изменяются с температурой. Старение перечисленных деталей также влияет на эксплуатационные качества и работу аналоговых систем обработки.

Гибкость - возможность программной реализации алгоритмов обработки звуковой информации и изменение параметров аппаратуры;

Возможность создание адаптивных систем с перестраиваемой структурой;

Простота настройки и повышение метрологических характеристик без использования трудоемких и прецизионных операций (подгонка образцовых резисторов).

Точность - степень точности определяется количеством используемых разрядов и гарантированно остается неизменной, в отличие от аналоговых цепей, точность результатов которых может меняться очень широко от цепи к цепи;

Цифровые методы позволяют не только повысить метрологические показатели по сравнению с аналоговыми приборами, но и максимально автоматизировать процесс измерения и обработки.

Специальные функции - некоторые специальные функции обработки сигналов могут быть реализованы только цифровыми методами. Аналоговая электроника просто не может выполнять их эффективно.

Указанные преимущества от применения цифровых методов находят свое полное подтверждение в области обработки звуковой информации для измерения параметров звуковых сигналов при их воспроизведении с аппаратуры магнитной записи звука.

Такие параметры, как колебания скорости (КС) и детонация звука являются одними из важнейших характеристик звуковой аппаратуры, определяющих качество звучания фонограммы [14,22].

Колебания скорости возникают из-за не идеальности изготовления элементов лентопротяжного механизма; они, в свою очередь, приводят к

появлению паразитной частотной модуляции сигнала - детонации с разной частотой.

Колебания скорости и детонацию измеряют аналоговым прибором -детонометром. В разрабатываемых в последнее время цифровых системах контроля за указанными параметрами измерение КС и детонации также возложено на аналоговую технику [4]. Применение для измерений подобных аналоговых приборов обусловливает ряд существенных недостатков, среди которых основным является невысокая точность измерений.

Эти недостатки можно полностью исключить при использовании цифровых технологий и повысить при этом качество, надежность и достоверность как хранения, так и обработки звуковой информации. Однако, в настоящее время не разработаны необходимые методы и алгоритмы для реализации на ПЭВМ с целью измерения указанных параметров в реальном масштабе времени. Основная трудность состоит в необходимости обработки больших объемов оцифрованных данных звукового сигнала. Поэтому возникает актуальная задача создания специального математического и программного обеспечения обработки звуковой информации во временной и частотной областях для измерения названных параметров в реальном масштабе времени с учетом заданных требований по точности и достоверности, а также по визуализации результатов.

Как уже отмечалось, специальные функции обработки сигналов могут быть реализованы только цифровыми методами. К таким функциям относятся методы сжатия звуковых сигналов.

Сжатие применяется для уменьшения количества бит, используемых для представления данных. Полученное в результате сжатия компактное представление данных эффективно для организации хранения данных с точки зрения уменьшения объема занимаемого пространства на носителях информации.

Сжатие данных, в частности речевых сигналов, позволяет улучшить эффективность использования полосы пропускания канала передачи. При

цифровом представлении речевого сигнала считается достаточным рассматривать полосу сигнала до 4000 Гц, следовательно, согласно теореме отсчетов дискретизация сигнала осуществляется с частотой взятия выборок (отсчетов) сигнала равной 8000 Гц [10, 11]. Для получения цифрового, т.е. дискретного по амплитуде и по времени, представления необходимо проквантовать каждый отсчет до конечного множества значений. Для цифрового представления речевого сигнала принято использовать 2⁸ значений амплитуды, т.е. отводить 8 бит на отсчет. Тогда скорость передачи речевого сигнала составит 8000 8 = 64000 бит в секунду (бит/сек.). Для передачи данного сигнала требуется канал передачи с широкой полосой пропускания. Также известно, что средства передачи дороги, и в общем случае, чем шире их полоса, тем дороже они стоят. Тогда под эффективностью использования полосы пропускания канала передачи подразумевается передача сигналов с наиболее возможной скоростью по относительно дешевым линиям связи (с узкой полосой пропускания).

В результате применения методов сжатия речевых сигналов, реализованных в виде специальных средств кодирования (на входе, перед передачей), а затем декодирования (восстановления на выходе, после передачи) достигается низкая скорость передачи и, следовательно, для передачи требуются более дешевые, доступные средства связи.

Еще одним преимуществом от использования сжатия является уменьшение времени передачи данных. Особенно это актуально при использовании дорогих средств связи, когда за переданный трафик взимается определенная плата. Использование методов сжатия позволяет передать большой объем данных за меньшее время.

Таким образом, компрессия речевых сигналов приводит к удешевлению услуг связи, к возможности создания речевой коммуникации по компьютерным сетям. Кроме того, интерес к системам компрессии возникает в военной области и других ведомствах для обеспечения закрытой связи [9].

Активно развивающаяся в последнее время теория вейвлет-преобразования [3,8,17, 18,21,40,41,43] позволяет применять эффективные с вычислительной точки зрения алгоритмы и методы спектрально-временного анализа для обработки информации во многих областях исследований. В частности, в такой актуальной на сегодняшний день области, как сжатие речевых сигналов.

В большинстве устройств и приложений, реализующих компрессию речи, используются следующие два основных подхода [9]: кодирование формы волны речевого сигнала, позволяющее достичь относительно небольшой степени сжатия, и параметрическое кодирование. Методы параметрического кодирования позволяют достичь достаточно больших степеней сжатия с приемлемым качеством восстановленной речи, однако требуют для своей реализации больших вычислительных затрат.

В настоящий момент не существует стандартов компрессии речи, использующих в той или иной степени методы теории вейвлет-анализа, т.е. спектрально-временных методов обработки информации, особенностями которых является, в частности, и высокая эффективность в вычислительном отношении.

Таким образом, разработка и применение спектрально-временных методов и алгоритмов в задачах обработки звуковых сигналов и компрессии речевых сигналов является актуальной темой исследования и ее выполнение позволит повысить эффективность и качество как систем обработки звуковой информации в области измерения параметров частотно-модулированных сигналов, так и систем компрессии речи в таких областях как речевая справочная служба, Интернет, беспроводная связь.

Цели и научные задачи

Целью работы является разработка математических методов и алгоритмов цифровой обработки звуковой информации для измерения коэффициентов колебаний скорости и детонации, а также компрессии речевых

сигналов для их хранения и передачи по каналам с ограниченной полосой пропускания.

Для достижения этой цели в диссертации выполнена разработка

метода и программно-реализуемого алгоритма измерения коэффициентов КС носителя магнитной записи и детонации звука в реальном масштабе времени;

- методов компрессии речевых сигналов на основе применения
дискретного вейвлет-преобразования;

- программного обеспечения для компрессии речевых сигналов.

Методы исследования

Для решения названных задач использованы методы спектрального анализа, цифровой обработки сигналов, линейного предсказания, сжатия информации дискретного вейвлет-преобразования.

Положения, выносимые на защиту

Метод и алгоритм обработки звуковой информации для измерения в реальном масштабе времени параметров КС носителя магнитной записи и детонации звука в аппаратуре звукозаписи и воспроизведения. Метод основан на цифровом спектральном разложении звукового сигнала и оценке параметров частотных составляющих.
Программное обеспечение системы обработки звуковых сигналов для проведения измерений коэффициентов КС и детонации в реальном масштабе времени.

3. Методы компрессии речевых сигналов на основе вейвлет-
преобразования, обеспечивающие высокое качество их восстановления при
малых затратах вычислительного ресурса.

Научная новизна

1. Метод обработки звуковой информации для измерения параметров КС и детонации включает новое алгоритмическое решение, заключающееся в

переносе на величину несущей частоты спектра, низкочастотной фильтрации и децимации анализируемого звукового сигнала, что позволяет сократить объем обрабатываемой информации без снижения точности и обеспечить обработку в реальном масштабе времени.

2. Метод компрессии речевых сигналов, в отличие от известных,
построен на основе оптимизации параметров сжатия с использованием
дискретного вейвлет-преобразования, что обеспечивает варьирование длиной
сегментов сигналов и сокращение числа операций, необходимых для их сжатия
и воспроизведения.

3. Метод сжатия остаточного сигнала, основанный на использовании
вейвлет-преобразования при линейном предсказании речевых сигналов. Метод
обеспечивает существенное повышение степени сжатия по сравнению с
известными, основанными на децимации остаточного сигнала и последующим
его кодированием.

Теоретическая значимость

Теоретическая значимость работы заключается в развитии методов обработки и компрессии звуковой информации, основанном на внедрении вейвлет-анализа, быстрого дискретного вейвлет-преобразования в задачах восстановления и передачи речевых сигналов.

Практическая значимость

Метод обработки звуковой информации для измерения коэффициентов КС и детонации представляет собой определенный вклад в развитие программно-реализуемых методов обработки в реальном масштабе времени на базе измерения параметров частотно-модулированных сигналов и может служить основой для проведения исследований по измерению указанных параметров не только для аппаратуры звукозаписи, но и для аппаратуры видеозаписи и воспроизведения.

Разработанное программное обеспечение системы обработки звуковой информации может быть использовано в такого рода организациях, которые

занимаются эксплуатацией и ремонтом звукозаписывающего и звуковоспроизводящего оборудования, киностудий, студий телевидения и звукозаписи, киноремонтных мастерских, предприятиях, занимающихся производством магнитофонов и звукотехнической аппаратуры.

Методы компрессии речи, основанные на дискретном вейвлет-преобразовании, в силу своей эффективности в вычислительном отношении, могут быть использованы для организации передачи речевой информации по компьютерным сетям, в частности, в Интернет.

Достоверность и обоснованность

Достоверность и обоснованность научных результатов базируются на корректном использовании методов цифровой обработки сигналов и теории вейвлет-анализа. Достоверность измерений коэффициентов КС и детонации обеспечивается математическим обоснованием разработанных методов. Достоверность и обоснованность результатов компрессии речевых сигналов подтверждена проведением вычислительных экспериментов в широком диапазоне условий.

Апробация работы

Приведенные в диссертации результаты представлялись автором на Шестой научно-техн. конференции «Современное телевидение», Москва, 1998 г. Седьмой научно-техн. конференции «Современное телевидение», Москва,

г. Восьмой научно-техн. конференции «Современное телевидение», Москва, 2000 г. XXVI военно-научной конференции, Тверь, 2 ЦНИИ МО РФ,
г. Девятой научно-техн. конференции «Современное телевидение», Москва, 2001 г. Десятой научно-техн. конференции «Современное телевидение», Москва, 2002 г. Одинадцатой научно-техн. конференции «Современное телевидение», Москва, 2003 г.

Публикации

Основные результаты диссертационной работы и отдельные положения опубликованы в двенадцати печатных работах.

Структура диссертации

Диссертация состоит из введения, трех глав, заключения, перечня библиографических источников и приложений. Работа изложена на 145 листах. Перечень библиографических источников включает 77 наименований.

В первой главе выполнена постановка задач на разработку спектрально-временных методов и алгоритмов обработки звуковой информации, а также представлены спектрально-временные методы обработки звуковой информации для осуществления компрессии речевых сигналов и для измерений колебаний скорости носителя магнитной записи и детонации звука.

Во второй главе изложен программно-реализуемый алгоритм и программное обеспечение для измерения коэффициентов колебаний скорости носителя магнитной записи и детонации звука в реальном масштабе времени.

В третьей главе описана реализация методов компрессии речевых сигналов в виде специального программного обеспечения для исследования и оптимизации в интерактивном режиме разработанных методов.

В приложениях 1-5 представлены основные функции в виде набора ш-файлов системы Matlab, представляющие реализацию методов компрессии речевых сигналов.

Спектрально-временные методы и алгоритмы обработки звуковой информации Кудряшов Максим Юрьевич

Похожие диссертации на Спектрально-временные методы и алгоритмы обработки звуковой информации