Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Хаджинов Александр Александрович

Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка
<
Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хаджинов Александр Александрович. Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка : диссертация ... кандидата технических наук : 05.13.17, 05.13.11.- Таганрог, 2005.- 201 с.: ил. РГБ ОД, 61 05-5/3049

Содержание к диссертации

Введение

1. Аналитический обзор известных алгоритмов обработки и компрессии звуковых данных 15

1.1. Особенности компрессии звуковых данных 15

1.2. Избыточности аудиосигналов 16

1.3. Методы оценки качеств а кодирования 20

1.4. Основные классы аудиосигналов 25

1.5. Обзор стандартов кодирования речевых сигналов 26

1.5.1. Импульсио-кодовая модуляция 26

1.5.2. Адаптивная дифференциальная икм (адикм) 28

1.5.3. Дельта-преобразование первого порядка 31

1.5.4. Вокодерпое кодирование 32

1.6. Кодирование широкополосных речевых сигналов 37

1.7. Кодирование широкополосных аудиосигналов 38

1.8. Методы определения активности звуковых фрагментов 44

1.9. Выводы 45

2. Разработка быстродействующих алгоритмов компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка 46

2.1. Особенности обработки аудиосигналов алгоритмами дельта-преобразований...46

2.2. Основные достоинства и недостатки известных алгоритмов дельта -преобразования 49

2.3. Постановка задачи дельта-преобразования второго порядка 51

2.4. Алгоритмы оптимизированных дельта-преобразований второго порядка 54

2.5. Принципы обработки аудиоданных модифицированным алгоритмом оптимизированных дельта-преобразований второго порядка 58

2.6. Алгоритмы кодирования аудиоданных с использованием оптимизированных дел ьта-прео б разов а ний второго порядка 62

2.6.1. Алгоритм определения активности звукового фрагмента 63

2.6.2. Алгоритм выбора веса кванта цифрового преобразования звукового фрагмента 64

2.6.3. Алгоритм поиска промежуточной частоты дискретизации входных аудиоданных 66

2.6.4. Алгоритм стыковки фрагментов аудиоданных 72

2.7. Выводы 76

3. Программная реализация разработанных алгоритмов компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка 77

3.1. Основные требования к программной модели разработанного метода аудиокодирования 77

3.2. Структурная схема кодека звуковых данных 78

3.3. Формат хранения/передачи закодированных данных 83

3.4. Комплексная схема программной реализации кодека звуковых данных 85

3.5. Анализ трудоемкости основных процедур разработанной программной модели кодека звуковых данных 92

3.6. Выводы . 98

4. Результаты экспериментальных исследований разработанной программной модели аудиокодека на основе оптимизированных дельта-преобразований второго порядка 99

4.1. Методика проведения экспериментальных исследований 99

4.2. Анализ влияния длины фрагмента звуковых данных алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа 101

4.3. Анализ влияния шага сглаживания алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа 109

4.4. Анализ влияния соотношений между средней второй разностью и весом кванта цифрового преобразования алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа 115

4.5. Сравнение характеристик алгоритмов определения активности звуковых фрагментов 118

4.6. Анализ режима компрессии с переменной скоростью выходного битового потока 121

4.7. Сравнительный анализ времени суммарной задержки 125

4.8. Выводы 127

5. Практическое применение кодека аудиоданных на основе алгоритмов оптимизированных дельта-преобразований второго порядка 128

5.1. Реализация модуля компрессии аудиоданных в виде системного кодека 128

5.2. Применение кодека аудиоданных в приложениях операционной системы 133

5.3. Разработка универсального интерфейса управления параметрами аудиокодека 137

5.4. Применение кодека аудиоданных для системы вкс 140

5.6. Выводы 145

Заключение 146

Список литературы

Введение к работе

Актуальность

Современные методы кодирования и сжатия звуковой информации находят применение в разнообразных областях: от передачи и хранения оцифрованных аудиоданных до спутниковых цифровых телекоммуникационных систем. Внимание к сжатию звуковой информации особенно возросло в последнее десятилетие в связи с появлением и доступностью цифровых телекоммуникационных систем и, в частности, систем сотовой связи, систем ІР-телефонии и систем видеоконференцсвязи.

Критерии качества преобразованного и передаваемого звука в современных системах обработки и передачи аудио достаточно высоки, и требуемое качество звука должно быть не хуже, чем при обычной телефонии. Однако, как правило, эти требования вступают в противоречие с требованиями приемлемой производительности алгоритма компрессии и стоимости арендуемой сети передачи данных. На сегодняшний день, по существу, для достижения высокого качества звука необходима пропускная способность, учитывающая наличие большого числа пользователей и обеспечивающая в пересчете на одного пользователя ту же эквивалентную скорость передачи информации, которая предоставляется при передаче звука в ISDN (64 кбит/с). Практически это означает, что при реальном трафике, совместно используемом большим числом клиентов, требуемая пропускная способность сети должна составлять не ниже единиц мегабит в секунду [130].

Методы и алгоритмы компрессии речевых и звуковых данных многочисленны и разнообразны по своим характеристикам, однако имеет место проблема обеспечения сочетаний низкой трудоемкости и достаточного качества преобразования при едином назначении алгоритма для обработки различных аудиоданных. Данная проблема усиливается при необходимости одновременной обработки нескольких потоков медиаданных, а так же при одновременном решении задач другого назначения. Решение данной проблемы часто оказывается возможным только с использованием дорогостоящих специализированных вычислительных средств, сигнальных процессоров.

Известные алгоритмы и методы аудиокомпрессии обладают либо сравнительно малым коэффициентом сжатия при низкой трудоемкости и высоком качестве кодирования, либо характеризуются высоким коэффициентом сжатия при высокой трудоемкости. Выбор между различными компрессионными алгоритмами требует поиска компромисса между желаемым коэффициентом сжатия и трудоемкостью. Достижение подобного рода компромиссного решения видится в использовании более простых алгоритмов и методов обработки аудиопотоков, особенно в рамках систем реального времени.

Кроме того, использование алгоритмов компрессии звуковой информации в системах с динамически изменяющейся пропускной способностью сети передачи данных требует решения других сложных задач. В частности, необходимо выявление интервалов молчания (неактивности) для повышения степени сжатия и использование механизма управления скоростью выходного битового потока для более эффективного распределения полосы пропускания между множеством абонентов при условии минимизации времени, затрачиваемого на обработку.

Таким образом, актуальной проблемой является разработка алгоритмов, обеспечивающих на основе единого математического базиса решение задачи эффективного сжатия звуковых данных с низкой трудоемкостью, при достаточном уровне качества, без жесткой привязки к характеру аудиоданных, с возможностью управления скоростью выходного битового потока, со встроенной возможностью простого выявления фрагментов неактивности (пауз).

В качестве решения подобной многокритериальной задачи в данной работе рассматривается применение алгоритмов оптимизированных дельта-преобразований второго порядка. Изначально для обработки звуковых сигналов (в телефонных сетях) использовались алгоритмы дельта-преобразования первого порядка. Отличительными чертами этих алгоритмов были простота реализации и высокая скорость восстановления информации. Вместе с тем, дельта-преобразование первого порядка характеризуется низкой точностью и существенным ограничением скорости изменения преобразовываемой функции.

В связи с повышением требований к качеству аудиокодирования естественным направлением в развитии дельта-преобразований было использование дельта-преобразований второго порядка [41-43,46], характеризующегося не только простотой реализацией, но и более высокими динамическими характеристиками. Вопросы построения алгоритмов дельта-преобразования второго порядка освещены в работах Р. Стила [41], А.В. Шилейко, Г.Г, Меньшикова, de Jeager F. и многих других. Важной проблемой для применения известных алгоритмов дельта-преобразования второго порядка долгое время оставалась нестабильность (неустойчивость) преобразований, в связи с чем, эти алгоритмы практически оказывались непригодными.

Алгоритмы дельта-преобразований второго порядка, характеризующиеся стабильностью, возможностями оптимизации по быстродействию и точности, впервые были освещены в работах П.П. Кравченко [43-46].

В данной работе исследуются вопросы адаптации алгоритмов оптимизированных дельта-преобразований второго порядка для быстродействующей компрессии оцифрованных звуковых сигналов.

Применение алгоритмов оптимизированных дельта-преобразований второго порядка для компрессии оцифрованных звуковых сигналов требует решения ряда специфических задач, которые представлены в данной диссертационной работе и учитывают особенности представления звуковых сигналов в цифровом виде.

Объект исследования

Высокопроизводительные методы и алгоритмы сжатия звуковых данных на основе оптимизированных дельта-преобразований второго порядка, а так же программные средства компрессии аудиоданных.

Цель и задачи работы

Целью настоящей работы является разработка быстродействующих алгоритмов кодирования звуковых данных на основе оптимизированных дельта-преобразований второго порядка.

Для достижения поставленной цели в диссертации решаются следующие задачи:

Анализ известных алгоритмов и методов компрессии звуковых данных, выявление их достоинств и недостатков;

Разработка быстродействующего алгоритма компрессии звуковых данных различной природы на основе единого алгоритмического подхода с использованием разностного алгоритма дельта-преобразований второго порядка;

Разработка алгоритмов поиска наилучших параметров кодирования фрагментов аудиоданных;

Разработка быстродействующего алгоритма оценки активности звуковых фрагментов;

Разработка алгоритма управления скоростью выходного битового потока аудиокодека;

Разработка формата хранения и передачи аудиоданных;

Разработка программной модели быстродействующего кодека звуковых данных на основе оптимизированных дельта-преобразований второго порядка с возможностью его последующей интеграции в различные приложения операционной системы;

Проведение экспериментальных исследований программной модели аудиокодека.

Основные научные результаты

Разработан быстродействующий алгоритм компрессии звуковых данных на основе дельта-преобразований второго порядка, отличающийся низкой трудоемкостью, как при декодировании, так и при кодировании за счет использования малого числа целочисленных операций;

Разработан алгоритм поиска оптимизированной промежуточной частоты дискретизации звукового фрагмента, обеспечивающий достаточное качество кодирования при наибольшей степени компрессии посредством учета значений средней второй разности;

Разработан алгоритм нахождения веса кванта цифрового преобразования фрагмента звуковых данных, обеспечивающий минимизацию ошибки преобразования аудиоданных при заданной промежуточной частоте дискретизации путем более точного восстановления исходных отсчетов звуковых данных;

Разработан алгоритм определения наилучших начальных условий, обеспечивающий стыковку аудио фрагментов с различными значениями промежуточной частоты дискретизации и веса кванта цифрового преобразования с помощью учета динамики изменения восстановленных отсчетов;

Предложен быстродействующий алгоритм оценки активности звуковых фрагментов, отличающийся от известных алгоритмов низкой трудоемкостью;

Разработанные алгоритмы выбора параметров компрессии основаны на единой методике, использующей значения средних вторых разностей звуковых фрагментов;

Предложен метод управления скоростью выходного битового потока аудиокодека, базирующийся на использовании разработанных алгоритмов компрессии и предназначенный для использования в системах с изменяющейся пропускной способностью сети передачи данных; Основные положения, выносимые на защиту

Быстродействующий алгоритм и программная реализация алгоритма компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка;

Быстродействующий алгоритм и программная реализация алгоритма классификации звуковых фрагментов;

Алгоритм и программная реализация алгоритма определения оптимизированной промежуточной частоты дискретизации звукового фрагмента;

Алгоритм и программная реализация алгоритма нахождения наилучшего веса кванта цифрового преобразования фрагмента звуковых данных;

Алгоритм и программная реализация алгоритма вычисления начальных условий при стыковке фрагментов аудиоданных для алгоритма компрессии на основе дельта-преобразований второго порядка;

Практическая ценность

Практическую ценность работы представляют:

Быстродействующий алгоритм компрессии звуковых данных;

Алгоритм быстрого программного декодирования звуковых данных;

Быстродействующий алгоритм анализа активности звукового фрагмента;

Алгоритм определения наилучшего значения веса кванта цифрового преобразования звукового фрагмента;

Формат хранения выходного потока кодирующего устройства для хранения и передачи закодированных звуковых данных;

Программный модуль для компрессии и декомпрессии звуковых данных;

Динамическая библиотека, содержащая программные процедуры компрессии и декомпрессии аудиоданных;

Оценки и рекомендации по выбору наилучших параметров для кодирования звуковых данных;

Программная система многоточечной видеоконференцсвязи "Дельта-конференция" с функцией аудиокоференции на основе разработанных алгоритмов компрессии;

Данная работа представляет интерес для программной реализации задач . быстрого сжатия и восстановления оцифрованных звуковых данных произвольной природы. Особый интерес представляет использование разработанного алгоритма в системах с одновременной обработкой нескольких потоков не только аудио, но и видеоданных. В частности, характерным примером эффективного использования практически всех полученных в диссертационной работе результатов является применение разработанного аудиокодека в действующей системе многоточечной видеоконференцсвязи "Дельта-конференция".

Методы исследования

При выполнении данной работы использовался математический аппарат теории оптимизированных дельта-преобразований второго порядка, теории кодирования информации, теории вероятностей.

Апробация работы

Результаты работы докладывались и обсуждались на Международных, Всероссийских научно-технических конференциях, в том числе на:

1) III Международной конференции "Телевидение: передача и обработка изображений", Санкт-Петербург, 2003;

Международной конференции научно-техническая конференция "Интеллектуальные системы (IEEE AIS'03)"h "Интеллектуальные САПР (CAD-2003)", Москва, 2003; V Международной конференции "Digital Signal Processing and its Application", Москва, 2003.

Международной научно-технической конференции "Informatics, Mathematical Modeling and Design, Владимир, 2004;

Всероссийской конференции студентов, аспирантов и молодых ученых "Технологии Microsoft в теории и на практике", Москва, 2005.

Работа выполнялась в рамках госбюджетных НИР №12443 "Разработка опытного образца программной системы конференцсвязи с алгоритмами аудио и видеокомпрессии на основе оптимизированных дельта-преобразований второго порядка для локальных ІР-сетей", № 12448 "Разработка программной системы конференцсвязи с поддержкой функций документ-конференции и аудиовидеоконференции для локальных ІР-сетей" совместно с ОАО ВНИИ ТР (г. Москва). Результаты работы использовалась в учебном процессе в дисциплине "Цифровое управление, сжатие и параллельная обработка информации на основе алгоритмов оптимизированных дельта-преобразований".

Достоверность полученных в диссертации результатов подтверждается разработкой действующей программной библиотеки для сжатия и восстановления звуковых данных, проведенными экспериментальными исследованиями, а так же действующей программной системой ВКС "Дельта-конференция".

Публикации

Результаты, полученные в работе, нашли отражение в 24 печатных работах, среди них 6 статей и 2 свидетельства Всероссийского бюро по патентам и товарным знакам №2004610865 "Программа компрессии звуковой информации на основе оптимизированных дельта-преобразований второго порядка" и № 2004610863 "Программа многосторонней видеоконференцсвязи для корпоративных локальных IP-сетей "Дельта-конференция".

Структура работы

Материал основной части диссертационной работы изложен на 147 страницах машинописного текста. Диссертация состоит из введения, 5 разделов, заключения, списка литературы из 143 наименований, содержит 53 рисунка, и приложения на 40 листах.

Содержание работы

В первом разделе работы выполнен аналитический обзор существующих алгоритмов и методов компрессии звуковых данных. Описаны основные направления построения систем сжатия аудиоданных, рассмотрены особенности алгоритмов аудиокомпрессии для звуковых данных различных типов и различной природы, приведены методики проведения объективных и субъективных оценок качества кодирования.

Во втором разделе рассматриваются особенности кодирования звуковых данных алгоритмами дельта-преобразований второго порядка, приводятся некоторые сведения из теории дельта-преобразований второго порядка. Рассматриваются разностный и модифицированный алгоритм дельта-преобразования второго порядка. Предложен алгоритм компрессии аудиоданных на основе алгоритмов оптимизированных дельта-преобразований второго порядка, предлагаются алгоритмы вычисления наилучших параметров обработки звуковых данных, используемые в разработанном на основе дельта-преобразований второго порядка алгоритме аудиокомпрессии.

В третьем разделе описывается разработка программной модели аудиокодека. Рассматриваются вопросы организации взаимодействия процедур обработки аудиоданных, описана последовательность вызова подпрограмм для реализации обработки аудиоданных. Приводятся примеры формата хранения компрессированных аудиоданных.

Четвертый раздел посвящен описанию экспериментальных исследований разработанной программной модели аудиокодека. Сформулированы результаты и оценки влияния параметров разработанного алгоритма компрессии звуковых данных на качество кодирования аудиопотока, исследованы практические результаты разработанных алгоритмов компрессии звуковых данных.

Пятый раздел содержит примеры практического применения разработанного кодека звуковых данных в различных прикладных приложениях. В частности рассматривается возможность использования аудиокодека для обработки аудиоданных в мультимедийных приложениях операционной системы Microsoft Windows. Приводится пример использования разработанной программной модели быстродействующего кодека аудиоданных в системе видеоконференцсвязи для локальных и корпоративных сетей.

В заключении излагаются основные результаты диссертационной работы.

Избыточности аудиосигналов

Кодеры, использующие избыточность, обусловленную периодичностью речи, являются более сложными устройствами, чем кодеры, предназначенные только для удаления избыточностей в соседних отсчетах. Фактически эти кодеры представляют собой переходную форму от кодеров, работающих с относительно высокой скоростью передачи и обеспечивающих натуральное звучание, к вокодерам, работающим с относительно низкой скоростью передачи и дающим синтетическое звучание.

Анализ звуковых сигналов показал, что значительную их часть составляют неактивные участки. Особенно большую часть сигнала паузы занимают в телефонных разговорах, когда при дуплексном соединении один абонент говорит, а другой слушает. Поэтому в таких системах широко используется цифровое статистическое уплотнение, при котором определяется речевая активность и передача отрезков речи ведется только при наличии активности.

При одновременном воздействии на слух двух сигналов один из них может либо совсем не прослушиваться на фоне другого, либо прослушиваться с меньшей интенсивностью. В этом случае говорят о маскировке первого сигнала вторым. Этот эффект имеет чрезвычайно важное значение при проектировании цифровых систем обработки звуковых сигналов, так как: - это позволяет снизить требования к величине искажений; - маскировка одним сигналом другого позволяет сократить точность (разрядность) описания второго сигнала или совсем отказаться от его передачи (если его уровень ниже порога слышимости при маскировании), сократив тем самым объем информации, необходимой для представления сигнала, без воспринимаемой на слух потери качества [4].

Физически маскировка слуха объясняется тем, что маскирующий звук вызывает подъем порога слышимости в области частот, близких к частоте маскирующего звука, в результате чего составляющие полезного звука, имевшие ранее уровень выше порогового, оказываются теперь либо вообще лежащими ниже порога слышимости, т.е. не воспринимаются слухом, либо воспринимаются с уменьшенным уровнем ощущения.

Рисунок 2 иллюстрирует процесс маскировки. Составляющая частоты у} не будет воспринята вовсе, поскольку ее уровень ниже порога слышимости при маскировании. Составляющая частоты/з будет восприниматься со значительно пониженным уровнем ощущения.

При разбиении широкополосного звукового сигнала на несколько частотных интервалов если уровень маскируемого сигнала в каждом частотном интервале ниже уровня порога слышимости при маскировании в этом интервале, то маскируемый сигнал не ощущается на слух. Однако в случае, когда корреляция частотных компонент сигнала мала, эти компоненты попадают в различные частотные интервалы и эффект маскировки слуха незначителен.

Количественно мерой маскировки является разность между порогом слышимости в тишине и порогом слышимости при наличии маскирующего звука (или шума), ибо как раз на эту величину уменьшается уровень ощущения полезного звука.

В случае если сигнал содержит одновременно несколько маскирующих составляющих, то вычисляется глобальный порог слышимости при наличии маскирующего звука как функция от частоты.

Слуховой аппарат, как и любая колебательная система, инерционен. Временное маскирование имеет место, когда два звука появляются через малый интервал времени. В зависимости от уровня каждого из звуков, более сильный звук может маскировать более слабый звук. При этом может иметь место как пред-маскирование, так и пост-маскирование. Последние исследования показали, что продолжительность интервала пред-маскирования в десятки раз короче продолжительности интервала пост-маскирования, составляющего порядка (50-200) мс. Эффект временного маскирования используется в современных алгоритмах аудиокодирования.

Количественные (объективные) методы оценки качества кодирования звуковых данных применяются в основном для оценки меры сходства между исходными и восстановленными данными. Объективными критериями оценки качества кодирования в данной работе использовались следующие стандартные характеристики [5]: 1) среднеквадратичная ошибка кодирования где N — число отсчетов исходного сигнала; Е, и Е- сигналы, поступающие на вход кодера и с выхода декодера соответственно; 2) среднее нормированное отношение сигнал/шум квантования: т С/Ш 101gi Е (2) /=i (,.-,) где N - число отсчетов исходного сигнала; Е( и Е{ - сигналы, поступающие на вход кодера и с выхода декодера соответственно; 3) пиковое отношение сигнал/шум квантования: N А1 (3) С1Ш = \Ъ\%% м(Е,-,Г где А - максимальная амплитуда исходного сигнала.

Еще одним немаловажным объективным критерием оценки качества кодирования является время задержки, вносимое процедурой обработки звуковых потоков.

В общем случае, рекомендации ITU 1.350 [6] определяют общие вопросы оценки качества сервиса (Quality of Service, QoS), а так же регламентируют значения первичных параметров качества обслуживания для каждого класса приложений:

Основные достоинства и недостатки известных алгоритмов дельта -преобразования

К основным преимуществам известных алгоритмов дельта-преобразования относятся: - кодирование разности звуковых данных 1 битом; - высокая простота и, соответственно, низкая сложность реализации как алгоритмов кодирования, так и алгоритмов декодирования; - возможность программной реализации кодеков, работающих в реальном масштабе времени; - в случае аппаратной поддержки алгоритмов кодирования - низкая сложность и стоимость специализированных схем вследствие простоты алгоритмов; - высокая экономичность реализации в специализированных средствах обработки сигналов, например, на основе сигнальных процессоров; - высокая эффективность большинства известных алгоритмов для построения систем передачи звуковых данных с адаптацией к пропускной способности сети передачи данных.

Поскольку каждый кодированный отсчет содержит относительно малое количество информации (1 бит), системы с дельта-преобразованием требуют более высокой частоты дискретизации для кодирования звуковых данных, чем системы с импульсно-кодовой или многоразрядной дифференциальной импульсно-кодовой модуляцией. В действительности, для известных алгоритмов дельта-преобразования частоту дискретизации необходимо выбирать намного (в 3 и более раз) выше исходной минимальной частоты дискретизации, равной удвоенной полосе частот исходного сигнала [5].

К основным проблемам известных алгоритмов дельта-преобразования второго порядка относятся неустойчивость процесса преобразования, возникновение сильно выраженных колебательных процессов при больших перегрузках и связанные с этим большие ошибки преобразования [41, 42].

Для преодоления рассмотренных ограничений в работе предлагается использовать для кодирования звуковых данных алгоритм оптимизированных по быстродействию и точности дельта-преобразований второго порядка, в котором учитывается большинство недостатков существующих алгоритмов дельта-преобразования [43].

Известные алгоритмы дельта-преобразования на основе первых разностей относятся к наиболее простым и экономичным с точки зрения практической реализации. Однако их низкие производительность и точность, необходимость использования повышенной частоты дискретизации (по сравнению с исходной частотой дискретизации) существенно ограничивают область применения для этих алгоритмов для кодирования аудиоданных.

Возможность улучшения характеристик дельта-преобразований связывается с разработкой методов более высоких порядков, когда восстановление отсчетов выполняется на основе разностей второго и более высоких порядков. При этом формируются переменные по модулю и знаку значения приращения аппроксимирующей функции, а сжатие основывается на замещении отсчета исходной функции последовательностью начальных условий и одноразрядных представлений вторых разностей. В работе [43] анализируются известные методы и алгоритмы дельта-преобразований второго порядка.

Особенностью предлагаемых для использования в данной работе алгоритмов оптимизированных дельта-преобразований второго порядка является возможность обеспечения устойчивых процессов, реализации отработки ступенчатой функции без перерегулирования за минимальное количество шагов и с минимальной из всех возможных максимальных значений ошибкой после завершения переходного процесса [44, 45]. Используется также модификация алгоритма дельта-преобразования второго порядка, обеспечивающего работу со сглаживанием для постоянно изменяющейся функции. Предложены алгоритмы, обеспечивающие возможность адаптации с целью обеспечения наиболее качественного преобразования для произвольно изменяющегося набора данных.

Структурная схема кодека звуковых данных

Немаловажной компонентой разработанной программной реализхации алгоритма является формат хранения и передачи выходного битового потока [67-69]. Общий формат выходного битового потока кодера для передачи фрагмента звуковых данных приведен в таблице 9. где к — коэффициент, задающий соотношение между исходной и промежуточной частотой дискретизации фрагмента звуковых данных.

При передаче "неактивного" фрагмента обязательным является передача только однобитового кода типа фрагмента. Исходными данными для процедуры ограничения доступа к звуковым отсчетам являются фрагменты звуковых данных, компрессированных с использованием алгоритма аудиокомпрессии на основе оптимизированных дельта-преобразований второго порядка, содержащие одноразрядные коды знаков квантов цифрового преобразования, величину кванта цифрового преобразования и начальные условия для фрагмента сигнала. Алгоритм ограничения доступа представляет собой процесс гаммирования (наложения гаммы с четырехбайтным ключом на компрессированные данные), в котором учитывается текущее состояние алгоритма. Новое значение ключа формируется в очередном раунде. Раунд применяется к нескольким последовательным фрагментам компрессированных данных [70].

Состояние алгоритма описывает текущий результат преобразования блока данных, представляемый в виде одномерного массива фрагментов данных. Раундовый ключ содержит позиции изменяемых дельта-битов для всех фрагментов блока и параметры генератора псевдослучайных чисел. Новый раундовый ключ хп получается при очередном обращении к генератору случайных чисел на основе умножения с переносом: х =а-х _. +carrymodb) (33) где множителем генератора является а, основанием - 6, a carry - значение переноса. Для организации рекурсии необходимы начальные значения х0 и carry. В качестве исходных данных для работы генератора случайных чисел используется значение специального регистра процессора, содержащего количество тактов, прошедших с момента включения компьютера. Раундовый ключ генерируется однократно для нескольких последовательных кодируемых блоков, поэтому его вклад в суммарную трудоемкость кодирования является несущественной.

Вследствие низкой трудоемкости дополнительных операций ограничения несанкционированного доступа к компрессированным потокам звуковых данных, их реализация может быть интегрирована с реализацией аудиокодека.

Ограничение доступа к потоку компрессированной аудиоинформации осуществляется путем выполнения над сформированной последовательностью знаков квантов цифрового преобразования операции гаммирования с заданным раундовым ключом. Кроме того, каждый фрагмент звуковых данных дополняется заголовком, содержащим целочисленный идентификатор. Этот идентификатор представляет собой эталонную константу аудиокодека, на которую на стороне кодера наложена гамма (выполнено гаммирование) с использованием раундового ключа. На приемной стороне выполняется попытка восстановления эталонной константы из идентификатора с использованием имеющегося в декодере раундового ключа и полученное значение сравнивается с эталонной константой. В случае ошибки при сравнении принимается решение о невозможности дальнейшего восстановления полученных медиаданных из-за неверного раундового ключа. В этом случае декодирование не выполняется, что приводит к снижению накладных расходов при попытке декодирования

Ч медиаданных с неправильным ключом.

С учетом рассмотренных программных реализаций кодера и декодера звуковых данных необходимо сформулировать комплексный алгоритм кодека звуковых данных на основе оптимизированных дельта-преобразований второго порядка. Общая схема компрессии/декомпрессии представлена на рисунке 14. Функция Modulate осуществляет компрессию звуковых фрагментов в соответствии с разработанным алгоритмом. Функция Demodulate предназначена для декомпрессии фрагментов аудиоданных. Процедура GetAverageY используется для вычисления средней второй разности отсчетов звукового фрагмента. Анализ активности звукового фрагмента выполняется с помощью функции DetectSilenece. ComputeStep рассчитывает значение промежуточной частоты дискретизации (учащения/прореживания). Sampling -процедура, используемая для учащения или прореживания звукового фрагмента. Функция ComputeC выполняет расчет оптимизированного веса кванта цифрового преобразования для звуковых фрагментов.

Анализ влияния длины фрагмента звуковых данных алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа

Для создания быстродействующей реализации алгоритма компрессии звуковых данных помимо использования высокопроизводительного алгоритма требуется решение ряда задач, связанных с оптимизацией программного кода. В частности, необходимо свести до минимума или практически отказаться от использования трудоемких вычислительных операций. К таким операциям можно отнести вычислительные операции с плавающей запятой и проверки различного рода условий. Так же, в рамках оптимизации возможно использование ассемблерных вставок или функций, полностью реализованных на языке низкого уровня. Дополнительно, скорость вычислений может быть повышена за счет применения таблиц [81-85].

Необходимо оценить трудоемкость следующих наиболее сложных процедур: - процедуры вычисления параметров кодирования фрагмента звуковых данных (GetAverageY); - процедуры изменения исходной частоты дискретизации исходного фрагмента (Sampling); - процедуры выполнения дельта-преобразования второго порядка (Modulate); - процедуры выполнения восстановления звуковых данных (Demodulate);

Процедура вычисления параметров кодирования звукового фрагмента реализована на языке ассемблер без использования операций с плавающей запятой. Трудоемкость данной процедуры оценивается четырьмя операциями целочисленного сложения и одной проверкой условия на один отсчет звуковых данных. Код процедуры вычисления параметров кодирования приведен в приложении.

Процедура изменения частоты дискретизации фрагмента звуковых данных представляет собой код на языке ассемблер без использования операций с плавающей запятой. Трудоемкость процедуры изменения частоты дискретизации зависит от значения коэффициента, задающего соотношение исходной и промежуточной частотами дискретизации (на один отсчет звуковых данных): - при прореживании исходного фрагмента звуковых данных в два раза -одна операция целочисленного сложения (изменение индекса в массиве звуковых данных); - при прореживании исходного фрагмента звуковых данных в четыре раза — одна операция целочисленного сложения (изменение индекса в массиве звуковых данных); - при прореживании исходного фрагмента звуковых данных в восемь раз - одна операция целочисленного сложения (изменение индекса в массиве звуковых данных); - при учащении исходного фрагмента звуковых данных в два раза - одна операция сдвига и три операции целочисленного сложения; - при учащении исходного фрагмента звуковых данных в четыре раза одна операция сдвига и пять операций целочисленного сложения; - при учащении исходного фрагмента звуковых данных в восемь раз одна операция сдвига и девять операций целочисленного сложения;

Поиск и анализ наиболее трудоемких участков программного кода осуществляется с помощью профилирования. Под профилированием понимается измерение времени работы функции в рамках одного программного приложения. Для нахождения наиболее трудоемких с точки зрения времени выполнения участков, фрагменты программного кода анализируются на предмет времени выполнения. После того, как найден участок с наибольшим временем выполнения, выполняется анализ и оптимизация машинного кода данного фрагмента. По результатам профилирования наиболее трудоемкой частью программной реализации модифицированного алгоритма дельта-преобразования второго порядка по результатам профилирования участков программного кода является вычисление функции прогноза F [86, 96-98]. Для ji повышения производительности процедуры дельта-преобразования второго порядка используется табличный метод вычисления значения dzf, а для определения знаков V, и dzt используется ассемблерный код, анализирующий знаковые разряды соответствующих переменных [87-95].

Трудоемкость процедуры декодировнаия оценивается двумя операциями целочисленного сложения на один отсчет звуковых данных. Коды процедуры дельта-преобразования второго порядка и процедуры восстановления звуковых данных на основе разработанного алгоритма приведены в приложении.

Результаты оценок трудоемкостей основных процедур (на один отсчет звуковых данных) представлены в таблице 10. Следует обратить внимание на тот факт, что полностью отсутствуют операции умножения и действия выполняются над целыми числами.

Похожие диссертации на Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка