Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Ятагама Гамаге Даммика Придаршана

Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары
<
Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ятагама Гамаге Даммика Придаршана. Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары : Дис. ... канд. техн. наук : 05.12.04 СПб., 2005 260 с. РГБ ОД, 61:05-5/2591

Содержание к диссертации

Введение

1. Современное состояние и перспективы развития методов кодирования звуковых сигналов радиовещания и телевидения 21

1.1. Общие сведения и классификация методов кодирования звуковых сигналов 21

1.2.Стандарты кодирования семейства MPEG 24

1.2.1. Общие сведения о стандартах семейства MPEG 24

1.2.2. Алгоритм кодирования аудиосигналов стандарта MPEG-1 ISOAEC 11172-3 25

1.2.3. Алгоритмы кодирования аудиосигналов стандарта MPEG-2 ISOAEC 13818-3 31

1.2.4. Алгоритм кодирования MPEG-2 ISO/IEC 13818-7 ААС 33

1.2.5. Алгоритм кодирования MPEG-4 ISO/IEC FCD 14496-3 36

1.3. Кодирования звуковых сигналов в системе Dolby АС-3 39

1.4. Энтропийное кодирование 44

1.5. Особенности психоакустических моделей алгоритмов кодирования с компрессией цифровых аудиоданных 46

1.5.1. Психоакустическая модель 1 стандарта MPEG ISO/IEC 11172-3 48

1.5.2. Психоакустическая модель 2 стандарта ISO/IEC 11172-3 50

1.5.3. Особенности психоакустической модели системы кодирования Dolby АС-3 53

1.6. Качество кодеков с компрессией цифровых аудиоданных 53

1.7. Проблемы при разработке кодеков с компрессией цифровых аудиоданных 58

1.8. Постановка задачи и цель диссертационной работы 69

2. Разработка структурной схемы и уточнение алгоритма работы экспериментальной установки 72

2.1. Разработка и обоснование структурной схемы экспериментальной установки 72

2.2. Временная и частотная сегментации звукового сигнала 76

2.3. Психоакустическая энтропия звукового сигнала 87

2.4. Психоакустические модели экспериментальной установки 89

2.4.1. Расчет спектра выборки звукового сигнала 89

2.4.2. Расчет глобального порога маскировки или отношения сигнал-маска 91

2.5. Объединение сигналов стереопары при кодировании 113

2.5.1. Психоакустические основы процедуры объединения сигналов стереопары 113

2.5.2. Алгоритмы объединения сигналов стереопары в стандартах MPEGHA 52 114

3. Разработка програмнои модели и интерфейса исследовательской установки 129

3.1. Обобщенная структурная схема программной модели 129

3.2. Обобщенная структурная схема психоакустической модели 132

3.3. Блок гибридного полифазного банка фильтров 139

3.4. Блок неравномерного квантования и кодирования 141

3.5. Декодер 157

3.6. Блок формирования стерео WAV файлов 158

3.7. Блок объединения сигналов стереопары 158

3.8. Блок считывания заголовок wav-файла 159

3.9. Интерфейс экспериментальной установки 159

3.10. Интерфейс для субъективной оценки качества звучания 169

4. Результаты экспериментальных исследований 173

4.1. Программа исследований 173

4.2. Общие сведения о процедуре проведения эксперимента 174

4.3. Психоакустическая энтропия сигнала и требуемое для кодирования количество бит 177

4.4. Битовый резервуар 180

4.4.1. Контроль объема битового резервуара в системе кодирования MPEG-1 ISOAEC 11172-3 Layer 3 181

4.4.2. Максимально допустимый объем битового резервуара и буфера в системе кодирования MPEG-1 ISO/IEC 11172-3 Layer 3

181

4.5. Предельные значения психоакустической энтропии в зависимости от полосы частот звукового сигнала и частоты дискретизации 183

4.6. Расчет числа бит, требуемого психоакустической моделью в полосах психоакустического анализа Ь, полосах кодирования «них фактическое распределение при кодировании звукового сигнала 184

4.6.1. Расчет требуемого числа бит в полосах психоакустического анализа Ь на основе отношения сигнал-шум, SNRb 184

4.6.2. Расчет требуемого количества бит в полосах психоакустического анализа Ъ на основе учета психоакустической энтропии 188

4.6.3. Расчет требуемого количества бит в полосах кодирования п на основе учета психоакустической энтропии 193

4.6.4. Расчет психоакустической моделью требуемого количества бит для каждого аудиофрейма 194

4.6.5. Расчет коэффициента корреляции левого и правого сигналов стереопары 199

4.6.6. Фактически потраченное количество бит до и после объединения сигналов стереопары 202

4.7. Субъективная оценка качества звучания объединенного сигнала стереопары 211

4.8. Представление итоговых результатов, выполненных в работе экспериментальных исследований 214

Заключение 224

Список литературы 227

Приложения

Введение к работе

Представление высококачественных звуковых сигналов в цифровой форме широко используется в телекоммуникационных системах радиовещания, телевидения, в системах записи и воспроизведения звука, при реставрации старых записей с целью повышения их качества, при создании новых необычных видов звучаний, в MULTIMEDIA - приложениях, в системах виртуальной реальности.

При первичном кодировании звуковых сигналов применяется равномерное квантование с разрешением 16...24 бит/отсчет и частоте дискретизации 44,1, 48,...,192 кГц. Полоса частот кодируемого сигнала составляет 20...20000 Гц, а его динамический диапазон не более 40 дБ. Наиболее высокое качество звучания обеспечивают звуковые форматы 3/2, 5.1 и система воспроизведения типа "трапеция" (PeK.ITU-R 775). При первичном кодировании стереофонических сигналов суммарная скорость цифрового потока оказывается достаточно большой, особенно при форматах 3/2 и 5.1. Вследствие ограниченной пропускной способности каналов связи, особое значение приобретают методы их обработки с целью компрессии цифровых аудиоданных после первичного линейного кодирования. Все эти методы компрессии основаны на учете характеристик, как самого сигнала, так и слуха, в частности, таких его феноменов как маскировка, предмаскировка, и постмаскировка. С этой точки зрения наиболее эффективными являются методы кодирования группы MPEG (стандарты ISO/IEC 11172-3, 13818-3, 13818-7, 14496-3), ATRAC, ASPEC, apt=X100 и Dolby АС-3 (А/52).

Компрессия цифровых аудиоданных при малой скорости цифрового потока неизбежно сопровождается искажениями, например, при использовании метода MUSICAM (ISOAEC 11172-3 Layer 2) стереопанорама становится более плоской, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения, теряются индивидуальные признаки звучания, свойственные одиночным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные инструменты записаны в помещениях с разными акустическими свойствами. Эти искажения заметны на слух уже при скорости передачи 128 кбит/с на канал (MPEG-1 ISOAEC 11172-3 Layer 2) и 64 кбит/с (MPEG-1 ISO/IEC 11172-3 Layer 3).

Скорость цифрового потока на выходе кодера с компрессией цифровых аудиоданных обычно лежит в пределах 64...256 кбит/с на канал. С целью ее дальнейшего уменьшения в алгоритмах компрессии MPEG ISO/IEC 11172-3, ISO/IEC 13818-3 и 13818-7 AAC, а также и Dolby АС-3 (А/52) рекомендуется использовать дополнительно режим объединения сигналов стереопары («Joint Stereo»). Однако его применение на практике затруднено отсутствием критериев, при которых это объединение сигналов стереопары эффективно. Известно лишь, что при работе кодека в данном режиме могут появляться искажения в восстановленном сигнале, связанные не только с передачей пространственной информации.

Изложенное подтверждает, что изучение проблемы объединения сигналов стереопары с целью повышения эффективности алгоритмов их компрессии является актуальной научной задачей, востребованной в теории и на практике.

Проблемам компрессии цифровых аудиоданных с устранением избыточности посвящены работы ученых Scott N. Levine, Е. F. Schroeder, W. Voessing, J. Johnston, K. Brandenburg, E. Zwicker, M. Schroeder, N. Jayant, Ю. А. Ковалгина, A.M. Синильникова, A.C. Грудинина, B.A. Леонова, С. Г. Рихтера и других. Оценка качества звучания компрессированных сигналов рассмотрена в работах Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J. Johnston.

Цель и основные задачи работы. Целью работы является оценка эффективности процедуры объединения сигналов стереопары, а также исследование того, при каких условиях и каким образом процедура объединения сигналов стереопары должна выполняться; насколько при этом возрастает сложность алгоритма компрессии и как изменяется качество кодированного сигнала с уменьшением скорости его передачи. Для достижения поставленной цели необходимо:

1. Провести аналитический обзор существующих методов кодирования звуковых сигналов (ЗС) с компрессией цифровых данных; изучить международные стандарты и рекомендации, относящиеся к данной проблеме; детально по шагам исследовать алгоритмы и процедуры обработки ЗС, реализованные в системах кодирования с компрессией цифровых аудиоданных, включая и процедуры объединения сигналов стереопары; сформулировать требования, предъявляемые к отдельным блокам кодера;

2. Разработать алгоритм объединения сигналов стереопары, представить его в форме математической модели, в процессе исследований выбрать и уточнить критерии объединения сигналов стереопары в субполосах кодирования;

3. Разработать структурную схему исследовательской установки, позволяющей проводить исследования и оценку эффективности алгоритмов компрессии и качества кодированных ЗС, необходимые для достижения конечной цели, поставленной в данной работе;

4. Реализовать на базе программную модель исследовательской установки для проведения экспериментальных исследований, разработать удобный интерфейс, сформулировать и обосновать собственно программу экспериментальных исследований;

5. В соответствии с разработанной программой, с помощью данной установки, исследовать реальные фрагменты ЗС, результаты вычислений записать в виде файлов, необходимых для дальнейших вычислений, создать тест-фонограммы для оценки качества кодированных сигналов путем проведения соответствующих субъективно-статистических экспертиз;

6. Массивы экспериментальных данных, полученные при проведении экспериментальных исследований, обработать с применением методов математической статистики и далее для удобства последующего анализа представить графически.

7. Оценить качество кодированных сигналов методом парных сравнений.

Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки звуковых сигналов, имитационного моделирования с применением средств C++, MathCAD, Visual Basic, математической статистики и субъективно-статистических экспертиз.

Научная новизна и новые полученные результаты диссертационной работы заключается в следующем:

1. Исследование алгоритмов компрессии цифровых данных показывает, что используемые здесь процедуры и лежащие в их основе психоакустические модели не в полной мере отражают процессы обработки стереофонических сигналов в слуховой системе человека, не учитывают механизмы временной маскировки и, что более важно, бинауральной демаскировки звуковых образов, играющие значительную роль при слуховом восприятии; все это снижает эффективность их применения;

2. Разработана психоакустическая модель, которая является ключевой частью в любой системе кодирования с компрессией цифровых аудиоданных. Она состоит из ряда модулей, имеет гибкую, легко изменяемую структуру, включает в себя большинство существующих процедур психоакустического анализа. На ее основе может быть реализована любая базовая психоакустическая модель алгоритмов кодирования стандартов MPEG. Ряд процедур, реализуемых в этих моделях, уточнен автором с учетом результатов новейших исследований, дано полное математическое описание психоакустической модели, предложенной автором работы.

3. Разработана блочно-модульная структура и на ее основе программная модель экспериментальной установки, предназначенной для исследования алгоритмов компрессии цифровых аудиоданных. Она содержит все базовые блоки: банк фильтров, психоакустическую модель, блок квантования и кодирования, блок распределения бит, блок формирования цифрового потока.

Программная модель исследовательской установки протестирована с использованием реальных стереофонических музыкальных сигналов.

4. Предложены и обоснованы критерии объединения субполосных сигналов стереопары при их кодировании; разработаны метод оценки эффективности введения данной процедуры, а также интерфейс, необходимый для исследования алгоритмов компрессии цифровых аудиоданных и для создания тест-фонограмм, предназначенных для оценки качества эталонного и кодированного звуковых сигналов методом парных сравнений.

5. С помощью реализованной в работе исследовательской установки обработано 5 отрывков реальных ЗС разных жанров с длительностью звучания от 8 до 20,5 с. Каждый отрывок подвергнут исследованию в разных условиях объединения сигналов стереопары. Все результаты вычислений записаны в виде файлов в определенных директориях. На основе статистической обработки полученных массивов экспериментальных данных получено множество зависимостей, необходимых для последующего анализа.

5. Доказано, что объединение субполосных сигналов стереопары при их кодировании позволяет дополнительно снизить скорость цифрового потока на 5-10 % по сравнению со значением, начиная с которого искажения, вызванные компрессией цифровых данных, становятся заметными на слух; в среднем это составляет около 10... 15 кбит/с на канал.

6. Определены границы частот, начиная с которых можно начинать объедение сигналов стереопары.

Практическая значимость работы заключается в следующем:

1. Разработаны критерии, методы и программа исследований, позволяющие всесторонне оценить эффективность объединения субполосных сигналов стереопары при их кодировании, а также определить величину дополнительного снижения скорости цифрового потока за счет ее введения;

2. Разработаны программная модель и интерфейс исследовательской установки, форматы представления массивов входных и выходных данных, входящих в ее состав блоков. Это позволяет проводить всесторонние исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, обрабатывать получаемые с ее помощью данные, используя для этой цели стандартные пакеты программ прикладной статистики. Исследовательскую установку можно использовать также и в учебном процессе. Ее использование позволяет не только выполнять широкий круг исследований алгоритмов компрессии цифровых данных, но найти компромиссное решение между эффективностью и качеством объединяемых сигналов стереопары. В результате чего, можно грамотно выбрать частотные границы объединения сигналов стереопары.

3. Найдено требуемое для прозрачного кодирования количество бит в разных субполосах и установлено, что для звуковых сигналов всех жанров существуют четкие границы требуемого количества бит, приходящееся на один коэффициент МДКП. При этом в области частот 0...700Гц это значение лежит в пределах от 8 до 10 бит; в области от 700...3500 Гц оно составляет уже от 2...4 бита, а в области частот выше 3500 Гц оно не превышает 1...2 бит.

4. Правильность предложенных в работе критериев объединения сигналов стереопары подтверждена субъективно-статистическими экспертизами; эффективность введения этой процедуры оценена на реальных звуковых сигналах, сформулированы условия ее применения.

Внедрение результатов исследований. Результаты исследований использованы в ЛОНИИС при разработке и исследовании кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 201100- Радиосвязь, радиовещание и телевидение и 2014400- Аудиовизуальная техника, что подтверждено соответствующими актами внедрения.

Положениями, выносимыми на защиту, являются:

1. Разработанные в рамках данной работы блочно-модульная структура исследовательской установки, реализованная на ее основе программная модель и интерфейс достаточны для детального исследования алгоритмов компрессии цифровых аудиоданных. Предусмотренные в ней возможности для хранения, последующего анализа и обработки теоретических и экспериментальных данных позволяют на ее основе проводить множество исследований, в том числе и всестороннюю оценку эффективности процедуры объединения субполосных сигналов стереопары.

2. Оценка коэффициента корреляции субполосных сигналов, учет механизмов пространственного слуха человека и распределения энергии звуковых сигналов по частоте - это основа для разработки критериев объединения субполосных сигналов стереопары при их кодировании.

3. Оценка эффективности процедуры объединения сигналов стереопары подтверждает, что когда ресурсы других методов снижения скорости цифрового потока уже исчерпаны, режим объединения позволяет дополнительно снизить скорость цифрового потока в среднем на 5-7% от установленного исходного значения. Это выполняется при условиях, когда объединяются субполосные составляющие сигналов стереопары ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков, а также и те субполосы, где коэффициент взаимной корреляции превышает пороговое значение.

4. Требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц.

Апробация результатов работы и публикации. Результаты, полученные в ходе исследований, докладывались и обсуждались на научно-технических конференциях (НТК) профессорско-преподавательского состава СПбГУТ им. проф. Бонч-Бруевича в Санкт-Петербурге, на МНТК в Одессе (Украина, 2001) а также они были представлены в виде стендового доклада на 21-ой межрегиональной конференции международного общества аудиоинженеров (AES, г. Санкт-Петербург, 2002).

По тематике диссертационной работы опубликовано 8 печатных работ, включая 6 публикаций в виде тезисов докладов и 2 статьи в сборниках трудов международных научно-технических конференций.

Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка принятых сокращений, списка принятых обозначений, списка литературы и трех приложений. Глава 1 является вводной. В ней кратко рассмотрены общие сведения и классификация методов кодирования звуковых сигналов, как традиционные так и новейшие методы кодирования ЗС; изложены сведения о существующих стандартах семейства MPEG (MPEG-1 ISOAEC 11172-3, MPEG-2 ISCMEC 13818-3, MPEG-2 ISOAEC 13818-7 AAC, MPEG-4 IS(MEC FCD 14496-3) и ATSC Dolby AC-3 (A/52); рассмотрены психоакустические модели алгоритмов кодирования с компрессией цифровых аудиоданных; представлена оценка качества кодеков с компрессией цифровых данных, сформулированы основные проблемы, возникающие при их разработке, а также цель и задачи данного исследования. Глава 2 посвящена разработке структурной схемы и алгоритма работы экспериментальной установки. Здесь сформулированы требования к экспериментальной установке и разработана ее структурная схема. Глава 3 включает себя разработку программной модели и интерфейса исследовательской установки. В главе 4 рассматривается анализ и обработка результатов исследований, а так же условия проведения эксперимента и обработка результатов, получены предварительные результаты субъективной оценки качества звучания объединенного сигнала стереопары; итоговые результаты расчетов представлены в виде графиков.

Работа содержит 260 листов, в том числе 226 листов основного текста, 58 рисунков, 23 таблиц, 128 формул. В списке литературы 102 наименований. Приложения 1 и 2 размещены на 34 страницах, а приложения 3 - на компакт-диске, прилагаемом к работе.

Кодирования звуковых сигналов в системе Dolby АС-3

Общие сведения о системе Dolby АС-3. Система Dolby АС-3 предназначена для кодирования сигналов многоканальной стереофонии и рекомендована национальным комитетом ATSC (Advanced Television System Committee) США для систем телевидения высокой четкости HDTV и других применений, таких как спутниковое радиовещание, передача звуковых сигналов по оптоволоконным линиям связи, запись на магнитные, оптические и др. носители информации.

Кодер системы Dolby АС-3. Цифровой поток на выходе кодера системы Dolby АС-3 (рис. 1.6) представляет собой последовательность аудиофреймов (Pack АС-3 Frame). Упрощенная структурная схема кодера системы Dolby АС-3 показана на рис. 1.7. Рассмотрим алгоритм его работы.

Структура данных каждого аудиофрейма строго определена. Содержащаяся в нем информация условно может быть разделена на две части: основную (Main Information) и дополнительную (Side Information). Аудиофрейм цифровых данных на выходе кодера включает 6 аудиоблоков. Каждый такой аудиоблок содержит информацию о 512 отсчетах для каждого из кодируемых сигналов. Вследствие 50% временного перекрытия в каждый аудиоблок для каждого из сигналов включаются 256 отсчетов предыдущего блока и 256 новых отсчетов следующего блока (рис. 1.6).

После сегментации по времени группа отсчетов ЗС сигнала каждого канала преобразуется в новую совокупность цифровых данных посредством модифицированного дискретного косинусного преобразования (МДКП). Сегментация звуковых сигналов по времени с 50% перекрытием выборок и их преобразование из временной в частотную область выполняются в блоке временного и частотного преобразования (Frequency Domain Transform, рис. 1.7). Перед ортогональным преобразованием выборки ЗС, состоящие из 512 отсчетов, взвешиваются оконной функцией. Последняя представлена в стандарте таблицей [29].

Преобразование выборки ЗС из временной области в частотную область может быть выполнено посредством одного длинного (512-ти точечного) или двух коротких (соответственно 256-ти точечных) преобразований. В первом случае будет получено 256, а во втором — соответственно 128+128 значений коэффициентов МДКП. При короткой выборке коэффициенты МДКП обоих сегментов, содержащие по 128 значений, объединяются в один общий блок путем их чередования. В этом общем блоке будет также 256 коэффициентов МДКП. Расчет коэффициентов МДКП проводится согласно следующей формуле:где: N- длина выборки отсчетов ЗС; XD[k] - амплитудное значение к-того коэффициента МДКП; х[п] - значение я-го отсчета ЗС в блоке, причем N=512 для длинного и N=256 для короткого преобразований; а- параметр равный -1 для первого сегмента "короткого" преобразования;для длинного преобразования; +1 для второго сегмента "короткого" преобразования. Заметим, что длинное преобразование наиболее предпочтительно для сигналов, медленно изменяющихся по амплитуде с течением времени, оно обеспечивает лучшее разрешение по частоте; короткое преобразованиеобеспечивает лучшее разрешение по времени и применяется для сигналов, быстро меняющихся во времени, например, в области атаки звука. Флаг Block Switch Flags (blkswflag, рис. 1.7) указывает, какое преобразование (длинное или короткое) применено при кодировании выборок ЗС в кодере системы АС-3. Параметр Block Switch Flags включается в выходной поток цифровых данных как дополнительная информация и используется декодером для выполнения обратного преобразования.

При малых скоростях передачи цифровых данных в кодере предусмотрено использование специальной процедуры объединения канальных сигналов (Coupling, рис. 1.7), позволяющей при их кодировании обойтись меньшим количеством бит.

При кодировании каждый коэффициент МДКП представляется в формате с плавающей запятой двумя значениями: экспонентой (или порядком) и мантиссой:где А[к] и В [к] -соответственно мантисса и порядок &-того коэффициента преобразования. Порядок равен числу нулей перед первой единицей двоичного представления коэффициента преобразования. Порядок коэффициента МДКП в стандарте АС-3 представляет собой число, изменяющееся в пределах от 0 до 24. При кодировании значений порядков соответствующее им кодовое слово должно иметь по крайней мере (25=32) пять разрядов m-S. Максимальная величина порядка ограничивается значением 24.

Для кодирования значений порядков в кодере системы Dolby АС-3 использован метод дифференциальной ИКМ. Здесь кодируется не само значение порядка, а разность между значениями порядков в соседних полосах психоакустического анализа.

Дифференциальные значения порядков объединяются в группы. Для процедуры группирования используются три возможных стратегии, обозначенные в стандарте как D15, D25 и D45. В стратегии D15 каждоедифференциальное значение порядка представлено одним из пяти возможных значений числа М=0 или 1, или 2, или 3, или 4 в потоке цифровых данных и, соответственно требует максимального количества бит для их кодирования. В стратегии D25 каждая пара, а в стратегии D45 уже каждая четверка дифференциальных значений порядков представлены одним значением числа М в потоке цифровых данных.

Выбор той или иной стратегии кодирования (D15, D25 или D45) определяется компромиссом между хорошим частотным разрешением, разрешением по времени, и количеством бит, требуемых для кодирования экспоненты. Стратегии D15 и D25 используются для кодирования сигналов, имеющих неравномерный спектр, когда значение экспоненты изменяется довольно быстро от одной полосы психоакустического анализа к другой. Если же спектр сигнала достаточно гладкий (плоский), тогда используются стратегии кодирования D25,D45.

После выбора стратегии кодирования порядков кодер объединяет кодовые слова, соответствующие дифференциальным значениям экспонент, в группы. Для всех режимов работы кодера системы АС-3 наборы чисел М для трех соседних по частоте коэффициентов МДКП M[k],M[k+l],M[k+2] группируются вместе и кодируются как 7-битовое кодовое слово (Coded 7 bit Grouped Value) по правилу:

Аудиоблок в системе АС-3 содержит два типа полей с информацией о порядке. Первый тип определяет выбранную стратегию {exponent strategy, рис. 1.7) для сигнала каждого канала, а второй тип содержит непосредственно кодовые слова порядков {encoded exponent, рис. 1.7).

Двоичное кодовое слово, определяющее значение каждого коэффициента преобразования XD[k] в блоке нормирования мантиссы {Normalize Mantissas -рис. 1.7) сдвигается влево до получения нормированного значения мантиссы. Число сдвигов влево определяет значение соответствующей экспоненты,

Временная и частотная сегментации звукового сигнала

Частотная сегментация звукового сигнала. В исследовательскойустановке используется гибридный банк фильтров точно такой же, как в кодереMPEG стандарта ІБОЯЕС 11173-3 Layer 3. В банке фильтров входной сигналразделяется на 32 субполосных составляющих. С помощью оконных функцийh(n) меняется разрешение как по времени, так и по частоте при ортогональномпреобразовании звукового сигнала перед его квантованием и кодированием.Квантованию и кодированию подвергаются коэффициентымодифицированного дискретного косинусного преобразования (МДКП). Вычисление коэффициентов МДКП выполняется в гибридном банке фильтров (рис.2.3).

На вход PQMF-фильтра (Polyphase Quadrature Mirror Filter-полифазный квадратурный зеркальный фильтр) поступает выборка звукового сигнала {хп}м (где хп- я-ый отсчет входного сигнала, М - число отсчетов в выборке на входе банка фильтров), состоящая из 1152-х. На самом деле каждый раз на вход банка фильтров поступает 576 отсчетов, после расфильтровки мы имеем в каждой субполосе по 18 отсчетов звукового сигнала, эти отсчеты запоминаются, берутся новые 576 отсчетов и полученные новые 18 отсчетов в каждой субполосе прибавляются к старым. После этого для всей полученной группы, состоящей из 36 отсчетов, выполняется МДКП длинное или короткое. Экспериментальная установка должна позволять использовать при вычислении МДКП разные по форме и длине оконные функции в сбполосах кодирования .

В каждом таком полосовом фильтре (PQMFb PQMF2,..., PQMF32) выполняется процедура децимации с понижением частоты дискретизации в ід/32 раз. Каждый такой фильтр имеет полосу частот 750 Гц. На выход каждого PQMFj-фильтра поступает 36 временных отсчётов, состоящих из 18 старых и 18 новых значений, т.к. каждый раз на вход PQMF-банка фильтров поступает по 576 новых значений отсчётов звукового сигнала, а 576 старых значений сохраняются в буфере фильтра, так что в общей сложности в каждой субполосе мы имеем по 36 отсчетов ЗС, для которых далее и выполняется МДКП.

Проблема синтеза фильтров для системы субполосного кодирования является самостоятельной научной задачей, выходящей за рамки данного исследования. Алгоритм фильтрации, реализуемый в исследовательской установке, полностью соответствует стандарту MPEG ISO/IEC 111 72-3 Layer З [23] и поэтому здесь отдельно не описывается.

Следующим этапом обработки сигнала в гибридном банке фильтров является ортогональное преобразование сигнала выборки в каждой субполосе в частотную (спектральную) область. Для этой цели используется модифицированное дискретное косинусное преобразование МДКП (MDCT-Modlfied Discrete Cosine Transform).

Вычисление коэффициентов МДКП выполняется по формуле (2.1):где Xj- z -тый коэффициент модифицированного дискретного косинусного преобразования; z„- я-ый отсчёт выборки субполосного сигнала, взвешенного оконной функцией; N - длина преобразования (длина выборки отсчетов субполосного сигнала {zn} )), для которой выполняется МДКП.

Временная сегментация звукового сигнала. Оконные функции необходимы, как показали ранее выполненные исследования [82], для уменьшения искажений сигнала, возникающего при прямом и обратном МДКП. В этой же работе теоретическим путем было доказано, что с этой точки зрения наилучшие результаты обеспечивают так называемые синусные оконные функции и оконные функции Кайзера-Бесселя.

В Layer 3 длина преобразования N зависит от структуры звукового сигнала. В случае медленных изменений амплитуды звукового сигнала во времени длина преобразования N=36. Это так называемое длинное преобразование, где МДКП вычисляются для выборки субполосного сигнала, состоящей из 36 отсчетов. В итоге в каждом субполосном канале мы имеем по 18 коэффициентов МДКП (2.1). При этом на выход гибридного полифазного банка фильтров в общей сложности поступает 18-32=576 коэффициентов МДКП. Если же обрабатываемая выборка звукового сигнала имеет «всплески», резкие выбросы временной функции сигнала, то длина преобразования составляет N=12 отсчетов ЗС (короткое преобразование). После этих вычислений имеем 6 коэффициентов МДКП для каждой такой группы отсчетов субполосного звукового сигнала. Всего в каждой субполосе ортогональное преобразование выполняется для трех групп отсчетов, то есть выполняется уже три раза. В этом последнем случае имеем в каждой субполосе соответственно (6-3) коэффициентов МДКП, а для всех субполос по-прежнему на выходе PQMF-фильтра будет (6-3)-32=576 коэффициентов МДКП. Другими словами, при наличии «всплесков или выбросов» в выборке звукового сигнала, длина преобразования уменьшается, что эквивалентно увеличению разрешения сигнала во временной области. В Layer 3 при переходе от длинной выборки к коротким и наоборот используются дополнительно так называемые окна перехода [23].

В отличие от Layer 3 (стандарт ISO/TEC 11172-3) в стандарте ISO/IEC 13818-7 ААС рекомендуется при вычислении прямого и обратного МДКП использование двух типов оконных функций либо синусных, либо Кайзера-Бесселя. Они обеспечивают наименьшие искажения при прямом и обратном МДКП [20]. При этом, как и ранее, окна могут быть как длинными, так и короткими.

В отличие от стандартов MPEG ISO/IEC 11172-3 Layer 3 и ISO/IEC 13818-3 ААС, где используется два типа окон: длинное и короткое, и,соответственно, два разных дополнительных окна при переходе от длинных окон к коротким и наоборот, в работе Скотта Левина принят другой подход. Здесь для каждой полосы частот рекомендуется синусная оконная функция определенной длины, изменяющейся с частотой. При этом в области низких частот используются длинные окна, уменьшающиеся по длительности с повышением частоты [82]. Процедуры переключения окон в субполосах не требуется.

При восстановлении кодированного сигнала шум квантования, который распределен гладко (равномерно) в среде аудиофрейма, может появляться раньше, чем переходный выброс в этом фрейме (рис.2.4).

Это явление называется пред-эхом [82, стр.37]. Чтобы уменьшить влияние эффекта пред-эха можно, например, просто уменьшить длину окна анализа до нижней границы заметности временного разрешения уха. Но временной интервал, где проявляется эффект предмаскировки слуха мал, обычно около 2-3 мс, максимум 5... 10 Mc.[Zwiker and Fastt, 1990]. При столь малой длительности окна имело бы место очень малое частотное разрешение на низких частотах.

Блок гибридного полифазного банка фильтров

В исследовательской установке используется гибридный банк фильтров (блок 4, рис.3.1) точно такой же, как в кодере MPEG-1 стандарта ISO/IEC 11173-3 Layer 3. Его описание было приведено в разд. 2.2, а входные и выходные параметры представлены ниже (табл. 3.4).

При изменяемых по длине синусных оконных функциях используется стандартная процедура, как в MPEG Layer 3. При этом длина выборки N=1024 отсчета ЗС. Условием перехода от длинных окон к коротким окнам и наоборот является значение психоакустической энтропии ре. Пороговое значение психоакустической энтропии ре равно ре„ар-1800 [23, стр.96].

При использовании не переключаемых синусных оконных функций длина выборки звукового сигнала составляет 2048 отсчетов. Параметры длин оконных функций представлены в табл.2.1. Оконные функции h(n) вычисляются по формуле 2.3 при разных значениях длины N (N=64,32,16,8,4). Параметр п в формуле 2.3 меняется от 0 до N в каждой субполосе кодирования. Во всех случаях используется 50-ти процентное перекрытие оконных функций при расчете значений коэффициентов МДКП.

В исследовательской установке блок квантования и кодирования (блок 8, рис.3.1) точно такой же, как в кодере MPEG-1 стандарта ISO/IEC 11173-3 Layer 3. Этот блок выполняет непосредственно квантование и кодирование звукового сигнала в субполосах кодирования п.

Коэффициенты МДКП квантуются с помощью двух взаимосвязанных петель, образующих внешний (Outer Iteration Loop) и внутренний (Inner Iteration Loop) итерационные циклы. При выполнении внутреннего цикла (Rate Control Loop) осуществляется собственно квантование коэффициентов МДКП. При этом увеличение указателя шага квантования (уменьшение шага квантования) происходит до тех пор, пока массив значений коэффициентов МДКП может быть кодирован имеющимся в наличии количеством бит. Как только все имеющиеся в нашем распоряжении биты будут исчерпаны, подключится внешний цикл. Он проверяет величины энергий искажений квантования в каждой субполосе кодирования п. Если эта величина в какой-либо полосе кодирования превышает значение, требуемое в соответствии с данными психоакустических расчётов, то после внесения коррекции, о которой будет сказано ниже, снова вызывается внутренний цикл и процесс во внутреннем цикле повторяется.

Входные и выходные параметры блока квантования и кодирования представляется в таблице 3.5.big_yalues - количество пар квантованных значений коэффициентов МДКП, которые кодированы кодом Хаффмана, но исключая count 1;countltable_select — таблицы кода Хаффмана, у которых абсолютные величины кодируемых величин меньше или равны 1 в верхнем конце спектра;table_select[0...2] - номер используемой таблицы кодов Хаффмана для регионов 0...2;regionO_count, region 1 count — флаги, задающие соответственно границы между регионами 0-1 и 1-2;part2_3_length — величина, которая несет информацию о количестве бит (main_data bits), используемых для кодирования параметров scalefac_scale; с помощью последних передаются значения корректирующих множителей ifqsep1, а также данные о длине кодового слова соответствующей таблицы Хаффмана [23, стр.25], которая была использована для кодирования группы коэффициентов МДКП.

Итерационные циклы, реализованные в блоке квантования и кодирования, представлены на рис.3.3. Здесь же для большей наглядности приведены основные расчетные формулы и используемые переменные.

Среднее количество бит, приходящееся на гранулу (в одном аудиофрейме содержится 2 гранулы) для установленной скорости V передачи цифровых данных, определяется формулой:где V - установленная скорость передачи цифровых данных, бит/с;/д — частота дискретизации входного сигнала, N- число временных отсчетов в выборке сигнала (в Layer 3 значение N=\ 152); Ng- количество гранул в аудиофрейме (в Layer 3 Ng=2, каждая гранула содержит 576 коэффициентов МДКП).

Так как преамбула имеет 32 бита и для передачи дополнительной информации отведено 17 байт (136 бит) в режиме моно, то среднее доступное для кодирования количество бит, приходящееся на гранулу, Всред_ определяется следующем образом:2гранулы После определения среднего доступного количества бит, которое можно использовать для квантования и кодирования коэффициентов МДКП, инициализируются переменные внутренних и внешних итерационных циклов. Проверяется выполнения условия: все ли коэффициенты МДКП имеют нулевые значения? Если не все коэффициенты МДКП имеют нулевые значения, то выполняются внутренний и внешний итерационные циклы несоответственно, выделяются биты для кодирования коэффициентов МДКП. И, наконец, после выполнения обоих циклов определяется количество неиспользованных бит для дальнейшего применения.

Заметим, что спектральная неоднородность сигнала выборки sfm вычисляется по формуле: где п - суммарное количество спектральных коэффициентов в грануле (и=576).

Величина quantanf (рис.3.3) зависит от вычислительной сложности кодера. Величина системной константы system_const выбрана так, чтобы для всех сигналов первая итерация внутреннего цикла дала бы суммарное количество бит меньшее, чем их доступное число для установленной скорости цифрового потока. Иными словами, первый вызов внутреннего цикла в результате дает максимальное использование имеющего количества бит. Для того чтобы уменьшить затраты на время вычисления, целесообразно минимизировать число итераций путем адаптации величины quantanf к скорости цифрового потока и статистике сигнала.

Внутренний итерационный циклВо внутреннем итерационном цикле происходит квантование коэффициентов МДКП и подготовка форматирования цифровых данных. Выбор таблиц кодирования, подразделение больших значений коэффициентов МДКП (big_yalues) на регионы и выбор шага квантования также имеют место во внутреннем итерационном цикле (рис.3.4).

Психоакустическая энтропия сигнала и требуемое для кодирования количество бит

Качество кодированного сигнала в основном зависит от удовлетворения требований психоакустической модели кодера. В кодерах к блоку квантования и кодирования поступает информация о: - требуемом для прозрачного кодирования (transparent coding) каждой гранулы количестве бит morebits (от психоакустической модели);- имеющемся в нашем распоряжении среднем количестве бит, meanjbits, определяемом для каждой гранулы при установленной скорости цифрового потока [23 ст.98]);- количестве бит, которые оказываются лишними при кодированииданных текущей гранулы.

В стандарте MPEG-1 ISO/IEC 11172-3 Layer 3 число бит, требуемое психоакустической моделью для кодирования одной гранулы, определяется по формуле [23, стр. 100],а величина more_bits определяется выражением,где число 3,1 является эмпирическим коэффициентом; информация о выборе его значения в стандарте отсутствует.

В системе кодирования MPEG-2 ISO/IEC 13818-7 А АС количество бит, требуемое психоакустической моделью для кодирования коэффициентов МДКП одной гранулы, определяется по иной формуле,bit allocation = (4.3) где ре - величина психоакустической энтропии текущей гранулы, а параметр blockJype определяется типом анализируемого окна. Когда block_type=0,1,3 то мы имеем дело с длинными окнами, а при bloch_type=2 — с короткими. Величина morejbits определяется также как в MPEG-1 ISO/IEC 11172-3 Layer З по формуле 4.2. Константы 0.3, 0.6, 6, 24 в формуле 4.3 также являются эмпирическими данными, о выборе значений которых сведения в стандарте также отсутствуют.

В системе кодирования MPEG-2 ISO/IEC 13818-7 ААС величина bit allocation ограничивается неравенством [20, стр.100]. 0 bit_allocation 3000

Максимальное количество бит, которое может требоваться психоакустической моделью при кодировании информации гранулы, ограничивается значением 3000 (рис.4.1).кодирования одной гранулы в зависимости от психоакустической энтропии (стандарты MPEG-1 ISO/IEC 11172-3 Layer 3 и MPEG-2 ISO/IEC 13818-7 AAC),В принципе возможны 3 ситуации:1. Величина bit_allocation mean_bits (more_bits 0). Психоакустическая модель требует число бит для кодирования информации текущей гранулы большее, чем имеется в нашем распоряжении. В этом случае дополнительные биты берутся из битового резервуара при их наличии; 2. Величина bit_allocation=mean_bits (more_bits=0). Психоакустическая модель требует число бит для кодирования информации текущей гранулы ровно столько, сколько имеется в нашем распоряжении. Как правило, в реальных сигналах такие ситуации бывают очень редко;3. Величина bit_allocation mean_bits (more_bits 0). Психоакустическая модель требует число бит для кодирования информации текущей гранулы меньшее, чем имеется в нашем распоряжении. Эта ситуация является самой благоприятной не только для блока квантования и кодирования, но и для битового резервуара. В этом случае появляются лишние биты, которые могут быть отправлены в битовый резервуар для его пополнения. Как правило, в реальных сигналах такие ситуации возникают очень часто.

При исследовании процедуры распределения бит в итерационных циклах блока квантования и кодирования, особую роль играет блок контроля битового резервуара. Поэтому, изучение правил, по которым управляется битовый резервуар, является актуальным.

В случае использования низких скоростей передачи цифрового потока, может возникнуть ситуация, когда будут остро требоваться дополнительные биты (например, при наличии всплеска в выборке звукового сигнала) для кодирования коэффициентов ортогонального преобразования. В этом случае битовый резервуар обеспечивает дополнительным количеством бит в случае нехватки имеющихся бит для кодирования коэффициентов МДКП текущей гранулы. Но это может выполняться лишь на коротких временных отрезках кодируемого сигнала.

Функционирование битового резервуара осуществляется в соответствии со следующими положениями (правилами) [23, ст. 101]:1. Количество бит, которое не было использовано при кодировании коэффициентов ортогонального преобразования во внутреннем итерационном цикле, добавляется в битовый резервуар;2. В случае, если битовый резервуар содержит больше, чем 0,8 максимально допустимого числа бит (0,8 maximum_bitreservoir_size), то всё количество бит, превышающее эту величину, становится доступным для кодирования коэффициентов ортогонального преобразования дополнительно к meanjbit;3. В случае, когда величина more_bit более 100 бит, тоwex(tmre_bits/S,0.6 main_clata_end)1 байт берётся из «битового резервуара» истановится доступным для кодирования коэффициентов ортогональногопреобразования дополнительно meanjbit;4. Количество бит, которое не было использовано по окончании итерационных циклов, добавляется в битовый резервуар;5. Если результатом выполнения предыдущей процедуры явилось переполнение битового резервуара, то в цифровой поток записываются дополнительные биты stuffingjbits, игнорируемые при декодировании, а содержимое в битовом резервуаре корректируется соответственно [23, ст. 8, 101].

Похожие диссертации на Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары