Введение к работе
Актуальность работы. Методы кодирования высококачественных звуковых сигналов (ЗС) получили в последнее десятилетие очень широкое распространение в области вещания, цифровой звукозаписи и бытовой звуко- и видеовоспроизводящей аппаратуры Появился даже новый, стремительно растущий, класс бытовой электроники - портативные МРЗ проигрыватели Развиваются сети цифрового теле- и радиовещания, предоставляющие потребителям высокое качество изображения и звука при широкой зоне охвата Растет популярность телерадиовещания по сети Интернет и мобильным телефонным сетям Все эти технологические новшества стали экономически целесообразны, а в ряде случает и вообще технически возможны, благодаря использованию высокоэффективных алгоритмов сжатия цифровой видео- и аудиоинформации, таких как MPEG-1 ISO/IEC 11172, MPEG-2 КОЛЕС 13818, MPEG-4 ISOAEC FCD 14496, ATSC Dolby АС-3 При этом за экономические преимущества использования таких алгоритмов, позволяющих на порядок снизить требования к пропускной способности каналов передачи или ёмкости носителей информации, приходится расплачиваться некоторым снижением качества звучания Проблема повышения качества кодирования ЗС является сегодня одной из ключевых для звукозаписывающей индустрии, отрасли звукового вещания и производителей различных мультимедийных систем
Эффективность и качество систем кодирования ЗС с компрессией цифровых аудиоданных зависят в первую очередь от точности психоакустического анализа Повысив точность психоакустического анализа, сделав его алгоритм более адекватным слуховому восприятию, можно улучшить качество кодирования ЗС, полностью сохранив совместимость с существующими устройствами декодирования Постмаскировка, а именно ее учет может дать дополнительный эффект, является, по сути дела, следствием присущей слуху инерционности
Изучению закономерностей слухового восприятия и разработке алгоритмов компрессии цифровых аудиосигналов посвящены работы ученых К Н Brandenburg, S N Levine, Е F Schroeder, М Schroeder, W Voessmg, N Jayant, J Johnston, E Zwicker, А С Грудинина, Ю А Ковалгина, В А. Леонова, С Г Рихтера, А М Синильникова и других Модели временной маскировки даны в работах Н Fasti, Е Zwicker, В С J Moore, В R Glasberg С Plack и A Oxenham Оценка качества звучания рассмотрена в работах Н Fletcher, W В Snow, D К Gannet, J Kerny, Gilbert A Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J Johnston, И А Алдошиной, Г Б Аскинази, НИ Веселовой, AC Галембо, В Д Грибова, И Е Горона, В П Гученко, Ж Я Дубовик, Ю А Ковалгина, В В Ремизова, М Л Сурова, Т П Мещанской, С Л Мишенкова, В К Уварова, А А Фадеева, Е А Хрянина
Целью данной работы является исследование и разработка метода повышения эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных путем учета временной маскировки и оценка достигаемого при этом выигрыша в скорости цифрового потока
Для достижения поставленной цели необходимо решить следующие задачи
-получить на основе анализа и сопоставления известных экспериментальных данных математическую модель, описывающую с достаточной для практики точностью явление постмаскировки, пригодную для применения в системах кодирования с компрессией цифровых аудиоданных,
-разработать механизм учета постмаскировки при выполнении психоакустического анализа кодируемых звуковых сигналов,
-реализовать исследовательскую установку, разработать методику сбора, обработки и анализа экспериментальных данных,
-оценить эффективность учета постмаскировки для различных жанров реальных звуковых сигналов, провести субъективные оценки качества кодируемых сигналов, сопоставить полученные при этом результаты, сделать заключение о возможном при ее учете повышении эффективности существующих алгоритмов компрессии цифровых аудиоданных
Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки сигналов, имитационного моделирования с применением вычислительных средств и языков программирования «С» и «Matlab», математической статистики и субъективно-статистических экспертиз
Научная новизна и новые полученные результаты диссертационной работы заключается в следующем
-выполнены анализ и обобщение экспериментальных и теоретических данных, посвященных исследованию временной маскировки,
-отобраны для математического моделирования наиболее адекватные слуховому восприятию массивы экспериментальных данных, посвященных исследования порогов постмаскировки, наиболее точно учитывающие влияние уровня и частоты маскирующего сигнала,
-методами математического моделирования получены непрерывные зависимости изменения порога постмаскировки от уровня и частоты маскирующего сигнала с учетом их применения в блоках психоакустического анализа систем кодирования с компрессией цифровых аудиоданных,
-разработан механизм учета постмаскировки, дополняющий вычислительные процедуры психоакустической модели 2, применяемой в системах кодирования стандартов MPEG КОЛЕС 11172-3 и ISO/TEC 13818-3,
-исследована эффективность учета постмаскировки в системах аудиокодирования для реальных звуковых сигналов, ее учет позволяет снизить среднюю скорость цифрового потока кодируемого сигнала в ряде случаев почти на 30%, при этом наибольший эффект достигается при кодировании музыкальных сигналов с большой динамикой уровней, а также и для речи,
-эффективность работы кодера существенно зависит от его временного разрешения при использовании длинных выборок ЗС (около 13 мс) учет
постмаскировки позволяет снизить среднюю скорость битового потока не более, чем на 9% для музыкальных и на 15% для речевых сигналов, при кодировании с временным разрешением около 4 мс средняя экономия битов достигает значений до 19 и 29% соответственно для музыкальных и речевых сигналов,
-выигрыш, получаемый от учета временной постмаскировки, не позволяет дополнительно снизить на постоянную величину число бит, необходимое для «прозрачного» кодирования во всех фреймах сигнала, в силу этой причины наибольший эффект от учета постмаскировки достигается в системах кодирования с переменной скоростью битового потока,
-разработана и реализована программная модель экспериментальной установки, предназначенной для исследования эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных, ее структура, примененные в ней дополнительные вычислительные процедуры, подпрограммы анализа массивов экспериментальных данных, наглядность представления последних сделали возможным ее применение не только в научно-исследовательских и прикладных целях, но и в учебном процессе
Практическая значимость работы состоит в следующем
разработанный алгоритм компрессии может быть использован для повышения качества современных систем кодирования, например, таких как MPEG-1 ISCMEC 11172-3, MPEG-2 ISO/TEC 13919-3, КОЛЕС 13818 ААС При этом обеспечивается совместимость кодированных данных с любыми совместимыми со стандартом декодирующими устройствами Его применение особенно эффективно там, где используется кодирование с переменной скоростью передачи бит в цифровой звукозаписи, для целей распространения файлов по сети Internet, по мобильным телефонным сетям, а также в каналообразующей аппаратуре сети доставки звуковых программ до радиопередающих станций,
для дополнения существующих кодирующих устройств блоком учета постмаскировки необходимо лишь минимальное изменение исходного кода При этом требования к вычислительной мощности и используемой памяти увеличиваются незначительно по сравнению с требованиями самого алгоритма Любые изменения декодирующего оборудования в данном случае не требуются,
результаты исследования могут быть использованы и при разработке новых алгоритмов кодирования ЗС Особенно для систем кодирования с высоким временным разрешением, эффект от учета постмаскировки в данном случае несет заметные преимущества
разработанная экспериментальная установка и предложенная методика исследований могут быть использованы не только для разработки новых более совершенных алгоритмов компрессии цифровых аудиоданных, но также и в учебном процессе вузов, занимающихся подготовкой специалистов для радиовещания, телевидения, звукотехники
Внедрение результатов исследований Результаты исследований использовались в ФГУП «Ленинградский отраслевой научно-исследовательский
институт связи» (ЛОНИИС) и в ОАО НЛП «Дигитон» при разработке кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 210405 - «Радиосвязь, радиовещание и телевидение» и 210312 - «Аудиовизуальная техника», что подтверждено соответствующими актами внедрения
Положениями, выносимыми на защиту, являются:
1 Математическая модель оценки порогов постмаскировки, описывающая
данную закономерность слуха двумя экспоненциальными функциями
предложенными Муром, Плаком и др, с разной крутизной спада, полученная на
основе дискретных экспериментальных данных, и учитывающая зависимости
порогов постмаскировки от уровня и частоты маскирующего сигнала,
2 Алгоритм учета постмаскировки, реализованный в качестве
дополнительного блока в психоакустической модели стандартов кодирования с
компрессией цифровых данных - MPEG КОЛЕС 11172-3 и КОЛЕС 13818-3,
3 Применение переключаемых банков цифровых фильтров в сочетании с
предложенным механизмом оценки суммарного порога маскировки приводит к
тому, что формируемые стандартной психоакустической моделью в каждой из
субполос кодирования пороги маскировки плавно спадают в соответствии с
временными свойствами слуха, что позволяет более точно оценить их значения в
каждой субполосе кодирования,
4 Метод оценки эффективности системы кодирования с учетом
постмаскировки, базирующийся на вычислении и последующем анализе
массивов значений психоакустической энтропии, вычисляемых для каждой из
субполос кодирования и в целом для всей выборки ЗС как стандартной, так и
реализованной в данной работе модифицированной психоакустической модели,
5 Учет постмаскировки позволяет добиться дополнительного снижения
средней скорости битового потока около 2-9% и до 16% соответственно для
музыкальных и речевых сигналов, при этом эффективность от учета
постмаскировки значительно возрастает с увеличением временного разрешения
блока психоакустического анализа до 4-15% для музыкальных и до 30% для
речевых сигналов,
Неравномерное во времени распределение областей действия постмаскировки для большинства звуковых сигналов не позволяет снижать скорость битового потока на постоянную величину для всего кодируемого сигнала при сохранении его качества;
Дополнительная экономия бит происходит во всех субполосах кодирования в низкочастотных субполосах относительные пороги маскировки наиболее сильно подвержены влиянию постмаскировки, в более высокочастотных субполосах даже небольшое дополнительное повышение относительных порогов маскировки приводит к более заметной экономии бит за счет их увеличивающейся ширины,
8 Эффективность кодирования при учете постмаскировки, как правило, возрастает для звуковых сигналов с большими значениями динамического диапазона и пик-фактора
Апробация результатов работы и публикации. По тематике
диссертационной работы опубликовано 9 печатных работ, включая 5 публикаций в виде тезисов докладов и 3 статьи в сборниках трудов международных научно-технических конференций
Структура и объем работы. Работа состоит из введения, четырех глав, заключения и списка литературы Работа содержит 180 листов, в том числе 166 листов основного текста, 69 рисунков, 28 таблиц, 51 формулу В списке литературы 177 наименований