Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах Крашовац, Игорь Юльевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Крашовац, Игорь Юльевич. Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах : диссертация ... кандидата технических наук : 05.13.13.- Москва, 1999.- 156 с.: ил. РГБ ОД, 61 99-5/1917-7

Введение к работе

Актуальность темы. В связи со стремительным развитием мультимедийных технологий и , в частности , информационной сети Internet , весьма актуальной является проблема передачи больших объемов звуковых данных в реальном масштабе времени. Увеличение объема передаваемых аудиоданных происходит в соответствии с экспоненциальной зависимостью , значительно опережая темпы роста пропускной способности имеющихся линий передач и каналов связи. Для обеспечения возможности передачи в реальном масштабе времени постоянно растушего объема аудиоинформации при сохранении высокого уровня качества звукового сигнала возможны два пути (или их комбинация). Первый - увеличение пропускной способности имеющихся каналов связи , что связано со значительными техническими и экономическими трудностями , особенно в современных условиях в нашей стране. Второй путь -предварительное сжатие передаваемых звуковых данных.

Все методы сжатия аудиоинформации можно разделить на два класса - методы сжатия без потерь и методы сжатия с частичной потерей информации. Вследствие специфических особенностей звуковых сигналов методы сжатия без потерь (метод Лемпеля-Зива-Уэлча , метод Хаффмана , метод Шеннона-Фано и др.) не позволяют получить коэффициент компрессии больше 1.5-2. Значительно более перспективными и эффективными являются методы сжатия с частичной потерей информации. Из этих методов лучшими на сегодняшний день является группа методов , основанных на использовании психоакустических особенностей слухового аппарата человека. Данные методы обеспечивают высокий уровень качества

передаваемого аудиосигнала , но их существенным недостатком является высокая скорость звукового потока. Например , для метода сжатия MPEG-1 Layer-3 , который по общему признанню является наилучшим методом компрессии в настоящее время , скорость потока звуковых данных составляет 64 кбит/с на один канал. Это не позволяет использовать для передачи аудиоданных имеющуюся телекоммуникационную инфраструктуру , ориентированную на массового пользователя и включающую аналоговые телефонные сети общего пользования и стандартные аналоговые модемы с максимальной скоростью передачи данных 56 кбит/с.

Таким образом , возникает задача разработки метода сжатия звуковых данных , обеспечивающего возможность передачи аудиоинформации массовому пользователю в реальном масштабе времени при сохранении высокого уровня качества звукового сигнала и без применения дорогостоящих технологий , таких как цифровые сети ISDN , оптоволоконные линии связи н др.

Цель работы. Целью диссертационной работы является обеспечение возможности обработки и передачи аудиоинформации в мультимедийных системах в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала при использовании существующей телекоммуникационной инфраструктуры. Для достижения цели в работе сформулированы и решаются следующие задачи :

исследование известных методов сжатия аудиоинформации; определение специфических требований к методам сжатия звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человека;

разработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном масштабе времени;

обоснование структуры аппаратных средств , необходимых для реализации разработанного алгоритма; разработка программного обеспечения , реализующего предложенный алгоритм компрессии аудиоданных в среде операционной системы UNIX (на примере операционной системы USIX);

экспериментальное исследование работоспособности

разработанных аппаратно-программных средств

реализующих предложенный метод компрессии аудиоданных.

Методы исследования. В основе исследований , выполненных в

диссертационной работе, лежит психоакустическая модель слухового

аппарата человека. Разработка и реализация предложенного алгоритма

сжатия аудиоданных основаны на использовании математических

методов цифровой обработки сигналов (быстрое преобразование

Фурье) , методов кодирования данных с преобразованием

(преобразование Карунена-Лоэва) , а также традиционных методов

сжатия дискретной информации (метод кодирования Хаффмана).

Научная новизна настоящей диссертационной работы заключается в следующем :

разработан усовершенствованный алгоритм компрессии звуковых данных в мультимедийных системах в реальном масштабе времени , обеспечивающий увеличение коэффициента сжатия информации на 25 - 30 % по сравнению с известными алгоритмами;
обоснована возможность применения эффективного перестановочного алгоритма Нуссбаумера-Квенделла

реализующего быстрое преобразование Фурье , для представления звуковых сигналов в частотной области;

обоснована целесообразность использования преобразования Карунена-Лоэва , позволяющего значительно уменьшить необходимое количество обрабатываемых отсчетов для сокращения размерности вектора цифровых отсчетов звукового сигнала ;
разработана модифицированная версия психоакустической модели слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот на 25 поддиапазонов , в каждом из которых осуществляется отдельная обработка звуковых сигналов, что уменьшает возникающие временные задержки и повышает точность обработки;
предложен алгоритм расчета характеристик маскирующих звуковых сигналов ;
разработан алгоритм расчета параметров звуковых сигналов в психоакустической модели ;

Практическая ценность диссертационной работы заключается в обеспечении реальной возможности обработки и передачи звуковых сигналов в реальном масштабе времени в мультимедийных системах массового пользования , реализованных на базе существующей телекоммуникационной инфраструктуры , путем использования предложенного метода сжатия аудиоинформации. При этом отпадает необходимость в использовании дорогостоящих высокоскоростных линий связи (например , цифровых линий ISDN) , а также кабельных или радиомодемов. Кроме того , отсутствуют повышенные требования к аппаратной части клиентских рабочих станций.

Реализация резул ьтато в па боты. Теоретические и

экспериментальные результаты диссертационной работы получены на кафедре «Управляющие вычислительные машины» МГИРЭА (ТУ) , а также в Институте электронных управляющих машин (ИНЭУМ) в ходе выполнения ОКР «Программное окружение операционной системы USIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 -2000 гг.)».

Комплекс программных средств , обеспечивающих реализацию предложенного метода компрессии аудиоданных , в виде пакета и необходимых библиотек включен в состав коммерческой версии операционной системы USIX и может быть портирован в среды других UNIX-подобных систем.

Апробация работы. Основные результаты исследований были доложены на Второй- Международной конференции «Моделирование интеллектуальных процессов проектирования и производства» , проходившей в период с 10 по 12 ноября 1998 г. в Минске (Беларусь) , а также на XLVIII научно-технической конференции МГИРЭА (ТУ) , проходившей в период с 10 по 17 мая 1999 г. в Москве.

Публикации. Основные результаты диссертации отражены в 6 печатных работах.

Структура и объем работы. Диссертационная работа состоит из введения , четырех глав , заключения , списка литературы (47 источников) и Приложения и содержит 107 страниц основного текста, б таблиц и 13 рисунков , а также 50 страниц Приложения.