Введение к работе
Актуальность темы. В связи со стремительным развитием мультимедийных технологий и , в частности , информационной сети Internet , весьма актуальной является проблема передачи больших объемов звуковых данных в реальном масштабе времени. Увеличение объема передаваемых аудиоданных происходит в соответствии с экспоненциальной зависимостью , значительно опережая темпы роста пропускной способности имеющихся линий передач и каналов связи. Для обеспечения возможности передачи в реальном масштабе времени постоянно растушего объема аудиоинформации при сохранении высокого уровня качества звукового сигнала возможны два пути (или их комбинация). Первый - увеличение пропускной способности имеющихся каналов связи , что связано со значительными техническими и экономическими трудностями , особенно в современных условиях в нашей стране. Второй путь -предварительное сжатие передаваемых звуковых данных.
Все методы сжатия аудиоинформации можно разделить на два класса - методы сжатия без потерь и методы сжатия с частичной потерей информации. Вследствие специфических особенностей звуковых сигналов методы сжатия без потерь (метод Лемпеля-Зива-Уэлча , метод Хаффмана , метод Шеннона-Фано и др.) не позволяют получить коэффициент компрессии больше 1.5-2. Значительно более перспективными и эффективными являются методы сжатия с частичной потерей информации. Из этих методов лучшими на сегодняшний день является группа методов , основанных на использовании психоакустических особенностей слухового аппарата человека. Данные методы обеспечивают высокий уровень качества
передаваемого аудиосигнала , но их существенным недостатком является высокая скорость звукового потока. Например , для метода сжатия MPEG-1 Layer-3 , который по общему признанню является наилучшим методом компрессии в настоящее время , скорость потока звуковых данных составляет 64 кбит/с на один канал. Это не позволяет использовать для передачи аудиоданных имеющуюся телекоммуникационную инфраструктуру , ориентированную на массового пользователя и включающую аналоговые телефонные сети общего пользования и стандартные аналоговые модемы с максимальной скоростью передачи данных 56 кбит/с.
Таким образом , возникает задача разработки метода сжатия звуковых данных , обеспечивающего возможность передачи аудиоинформации массовому пользователю в реальном масштабе времени при сохранении высокого уровня качества звукового сигнала и без применения дорогостоящих технологий , таких как цифровые сети ISDN , оптоволоконные линии связи н др.
Цель работы. Целью диссертационной работы является обеспечение возможности обработки и передачи аудиоинформации в мультимедийных системах в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала при использовании существующей телекоммуникационной инфраструктуры. Для достижения цели в работе сформулированы и решаются следующие задачи :
исследование известных методов сжатия аудиоинформации; определение специфических требований к методам сжатия звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человека;
>
разработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном масштабе времени;
обоснование структуры аппаратных средств , необходимых для реализации разработанного алгоритма; разработка программного обеспечения , реализующего предложенный алгоритм компрессии аудиоданных в среде операционной системы UNIX (на примере операционной системы USIX);
экспериментальное исследование работоспособности
разработанных аппаратно-программных средств
реализующих предложенный метод компрессии аудиоданных.
Методы исследования. В основе исследований , выполненных в
диссертационной работе, лежит психоакустическая модель слухового
аппарата человека. Разработка и реализация предложенного алгоритма
сжатия аудиоданных основаны на использовании математических
методов цифровой обработки сигналов (быстрое преобразование
Фурье) , методов кодирования данных с преобразованием
(преобразование Карунена-Лоэва) , а также традиционных методов
сжатия дискретной информации (метод кодирования Хаффмана).
Научная новизна настоящей диссертационной работы заключается в следующем :
-
разработан усовершенствованный алгоритм компрессии звуковых данных в мультимедийных системах в реальном масштабе времени , обеспечивающий увеличение коэффициента сжатия информации на 25 - 30 % по сравнению с известными алгоритмами;
-
обоснована возможность применения эффективного перестановочного алгоритма Нуссбаумера-Квенделла
реализующего быстрое преобразование Фурье , для представления звуковых сигналов в частотной области;
-
обоснована целесообразность использования преобразования Карунена-Лоэва , позволяющего значительно уменьшить необходимое количество обрабатываемых отсчетов для сокращения размерности вектора цифровых отсчетов звукового сигнала ;
-
разработана модифицированная версия психоакустической модели слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот на 25 поддиапазонов , в каждом из которых осуществляется отдельная обработка звуковых сигналов, что уменьшает возникающие временные задержки и повышает точность обработки;
-
предложен алгоритм расчета характеристик маскирующих звуковых сигналов ;
-
разработан алгоритм расчета параметров звуковых сигналов в психоакустической модели ;
Практическая ценность диссертационной работы заключается в обеспечении реальной возможности обработки и передачи звуковых сигналов в реальном масштабе времени в мультимедийных системах массового пользования , реализованных на базе существующей телекоммуникационной инфраструктуры , путем использования предложенного метода сжатия аудиоинформации. При этом отпадает необходимость в использовании дорогостоящих высокоскоростных линий связи (например , цифровых линий ISDN) , а также кабельных или радиомодемов. Кроме того , отсутствуют повышенные требования к аппаратной части клиентских рабочих станций.
Реализация резул ьтато в па боты. Теоретические и
экспериментальные результаты диссертационной работы получены на кафедре «Управляющие вычислительные машины» МГИРЭА (ТУ) , а также в Институте электронных управляющих машин (ИНЭУМ) в ходе выполнения ОКР «Программное окружение операционной системы USIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 -2000 гг.)».
Комплекс программных средств , обеспечивающих реализацию предложенного метода компрессии аудиоданных , в виде пакета и необходимых библиотек включен в состав коммерческой версии операционной системы USIX и может быть портирован в среды других UNIX-подобных систем.
Апробация работы. Основные результаты исследований были доложены на Второй- Международной конференции «Моделирование интеллектуальных процессов проектирования и производства» , проходившей в период с 10 по 12 ноября 1998 г. в Минске (Беларусь) , а также на XLVIII научно-технической конференции МГИРЭА (ТУ) , проходившей в период с 10 по 17 мая 1999 г. в Москве.
Публикации. Основные результаты диссертации отражены в 6 печатных работах.
Структура и объем работы. Диссертационная работа состоит из введения , четырех глав , заключения , списка литературы (47 источников) и Приложения и содержит 107 страниц основного текста, б таблиц и 13 рисунков , а также 50 страниц Приложения.