Введение к работе
Актуальность работы. В настоящее время значительно возрос интерес специалистов к проблеме обработки в информационно-телекоммуникационных системах (ИТС) речевых данных, что во многом обусловлено развитием технологий глобальных и корпоративных компьютерных сетей, позволяющих обмениваться речевыми сообщениями, которые часто оказывается целесообразным архивировать.
Необходимость в хранении данных речевого обмена возникает при проведении между удаленными участниками аудиоконференций, которые могут продолжаться длительное время, что требует специальных процедур уменьшения объемов битовых представлений сохраняющихся машинных кодов (сжатие данных). Другим достаточно важным примером может служить хранение звукозаписей выступлений лекторов, театральных постановок и т.п.
Стоит так же отметить развивающуюся в настоящее время такую Интернет-услугу, как голосовая электронная почта, что в целях экономии затрат на реализацию трафика тоже требуют применения сжатия передаваемых данных (сигналов).
Проблема сжатия речевых данных рассматривается в работах многих авторов, особенно специалистов в телекоммуникациях. При этом отмечаются два основных аспекта: необходимость удаления пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуковых данных.
В первом случае задача сводится к построению решающей процедуры, позволяющей на основе предварительно (при отсутствии звуков речи) оцененных вероятностных характеристик последовательностей данных в паузе (шумов) определить является ли анализируемый отрезок порождением шума или содержит аддитивную смесь сигнал+шум.
Применяемые (в основном в телекоммуникациях) в настоящее время решающие процедуры обнаружения пауз основываются на использовании так называемых фильтров линейного предсказания. Среди несовершенств такого подхода можно выделить: принципиальную невозможность построения фильтра линейного предсказания конечного порядка для «белого» шума; наличие в решающей функции «мертвых зон», когда изменение одних параметров компенсируется изменениями других; возможное совпадение максимумов энергетических спектров шума и звука, что приводит к совместному их подавлению и ошибочному отнесению анализируемого участка к паузе и т.д.
Можно указать и другие особенности использования фильтров линейного предсказания, которые для повышения достоверности принятия решения о наличии паузы приводят к необходимости анализа достаточно больших отрезков (до 0,6 с), что не позволяет достигать максимального сжатия данных.
Поэтому целесообразно разработать более совершенный метод обнаружения пауз, что можно сделать за счет более тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области. Для этого необходимо . создать метод точного вычисления долей энергии анализируемых отрезков, соответствующих заданным частотным интервалам.
Другим важным применением этого метода будет служить построение так называемых спектрограмм (сонограмм), которые к настоящему времени приобрели статус стандартных процедур анализа речевых сигналов, в том числе в задачах распознавания.
Для сжатия участков звуковых данных тоже разработаны различные процедуры обработки, обычно применяемые для уменьшения объемов трафика в телекоммуникациях. Основой этих процедур служат необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение (вокодеры). Наибольшей степени сжатия удается достичь в случае применения вокодеров. Однако, при этом, наряду с разборчивостью воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.
Поэтому представляется целесообразным при сжатии звуковых данных использовать процедуру квантования по уровню, т.к. тогда появляется возможность варьирования количеством сохраняемых двоичных разрядов для достижения приемлемого качества звучания воспроизводимой речи. Реализуемость такого подхода обеспечивается тем, что обработку звукозаписей можно осуществлять после их окончания (в отличие от передачи в темпе реального времени).
Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха.
В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. После квантования этих данных по уровню они могут либо сохраняться, либо подвергаться статистическому обратимому кодированию для достижения большей степени сжатия. Восстановление исходных данных для воспроизведения речи принято осуществлять с использованием специально рассчитанных КИХ-фильтров.
Не вдаваясь в подробности, можно отметить, что такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.
Поэтому представляется целесообразным разработать метод обратимого субполосного преобразования, оптимальный в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах.
Дальнейшее заключается в разработке на основе новых подходов к обнаружению пауз и субполосному преобразованию процедуры сжатия речевых данных, позволяющей варьировать количество уровней квантования.
Целью работы является совершенствование методов частотной обработки речевых данных в задачах сжатия объемов их битовых представлений в информационно-телекоммуникационных системах.
Для достижения этой цели на основе анализа состояния вопроса были сформулированы и решены следующие задачи:
-
Разработка метода и алгоритмов точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах.
-
Разработка метода обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
-
Разработка оптимальных алгоритмов обратимого субполосного преобразования отрезков речевых данных.
-
Разработка информационной технологии сжатия-восстановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
-
Создание программно-алгоритмической поддержки информационной технологии сжатия-восстановления речевых данных.
Методы исследований
— Методы системного анализа и синтеза на основе использования вариаци
онных принципов.
- Методы цифровой обработки сигналов.
— Вычислительный эксперимент.
Научно-практическая значимость работы. Научная новизна работы заключается:
— в новом методе точного вычисления долей энергий анализируемых от
резков речевых данных в заданных частотных интервалах;
в новом методе обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам;
в новых методах обратимого субполосного преобразования отрезков речевых данных, которые являются оптимальными в смысле минимума евклидовой нормы погрешности аппроксимации отрезков исходного спектра в заданных частотных полосах.
Практическая значимость диссертационной работы заключается в разработке процедуры обработки речевых данных, позволяющей уменьшить (до 20 раз) объем их битовых представлений (осуществить сжатие), в создании более совершенного (точного) алгоритма построения спектрограмм речевых сигналов, в создании программно-алгоритмической поддержки информационной технологии сжатия-восстановления речевых данных.
Положения, выносимые на защиту:
-
Метод и алгоритмы точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах.
-
Метода обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
-
Алгоритмы оптимального обратимого субполосного преобразования отрезков речевых данных.
-
Информационная технология сжатия-восстановлення речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
-
Программно-алгоритмическая поддержка информационной технологии сжатия-восстановления речевых данных.
Достоверность полученных результатов обусловлена корректностью математических выкладок, согласованностью основных теоретических результатов с известными положениями теории цифровой обработки сигналов и результатами достаточно обширных вычислительных экспериментов по тестированию созданных алгоритмов, которые подтверждают непротиворечивость основных теоретических результатов и выводов.
Личный вклад соискателя заключается в том, что все изложенные в диссертационной работе результаты исследований получены либо соискателем лично, либо при его непосредственном участии.
Апробация работы. Основные результаты работы были представлены на следующих научно-технических конференциях:
8-я Международная научно-техническая конференция «Цифровая обработка сигналов и ее применение», Москва, 2006 г.
Постоянно действующий научно-технический семинар Российского научно-технического общества радиоэлектроники и связи имени А.С. Попова «Системы синхронизации, формирования и обработки сигналов для связи и вещания», Белгород, 2006 г,
Шестая международная научно-техническая конференция «Проблемы техники и технологии телекоммуникаций», Уфа, 2005 г.
Четвертая международная научно-техническая конференция «Проблемы информатики и моделирования», Харьков, 2004 г.
Пятая международная научно-техническая конференция «Проблемы информатики и моделирования», Харьков, 2005 г.
Связь с научно техническими программами. Исследования по проблеме частотной обработки речевых сигналов частично финансировались в рамках:
аналитической ведомственной программы «Развитие научного потенциала высшей школы» федерального агентства по образованию РФ, проект РНП.2.1.2.4974;
научно-исследовательского проекта в рамках конкурса грантов БелГУ, «Разработка методов и алгоритмов сжатия речевых сигналов для уменьшения объёма трафика при их передаче в пакетном режиме по каналам связи».
Публикации. Основные положения работы изложены в 10 печатных работах, из них статей 8.
Объем и структура работы. Диссертация состоит из введения четырех глав, общих выводов и списка литературы. Работа изложена на 142 страницах машинописного текста, включающего список литературы из 144 наименований.