Введение к работе
Актуальность работы
Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.
В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.
Для технического решения задачи сжатия речевых данных разработано много методов В значительной мере они представлены в трудах НН. Акинфиева, С П Баронина, А И Величкина, М Д Бенедиктова, В И. Галунова, Е Г Жилякова, Ю А Косарева, В И Куля, В Г Михайлова, В.Е Муравьева, М В. Назарова, А А Пирогова, Ю Н Прохорова, В Г Санникова, М А Сапожкова, В А Свириденко, И В Ситняковского, А.Н. Собакина, О И Шелухина, В.П Яковлева, Б.С Атала, Дж Д Гибсона, Б. Голда, А X. Грея, Н С Джайанта, Ф Итакуры, Р В Кокса, П Круна, Ж И. Макхоула, Дж Маркела, Л Р. Рабинера, Ч Рейдера, А С Спаниаса, Г Фанта, Дж. Фланагана, Р.В. Шафера, М.Р Шредера и других российских и зарубежных ученых.
Следует отметить, что при сжатии речевых данных остро встает проблема сохранения качества синтеза речевых сообщений по сжатым данным. Из большого многообразия методов эффективного кодирования речевых данных с повышенным качеством синтеза можно выделить методы, относящиеся к классу адаптивных кодеров с линейным предсказанием речи на основе её анализа через синтез (ЛПАС) Основной особенностью этих методов является искусственная, требующая больших вычислительных ресурсов, замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя Большинство этих методов построено на основе использования упрощенной модели речеоб-разования Фанта. Это приводит к тому, что с уменьшением скорости передачи резко снижается качество воспроизведения (синтеза) речи на стороне получателя
Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеков речи встает проблема поиска новых моделей сигнала погрешности предсказания, адекватных голосовому возбуждению системы речеобразования.
Цель и задачи исследования
Разработка методов низкоскоростного кодирования речи, передаваемой по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новых моделей формирования сигнала погрешности предсказания в голосовых кодеках класса ЛПАС
Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи
Разработка и оптимизация параметров модели речеобразования на основе авторегрессии с динамической частотно-импульсной модуляцией
Разработка метода спектральной оценки частоты основного тона речи на основе полиномов Чебышева
Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и полиномиальным синтезом сигнала погрешности предсказания
Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и синтезом сигнала погрешности предсказания на основе динамической частотно-импульсной модуляции.
Методы исследований
Методы теории оптимальных и адаптивных систем, сжатия данных, цифровой обработки сигналов, идентификации систем, функционального анализа и оптимизации, теории речеобразования и слухового восприятия речи, оценки качества систем передачи речи, статистического моделирования и предсказания речевых сигналов, методы машинного моделирования систем и процессов.
Научная новизна работы
Усовершенствована модель речеобразования, состоящая из источника голосового возбуждения и голосового тракта, отличающаяся от ранее известной новым методом голосового возбуждения на основе динамической частотно-импульсной модуляции
Разработан новый метод спектральной оценки частоты основного тона речи на основе сегментной интерполяции речевого сигнала ортогональными полиномами Чебышева
Проведена оптимизация (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной оценки коэффициентов линейного предсказания для нестационарной речи
Модернизирован метод расчета линейных спектральных пар по коэффициентам линейного предсказания.
Разработан новый метод линейного предсказания с учетом сигнала управления в системе автоматического слежения за изменением речевого сигнала, доказана его устойчивость
Практическая значимость работы
Результаты исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения матричных вычислений -MatLAB Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при ее хранении в запоминающих устройствах с ограниченной емкостью
Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061-97 первый класс качества по разборчивости на скоростях 3,5 - 16 кбит/с. Это в 4 - 16 раз меньше скорости, обеспечиваемой кодеком на основе стандартной ИКМ, ив 2-8 раз меньше скорости, равной 32 кбит/с, обеспечиваемой кодеком адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений
Изложенные в работе методы и алгоритмы низкоскоростного кодирования были использованы при проведении научно-исследовательских работ МТУСИ с ОАО «ТРАНСТЕЛЕКОМ» и Группой Телекоммуникационных Компаний «ТЕЛЕСЕТИ» («Фирма РИАЛ») и применены, в частности, при разработке и организации доступа абонентов к услугам местной и междугородной телефонной связи посредством интеллектуальной платформы речевого сопровождения.
Основные положения, выносимые на защиту
1. Модель речеобразования с возбуждением голосового тракта на основе динамической частотно-импульсной модуляции.
-
Метод спектральной оценки частоты основного тона речи на основе полиномов Чебышева
-
Методы эффективного низкоскоростного кодирования речи в классе ЛПАС
-
Результаты машинного моделирования, подтверждающие работоспособность разработанных методов
Достоверность полученных результатов
Достоверность полученных результатов обусловлена адекватностью моделей применительно к речевой тематике, корректностью математических выкладок, согласованием результатов теоретического анализа с данными вычислительного эксперимента, которые подтверждают непротиворечивость основных теоретических результатов и выводов, положительными результатами внедрения.
Личный вклад соискателя
Все разделы диссертационной работы выполнены лично автором Изложенные в диссертационной работе результаты исследований методов кодирования речи получены либо автором лично, либо при его непосредственном участии
Апробация работы
Основные результаты работы были представлены на следующих научно-технических конференциях Международные научно-практические конференции «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic -2004, Intermatic - 2005, Москва, 2004 г, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2005 г VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации», Владимир, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2006 г. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике, Москва, 2006 г Московская отраслевая научно-техническая конференция «Технологии информационного общества» Москва, 2007 г. XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения». Нижний Новгород, 2007 Г
Публикации результатов
Основные положения диссертационной работы изложены в девяти печатных работах Список публикаций приведен в конце автореферата
Объем и структура диссертации
Работа включает- введение, четыре главы, заключение, список использованных источников Она изложена на 150 страницах машинописного текста, включая 49 рисунков и 9 таблиц Список использованных источников включает 103 наименования.