Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования Медведев Олег Николаевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Медведев Олег Николаевич. Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования : диссертация ... кандидата технических наук : 05.12.13 Москва, 2007 150 с., Библиогр.: с. 142-150 РГБ ОД, 61:07-5/4437

Введение к работе

Актуальность работы

Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.

Для технического решения задачи сжатия речевых данных разработано много методов В значительной мере они представлены в трудах НН. Акинфиева, С П Баронина, А И Величкина, М Д Бенедиктова, В И. Галунова, Е Г Жилякова, Ю А Косарева, В И Куля, В Г Михайлова, В.Е Муравьева, М В. Назарова, А А Пирогова, Ю Н Прохорова, В Г Санникова, М А Сапожкова, В А Свириденко, И В Ситняковского, А.Н. Собакина, О И Шелухина, В.П Яковлева, Б.С Атала, Дж Д Гибсона, Б. Голда, А X. Грея, Н С Джайанта, Ф Итакуры, Р В Кокса, П Круна, Ж И. Макхоула, Дж Маркела, Л Р. Рабинера, Ч Рейдера, А С Спаниаса, Г Фанта, Дж. Фланагана, Р.В. Шафера, М.Р Шредера и других российских и зарубежных ученых.

Следует отметить, что при сжатии речевых данных остро встает проблема сохранения качества синтеза речевых сообщений по сжатым данным. Из большого многообразия методов эффективного кодирования речевых данных с повышенным качеством синтеза можно выделить методы, относящиеся к классу адаптивных кодеров с линейным предсказанием речи на основе её анализа через синтез (ЛПАС) Основной особенностью этих методов является искусственная, требующая больших вычислительных ресурсов, замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя Большинство этих методов построено на основе использования упрощенной модели речеоб-разования Фанта. Это приводит к тому, что с уменьшением скорости передачи резко снижается качество воспроизведения (синтеза) речи на стороне получателя

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеков речи встает проблема поиска новых моделей сигнала погрешности предсказания, адекватных голосовому возбуждению системы речеобразования.

Цель и задачи исследования

Разработка методов низкоскоростного кодирования речи, передаваемой по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новых моделей формирования сигнала погрешности предсказания в голосовых кодеках класса ЛПАС

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи

Разработка и оптимизация параметров модели речеобразования на основе авторегрессии с динамической частотно-импульсной модуляцией

Разработка метода спектральной оценки частоты основного тона речи на основе полиномов Чебышева

Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и полиномиальным синтезом сигнала погрешности предсказания

Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и синтезом сигнала погрешности предсказания на основе динамической частотно-импульсной модуляции.

Методы исследований

Методы теории оптимальных и адаптивных систем, сжатия данных, цифровой обработки сигналов, идентификации систем, функционального анализа и оптимизации, теории речеобразования и слухового восприятия речи, оценки качества систем передачи речи, статистического моделирования и предсказания речевых сигналов, методы машинного моделирования систем и процессов.

Научная новизна работы

Усовершенствована модель речеобразования, состоящая из источника голосового возбуждения и голосового тракта, отличающаяся от ранее известной новым методом голосового возбуждения на основе динамической частотно-импульсной модуляции

Разработан новый метод спектральной оценки частоты основного тона речи на основе сегментной интерполяции речевого сигнала ортогональными полиномами Чебышева

Проведена оптимизация (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной оценки коэффициентов линейного предсказания для нестационарной речи

Модернизирован метод расчета линейных спектральных пар по коэффициентам линейного предсказания.

Разработан новый метод линейного предсказания с учетом сигнала управления в системе автоматического слежения за изменением речевого сигнала, доказана его устойчивость

Практическая значимость работы

Результаты исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения матричных вычислений -MatLAB Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при ее хранении в запоминающих устройствах с ограниченной емкостью

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061-97 первый класс качества по разборчивости на скоростях 3,5 - 16 кбит/с. Это в 4 - 16 раз меньше скорости, обеспечиваемой кодеком на основе стандартной ИКМ, ив 2-8 раз меньше скорости, равной 32 кбит/с, обеспечиваемой кодеком адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений

Изложенные в работе методы и алгоритмы низкоскоростного кодирования были использованы при проведении научно-исследовательских работ МТУСИ с ОАО «ТРАНСТЕЛЕКОМ» и Группой Телекоммуникационных Компаний «ТЕЛЕСЕТИ» («Фирма РИАЛ») и применены, в частности, при разработке и организации доступа абонентов к услугам местной и междугородной телефонной связи посредством интеллектуальной платформы речевого сопровождения.

Основные положения, выносимые на защиту

1. Модель речеобразования с возбуждением голосового тракта на основе динамической частотно-импульсной модуляции.

Метод спектральной оценки частоты основного тона речи на основе полиномов Чебышева
Методы эффективного низкоскоростного кодирования речи в классе ЛПАС
Результаты машинного моделирования, подтверждающие работоспособность разработанных методов

Достоверность полученных результатов

Достоверность полученных результатов обусловлена адекватностью моделей применительно к речевой тематике, корректностью математических выкладок, согласованием результатов теоретического анализа с данными вычислительного эксперимента, которые подтверждают непротиворечивость основных теоретических результатов и выводов, положительными результатами внедрения.

Личный вклад соискателя

Все разделы диссертационной работы выполнены лично автором Изложенные в диссертационной работе результаты исследований методов кодирования речи получены либо автором лично, либо при его непосредственном участии

Апробация работы

Основные результаты работы были представлены на следующих научно-технических конференциях Международные научно-практические конференции «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic -2004, Intermatic - 2005, Москва, 2004 г, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2005 г VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации», Владимир, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2006 г. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике, Москва, 2006 г Московская отраслевая научно-техническая конференция «Технологии информационного общества» Москва, 2007 г. XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения». Нижний Новгород, 2007 Г

Публикации результатов

Основные положения диссертационной работы изложены в девяти печатных работах Список публикаций приведен в конце автореферата

Объем и структура диссертации

Работа включает^- введение, четыре главы, заключение, список использованных источников Она изложена на 150 страницах машинописного текста, включая 49 рисунков и 9 таблиц Список использованных источников включает 103 наименования.

Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования Медведев Олег Николаевич

Похожие диссертации на Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования