Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Болдышев, Алексей Владимирович

Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных
<
Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Болдышев, Алексей Владимирович. Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных : диссертация ... кандидата технических наук : 05.13.17 / Болдышев Алексей Владимирович; [Место защиты: Белгород. гос. нац. исслед. ун-т].- Белгород, 2013.- 158 с.: ил. РГБ ОД, 61 13-5/1047

Содержание к диссертации

Введение

ГЛАВА 1. Информационные процессы на основе речевых сообщений, тенденции, проблемы и методы реализации 10

1.1 Современные области и направления использования ИТС для реализации информационного обмена на основе речевых сообщений 10

1.2 Особенности восприятия речи человеком 19

1.3 Методы кодирования речевых данных при хранении и передаче 28

1.4 Субполосный анализ и синтез речевых сигналов с обнаружением и кодированием пауз 39

1.5 Задачи исследования 49

ГЛАВА 2. Разработка и исследование метода и алгоритмов многополосного кодирования и декодирования речевых сообщений 50

2.1. Теоретические основы многополосного кодирования речевых сигналов 50

2.2. Исследование свойств собственных векторов многочастотных субполосных матриц. 57

2.3. Квантование по уровню результатов субполосного кодирования при сжатии объемов битовых представлений 68

2.4. Алгоритмы субполосного кодирования/декодирования речевых сообщений с использованием собственных векторов многочастотной субполосной матрицы 75

2.5. Основные результаты и выводы главы 87

ГЛАВА 3. Разработка и исследование методов и алгоритмов кодирования и декодирования речевых сообщений на основе субполосной дискретизации речевых сигналов 89

3.1. Выделение огибающих субполосных компонент и их дискретизация 89

3.2. Квантование по уровню результатов субполосной дискретизации 101

3.3. Алгоритмы субполосного кодирования/декодирования речевых сообщений на основе прореживания результатов оптимальной линейной частотной фильтрации 104

3.4. Основные результаты и выводы главы 114

ГЛАВА 4. Разработка программных реализаций алгоритмов кодирования речевых сигналов 115

4.1. Разработка рекомендаций по использованию разработанных методов кодирования речевых данных 115

4.2. Программно-алгоритмическая поддержка разработанных алгоритмов кодирования речевых данных 124

4.3. Разработка структуры пакета для хранения и передачи закодированных речевых данных 130

4.4. Основные результаты и выводы главы 134

Заключение 135

Список использованных источников

Введение к работе

Актуальность диссертационного исследования. Информационный обмен является важной и неотъемлемой частью человеческой деятельности (социальной, экономической), о чем свидетельствует постоянное развитие информационно-телекоммуникационных технологий обработки, хранения и передачи данных. В настоящее время происходит повышение интенсивности информационного обмена на основе речевых сообщений. Это обусловлено тем, что речевые сообщения являются наиболее естественной и удобной формой информационного обмена.

В информационно-телекоммуникационных системах (ИТС) передача и хранение речевых сообщений осуществляется в виде специальных кодовых комбинаций, совокупность которых естественно называть речевыми данными.

Одной из основных проблем реализации информационного обмена является ограниченность ресурсов ИТС (пропускная способность канала связи для передачи данных, объемы памяти информационных хранилищ). Поэтому, не вызывает сомнения, необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых речевых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений.

Решением проблемы минимизации объемов битовых представлений речевых данных занималось большое количество ученых, среди которых следует отметить: Б. Голда, Е.Г. Жилякова, Э. Оппенгейма, А.А. Пирогова, Л. Р. Рабинера, В.Г. Санникова, М.А. Сапожкова, Р.В. Шафера, О.И. Шелухина и других российских и зарубежных ученых.

На сегодняшний день известно большое количество методов кодирования речевых сообщений, которые используются в системах IP- телефонии, а также при передаче речи по сетям сотовой связи (G.729, G.723.1, G.728, AMR, FR, и т.д.). Разработчики этих кодеков достигли определенного предела в показателях эффективности кодирования (сжатие до 10 раз) при сохранении приемлемого для пользователя качества воспроизведения.

Дальнейший прогресс повышения эффективности кодирования может быть достигнут на основе оптимального учета свойства сосредоточенности энергии речевых сигналов в полосе частот, составляющих малую долю от частоты дискретизации. Методы кодирования речевых сообщений с позиции разбиения общей полосы частот на отдельные частотные интервалы представляется естественным называть субполосными.

Из известных методов субполосного кодирования можно отметить форматы МР3, OGG и т.д., в основе которых используется дискретное преобразование Фурье (ДПФ), в том числе дискретное косинус преобразование Фурье (ДКПФ). Однако, они приспособлены в основном для обработки музыкальных данных, что не позволяет учитывать наличие в речевых сообщениях пауз, кроме того, они не отвечают никаким критериям оптимальности, например, минимизации ширины адаптивно определяемой полосы частот, в которой сосредоточена основная доля энергии речевого сигнала, погрешности аппроксимации в ней трансформанты Фурье исходного сигнала и погрешности квантования по уровню коэффициентов этой аппроксимации.

Поэтому разработка оптимальных субполосных методов кодирования речевой информации, позволяющих минимизировать объемы битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений, является актуальной задачей.

Целью работы является совершенствование методов и алгоритмов субполосного кодирования речевой информации с точки зрения минимизации объемов битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений.

Для достижения цели были сформулированы и решены следующие задачи:

  1. Анализ основных направлений развития методов кодирования речевых данных при хранении и передаче речевых сообщений.

  2. Разработка и исследование метода и алгоритмов многополосного кодирования и декодирования речевых сообщений, минимизирующих объемы битовых представлений речевых данных.

  3. Разработка и исследование метода и алгоритмов кодирования и декодирования речевых сообщений с минимизацией объемов битовых представлений речевых данных на основе субполосной дискретизации речевых сигналов.

  4. Разработка программных реализаций алгоритмов субполосного кодирования и восстановления речевых сообщений.

Методы исследований базируются на теории Фурье-анализа и синтеза сигналов, линейной алгебры, теории вероятностей и математической статистики, теории принятия статистических решений, вычислительных экспериментах.

Научную новизну работы составляет следующее:

    1. Метод и алгоритм адаптивного выделения многополосных информационных компонент речевых сигналов, с минимальной суммарной шириной, которые позволяют уменьшить частотную избыточность речевых сигналов с точки зрения кодирования данных.

    2. Метод и алгоритм многополосного кодирования и декодирования речевых сообщений на основе оптимальной аппроксимации трансформант

    Фурье в адаптивно определяемой совокупности частотных интервалов, что соответствует требованию наилучшего воспроизведения речевых сообщений.

    3. Метод и алгоритм кодирования и декодирования речевых сообщений на основе субполосной дискретизации огибающих информационных субполосных компонент речевых сигналов, позволяющий сократить объемы сохраняемых данных на основе уменьшения структурной избыточности.

    Практическая значимость работы определяется алгоритмами субполосного кодирования речевой информации, которые позволяют минимизировать объемы битовых представлений речевых данных.

    Полученные результаты используются в ООО «НПП «Сигнал» БелГУ», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».

    Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

    п.3. Исследование методов и разработка средств кодирования информации в виде данных. Принципы создания языков описания данных, языков манипулирования данными, языков запросов. Разработка и исследование моделей данных и новых принципов их проектирования.

    п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

    Связь с научными и инновационными программами.

    Диссертационное исследование проводилось в рамках следующих программ фундаментальных, поисковых и инновационных исследований: ГК №14.740.11.0494 от 1 октября 2010г, ФЦП «Научные и научно- педагогические кадры инновационной России» на 2009-2013 годы. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере. Проект №10256. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере. Проект №14228. АВЦП «Развитие научного потенциала высшей школы (2009-2011 годы)» Проект № 2.1.2/9382.

    Положения, выносимые на защиту:

        1. Методы и алгоритмы субполосного кодирования и декодирования речевых сообщений, позволяющие минимизировать объемы битовых представлений речевых данных.

        2. Структура пакета речевых данных, закодированных на основе разработанных процедур.

        3. Рекомендации по использованию разработанных алгоритмов кодирования и декодирования речевых сообщений.

        4. Результаты вычислительных экспериментов, иллюстрирующие обоснованность и достоверность выводов.

        Достоверность полученных результатов и выводов обусловлена корректностью математических преобразований, отсутствием противоречий с известными теоретическими положениями и выводами, а также подтверждается результатами большого количества вычислительных экспериментов по обработке реальных речевых данных.

        Личный вклад соискателя. Все изложенные в диссертационной работе результаты исследований получены либо соискателем лично, либо при его непосредственном участии.

        Апробация работы. Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика» (г. Белгород, 2012г); V Международная научно- техническая конференция «Информационные технологии в науке, образовании и производстве» (г. Орел, 2012г); 14-ая, 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и ее применение - DSPA» (г. Москва, 2012, 2011, 2010 гг.); 2-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2011г.); 14-ая Международная научно-техническая конференция «Медико-экологические информационные технологии - 2011» (г. Курск, 2011г.); XXIII - Международной научной конференции «Математические методы в технике и технологиях - ММТТ-23» (г. Саратов, 2010г.); 1-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2009г.).

        Публикации. Основные положения диссертационной работы изложены в 20 печатной работе, из них 8 статей в журналах из списка ВАК. Получено 4 свидетельства Роспатента РФ об официальной регистрации программ для ЭВМ.

        Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 158 страницах машинописного текста, включая 30 рисунков, 37 таблиц и список литературных источников из 149 наименований.

        Методы кодирования речевых данных при хранении и передаче

        Воспроизведение и восприятие речи изучается учеными уже давно [2-5, 11,21, 66, 81, 89, 98, 115, 117, 118, 121], так что в результате накопились уже некоторые сведения об особенностях генерации речевых сигналов, моделях речеобразования и речевосприятия, проведена классификация элементов речевых сообщений и т.д.

        Необходимость изучения проблем восприятия звука человеческим слухом диктуются многими обстоятельствами и прежде всего наличием систем обработки звука, которые должны быть настроены таким образом, чтобы не вносить существенных искажений в звучание речи. В частности, на основе модели восприятия звука, устанавливаются режимы его усиления или ослабления, очистки от шумов. Кроме того, модели восприятия звука имеют важнейшее значение для решения задачи сжатия речевых данных, т.к. они обычно имеют некоторую избыточность по отношению к их правильному восприятию. Модели восприятия звука являются результатом, как физиологических исследований, так и акустических. Физиологические исследования направлены на описание свойств слуховой системы человека с точки зрения ее физического строения и описания протекающих в ней процессов при акустическом воздействии. Акустические исследования связаны с изучением реакции людей на организованные специальным образом акустические воздействия, они связаны с физиологическими моделями, но больше носят феноменологический характер.

        Речевой сигнал - это результат реакции регистрирующего устройства (микрофона), на акустическое воздействие, генерируемое речевой системой человека. Слуховой аппарат человека воспринимает акустические колебания, т.е. колебания воздуха с определенными характеристиками, на которые реагирует слуховая система человека, представляющая из себя механические компоненты и элементы высшей нервной деятельности (нервные окончания и способ расшифровать возникающих электрических импульсов). Основные этапы процессов речеобразования и речевосприятия (рисунок 1.2) достаточно подробно описаны во многих публикациях различных ученых [1-5].

        Речевые сообщения представляют собой последовательность звуков речи, которые кодируют некоторую информацию, предназначенную для определенного адресата. Речевой сигнал регистрируется в количественном виде, что позволяет применять для его обработки вычислительные средства. Как и всякий сигнал, он является функцией времени и его можно описать с помощью различных математических соотношений, наиболее часто используются частотные представления (например, преобразование Фурье) [52,67,91,92,138,146]:

        Использование частотных представлений оправдано (адекватно) как с точки зрения воспроизведения речи, так и ее восприятия. Такая адекватность обусловлена тем, что при восприятии и воспроизведении речи участвуют механические подсистемы речевого и слухового аппарата. Как и всякие материальные подсистемы, они характеризуются степенью реакции на те, или иные воздействия, которые могут быть периодическими или содержать много мод. Иными словами, использование частотных представлений позволит отразить наличие резонансов (областей колебаний, на которые реагирует та или иная система).

        Речевое сообщение состоит из временных интервалов, в которых присутствуют или отсутствуют звуковые колебания. Временные интервалы, в которых отсутствуют звуковые колебания, называются - паузы речи. Причем паузы между словами и более мелкими элементами - фонемами. Под фонемой понимается элементарное сочетание звуков. В русском языке обычно выделяют 43 фонемы: 37 согласных и 6 гласных. Фонема это то, что реально произносится человеком, хотя принято оперировать со звуками речи.

        С точки зрения передачи информации, прежде всего, необходимо обеспечить сохранность информационной составляющей речи в месте ее воспроизведения. В зависимости от цели прослушивания речи можно выделить несколько аспектов информационных составляющих. Наиболее важной является смысл воспринимаемого сообщения, что приятно характеризовывать термином разборчивость речи. Следует отметить, что разборчивость речи зависит также от психофизических способностей человека, включая его состояние и степень сосредоточенности на воспринимаемых звуках речи. Вместе с тем, необходимо ориентироваться на некоторый усредненный уровень обеспечения разборчивости. В этом случае можно использовать некоторые характеристики, которые носят до определенной степени, объективный характер ввиду усреднения по многим ситуациям. Такого рода характеристики и принято рассматривать при решении задачи передачи речевых данных.

        Другим аспектом информационных составляющих, который в настоящее время приобретает все большее значение, является сохранение узнаваемости говорящего, что диктует необходимость сохранения индивидуальных не усредненных характеристик.

        Звуки русской речи делятся на две большие группы: гласные и согласные [15, 36, 75, 90, 122]. В русском языке обычно выделяют шесть гласных звуков: у, о, а, э, и, ы, которые по произношению подразделяют на ударные и безударные, а по местоположению в словах - на начальные, серединные и конечные. Согласные звуки делят на несколько подгрупп (таблица 1.1).

        Исследование свойств собственных векторов многочастотных субполосных матриц.

        Левая часть функционала характеризует близость выделяемой компоненты к Х(со), а правая, близость к нулю вне заданного частотного интервала. Т.е. энергия уг полностью сосредоточена в заданном частотном интервале.

        Еще одна процедура, которую можно реализовать с использование субполосных матриц это субполосное преобразование, т.е. получение некоторого вектора, который отражает частотные свойства исходного вектора в некотором частотном интервале. Под отражением частотных свойств понимается возможность аппроксимации трансформанты Фурье исходного вектора в выбранном частотном интервале на основе определяемых им базисных функций и компонент соответствующего подвектора. Нетрудно заметить, что для получения субполосного вектора можно использовать выражение (1.32), а для процедуры восстановления исходного вектора по субполосной трансформанте, т.е. обратного субполосного преобразования, выражение:

        Математический аппарат на основе субполосных матриц позволил создать методы субполосного кодирования и декодирования речевых сообщений эффективные с точки зрения минимизации битовых представлений речевых данных. В работе [59] подробно описан метод обнаружения и кодирования неинформационных участков в исходных речевых сообщениях, т.е. пауз, и метод кодирования и декодирования непосредственно речевых данных.

        В диссертационном исследовании не стоит задача разработки нового метода и алгоритма обнаружения участков речевой активности диктора. Для уменьшения объемов битовых представлений речевых сообщений за счет обнаружения и кодирования пауз будет использован именно субполосный метод обнаружения и кодирования пауз. Поэтому целесообразно кратко описать эту процедуру.

        Предлагается разбить частотный диапазон на R одинаковых частотных интервалов, для каждого из которых вычислить долю энергии сигнала соответствующего паузе, приходящуюся на данный интервал.

        Формулируется следующая гипотеза: Н0 - энергия исходного отрезка fi,i = l,NB r-ом частотном интервале (.о2г-о1г) обусловлена внешними шумами. Вычисление распределения долей энергии отрезка речевого сигнала осуществляется с использованием выражения (1.27). Решающая функция для проверки гипотезы Н0 имеет вид S = max(Pr/Prn),\/r = \,..,R, (1.48) где Ргп - результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий, попадающих в заданный частотный интервал к=\ где Ny - количество отрезков сигнала в паузе. Нулевая гипотеза отвергается, если выполняется неравенство S ha (1.50) в противном случае принимается решение о наличии паузы. Символ ha в правой части неравенства означает порог, обеспечивающий заданный уровень вероятности ложной тревоги: P{S ha} a«l, (1.51) Для определения значения порога также используется обучающая выборка относящихся к паузе данных, при этом, после вычислений оценок математических ожиданий вида (1.49), вычисляются оценки математического ожидания и дисперсии решающей функции N, Sn = !,&?)/Ny, (1.52) =1 Dn = i{S?)2INy-S2n- (1.54) к=\ Здесь символ s" означает значение решающей функции на к-ом анализируемом отрезке заведомо относящихся к паузе данных. На основе неравенства Чебышева нетрудно получить неравенство для порога, обеспечивающего заданный уровень вероятности ложной тревоги ha Sn+Dnld4cc. (1-54) Таким образом, для вычисления порога представляется оправданным использовать выражение, стоящее в правой части соотношения (1.54). Коэффициент в знаменателе задается больше двух, а его конкретное значение может быть оценено в процессе обучения.

        Описанный метод обнаружения пауз в речевых сообщениях позволяет адекватно учесть особенности распределения энергий отрезков звука по частотным интервалам. Вероятность обнаружения звуковых участков определяется отношением сигнал/шум в частотной полосе, в которой это отношение максимально.

        При декодировании речевого сообщения участки, определенные как паузы, заменяются последовательностью, представляющую собой некий шум, который должен обеспечивать комфортность прослушивания сообщения, для пользователя.

        В основе метода эффективного кодирования непосредственно речевых данных лежит процедура определения частотных интервалов, в которых сосредоточена наибольшая (заранее заданная) доля энергии [22, 23, 25, 27]: .fc(k)Zm\\xf=mZxf, (1.55) к=\ /=1 где Rm- минимальное количество частотных интервалов, из всего множества R, в которых сосредоточена т-ая доля энергии; Сг- доля энергии в выбранном частотном интервале (соотношение 1.27); С - порядковая статистика С(Ы) C(k),C(k)e{Cb...,CR}. Для каждого из reRm интервалов вычисляется субполосное преобразование вида j air=Y,4irXi,r Rm, (1.56) i=\ Последним этапом является квантование результатов субполосного преобразования (1.56) с малым количеством разрядов квантования я = 1,2.

        Исследования показали, что применение такого подхода к кодированию речевых сообщений, позволяет сокращать исходного количество битовых представлений до 20 раз при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения восстанавливаемых речевых сообщений.

        В качестве вывода к разделу можно указать, что математический аппарат субполосных матриц являются достаточно эффективным инструментом для исследования частотных свойств речевых сигналов. Построенные на их основе методы фильтрации, субполосного анализа/синтеза превосходят современные аналоги, однако, анализ этих методов выявил ряд направлений, которые позволяют поставить задачу совершенствования, описанных выше методов, с целью построения на их основе более эффективных.

        Квантование по уровню результатов субполосной дискретизации

        Как видно из приведенных выше рисунков, форма восстановленного сигнала практически совпадает с формой исходного, исключение составляют лишь «края» сигнала. Практически полное совпадение формы восстановленного и исходного сигнала свидетельствует о возможности получения высокого качества воспроизведения восстановленного речевого сообщения. Использование комбинации отсчетов N/4 и NIA+Nd позволяют получить более адекватный результат интерполяции, при котором отсутствует «провал» в середине.

        В случае такого подхода к кодированию, для декодирования сигнала необходимо хранить по два отсчета для огибающих zrc,zrs. Общее количество хранимых данных равно 2 R + 2 R = 4R.

        Учитывая, что субполосные компоненты выделяются только для информационных частотных интервалов из множества R\ (алгоритм поиска множества информационных частотных интервалов см. в разделе 2.2), коэффициент сжатия будет иметь вид: Вычислительный эксперимент. Была проведена оценка достигаемого коэффициента сжатия для всех звуков русской речи, при различных значениях параметра т. Результаты усредненного значения коэффициента сжатия приведены в таблице 3.4.

        Для сокращения объема сохраняемых данных, продискретизованные значения огибающих, могут быть подвергнуты квантованию по уровню.

        В данном случае предполагается ,что субполосная компонента будет вычисляться на основе огибающих вида где компоненты векторов и, и w ,состоят из проквантованных оставленных значений исходных огибающих на соответствующих местах, и нулей для остальных индексов. Вычислительный эксперимент. Исходя вычисления субполосных компонент на основе огибающих вида (3.18), с помощью вычислительных экспериментов были оценены относительные погрешности восстановления исходного отрезка сигнала х при различных количествах уровней квантования. Вычислительный эксперимент проводился следующим образом: для каждого звука русской речи при различных значениях параметра т, вычислялась субполосные компоненты (3.6); затем вычислялись огибающие вида (3.8); затем осуществлялось их прореживание с шагом N/2: полученные значения подвергались квантованию по уровню на основе соотношений (2.34), (2.36) и (2.37); на основе квантованных значений осуществлялось восстановление субполосных компонент согласно соотношению (3.13), затем восстанавливался исходный отрезок сигнала вида (3.14).

        Относительные погрешности восстановления вычислялись следующим образом: для квантования вида (2.36) для квантования вида (2.37) =(і ,- /2 ,). (3.20) где черта сверху означает усреднение. Для равномерного квантования погрешность оценивалась как по выражению (3.19), так и по выражению (3.20). Погрешности усреднялись по большому количеству отрезков, содержащих один и тот же звук. В качестве примера, в Таблице 3.5 приведены результаты этих усреднений при N = 127, R =31, М = 2,4,8, т = 0.92 (єравнЕ,єравнМ - погрешности восстановления при равномерном квантовании, нормированные к средней и абсолютным величинам соответственно).

        Результаты проведенных вычислительных экспериментов показали, что целесообразно использовать квантование по уровню на основе минимизации квадратической нормы погрешности. Пусть регистрируются значения речевых сигналов f = {/\,-,/ь)т Предполагается, что паузы обнаружены и закодированы, а отсчеты соответствующие им удалены из речевого сигнала. Для начала работы алгоритма необходимо задать следующие параметры: 1. Количество частотных интервалов: R и вычислить длину окна анализа N = 2(2R + l) + l. При частоте дискретизации 8000 Гц длина окна анализа должна превышать 100 отсчетов (12,5 мс). Рекомендуется использовать JV = 127H Л = 31. 2. Задать ширину частотного интервала: AQ = 4я- / N. 3. Задать параметр т, на основе которого определяются многополосные информационные частотные компоненты. 4. Задать количество разрядов квантования п. 5. Шаг дискретизации огибающих Nd = N12. Алгоритм кодирования;

        Предполагается, что при декодировании имеется заранее сформированная матрица собственных векторов первой субполосной матрицы. 1. Считать данные из файла, относящиеся к первому отрезку. 2. По кодам уровней квантования и значениям уровней dk восстановить данные wsj = dk (Л rcj = dk Ul j = і,-» кт 3. Осуществить интерполяцию огибающих согласно выражению (3.13) 4. Восстановить субполосную компонент, используя выражение (3.13) 5. Восстановить отрезок речевых данных, используя выражение (3.14) 6. Считать данные для следующего отрезка, повторить п.2 - и.6. Если обнаружен конец данных, сформировать вектор восстановленных речевых данных

        Программно-алгоритмическая поддержка разработанных алгоритмов кодирования речевых данных

        Для достижения лучшего качества воспроизведения речевых сообщений целесообразно использовать метод МК, тогда как метод СД позволяет достичь больших степеней сжатия.

        Использование «максимального сжатия» целесообразно, когда можно от речевого сообщения требуется только разборчивость, а узнаваемостью можно пренебречь. При «максимальном сжатии» присутствуют некоторые искажения в сообщении и незначительный дискомфорт при прослушивании, но разборчивость в целом на высоком уровне. «Среднее сжатие» позволяет уменьшить степень дискомфорта в восстанавливаемых сообщениях и значительно снизить уровень искажений, однако, степень сжатия уменьшается практически в два раза. «Низкое сжатие» стоит применять, когда необходима высокая степень разборчивости, узнаваемости диктора и отсутствие дискомфорта при прослушивании.

        На рисунках 4.1 - 4.2 в качестве примера приведена оценка качества воспроизведения для 20 восстановленных речевых сообщений при различных параметрах кодирования. В таблице 4.5 приведены значения коэффициентов сжатия для них.

        Оценка качества восстановления (метод на основе многополосного кодирования). Маркер «круг» - параметры низкого сжатия; маркер «квадрат» - параметры среднего сжатия; маркер «крест» - параметры максимального сжатия.

        Коэффициент сжатия для 20 различных речевых сообщений Метод многополосного кодирования Метод на основе субполосной дискретизации № Максимальное сжатие Среднее сжатие Низкое сжатие Максимальное сжатие Среднее сжатие Низкое сжатие

        Для оценки адекватности разработанных алгоритмов кодирования речевых сообщений, были проведены вычислительные эксперименты по их сравнению с наиболее известными и используемыми алгоритмами кодирования.

        Вычислительный эксперимент. Для сравнения были выбраны алгоритмы кодирования МРЗ, GSM 6.10, DSP Group TrueSpeech и ААС. Эти алгоритмы кодирования имеют высокий показатель качества воспроизведения восстановленных речевых сообщений.

        Задача вычислительного эксперимента заключалась в оценке достигаемого показателя сжатия при получении уровня качества воспроизведения сравнимого с выбранными аналогами. Усредненные по количеству аудиозаписей (всего 100 аудиозаписей) показатели сжатия приведены в Таблице 4.6 (МК - метод на основе многополосного кодирования, СД - метод на основе субполосной дискретизации).

        Проведенные вычислительные эксперименты показали, что разработанные алгоритмы кодирования имеют более высокий показатель сжатия при сопоставимом качестве воспроизведения.

        Вычислительный эксперимент. Для сравнения был выбран алгоритм Sound Squeezer, разработанный компанией «ИстраСофт» и алгоритм Speex, т.к. по предоставленному разработчиками описанию они имеют наиболее высокие показатели сжатия.

        Задача вычислительного эксперимента состоит в оценке достигаемых степеней сжатия. Результаты, усредненные по количеству записей, представлены в таблице 4.7.

        Метод многополосного кодирования позволяет получить больший коэффициент сжатия при практически идентичном качестве воспроизведения. Метод на основе субполосной дискретизации имеет меньший показатель качества, однако, позволяет получить большую степень сжатия. В качестве вывода к разделу можно указать, что разработанные методы и алгоритмы кодирования превосходят современные аналоги по степени сжатия, при этом достигается сопоставимый уровень качества воспроизведения.

        Для обеспечения удобства использования разработанных методов кодирования речевых сообщений, считается целесообразным разработать программно-алгоритмическую поддержку разработанных алгоритмов.

        Архитектура программно-алгоритмической поддержки разработанных методов и алгоритмов субполосного кодирования речевых сигналов состоит из следующих программных модулей: - модуль выбора параметров кодирования; - модуль кодирования речевых сообщений; - модуль декодирования речевых сообщений; - модуль записи речевых сообщений; В качестве аппаратной платформы для реализации программно-алгоритмической поддержки субполосного кодирования речевых сообщений была выбрана ЭВМ класса IBM PC. В качестве операционной системы была выбрана система на базе ядра Windows NT.

        Были разработаны основные элементы интерфейса модулей программной поддержки, которые реализованы в оконном режиме. Для реализации использовалась программная среда для создания графических интерфейсов MatLab GUI.

        Похожие диссертации на Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных