Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Коробанов Алексей Владимирович

Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет
<
Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Коробанов Алексей Владимирович. Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет : диссертация ... кандидата технических наук : 05.12.13 / Коробанов Алексей Владимирович; [Место защиты: Моск. техн. ун-т связи и информатики].- Москва, 2008.- 153 с.: ил. РГБ ОД, 61 08-5/1669

Содержание к диссертации

Введение

Глава 1 Общая характеристика цифровых систем передачи речевых сообщений с повышенной эффективностью

1.1 Структурная схема цифровой системы передачи речи

1.2 Принцип речеобразования со слуховой обратной связью 4G

1.3 Особенности слухового восприятия речи

1.4 Методы низкоскоростного кодирования речи

1.5 Выводы и постановка задач исследования 42

Глава 2 Модели и основные характеристики периферии слуховой системы

2.1 Анализ радиотехнических моделей преобразования речи на периферии слуховой системы „48' 4$

2.2 Аппроксимация нелинейных зависимостей периферии слуховой системы 54" 5\

2.3 Математические модели преобразования речи на периферии слуховой системы j50 СІ

2.4 Анализ пороговых зависимостей слышимости тона

при его маскировке стационарными шумами „65" 3

2.5 Основные результаты J& ЦН

Глава 3 Методы представления речи в базисах слуховых вейвлет и слуховых фильтров '

3.1 Эффект обострения слухового восприятия звукового тона и слуховые фильтры 78 ?

3.2 Формирование слухового материнского вейвлета „84" $ І,

3.3 Представление речи в базисе слуховых вейвлет $9 $2

3.4 Представление речевого сигнала посредством оптимального базиса слуховых фильтров „93" 3$

3.5 Основные результаты ,95" -}о Н

Глава 4 Разработка новых методов эффективного кодирования речи в классе линейного предсказания с анализом через синтез ^ '

4.1 Метод ЛПАС кодирования речи с представлением сигнала погрешно- JJt3' ста предсказания в ортогональном базисе слуховых фильтров JU1-6" iOj

4.2 Новая АР-АРСС модель линейного предсказания речи

4.3 Разработка метода оценки громкости речи

4.4 Модернизированный метод ЛПАС кодирования речи с повышенной эффективностью

4.5 Анализ эффективности ЛПАС кодеров

4.6 Основные результаты

Заключение J.40 13&

Список использованных источников 142

Введение к работе

Современный этап развития общества характеризуется увеличением потоков разнородной информации, передаваемой по телекоммуникационным системам и сетям. Значительный объем, порядка 90 %, этой информации составляет речевая информация [2]. В виду того, что речевые сигналы как носители речевой информации, обладают значительной избыточностью, существует проблема их компактного цифрового представления с целью снижения требований к пропускной способности телекоммуникационных каналов.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.

Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах Н.Н. Акин-фиева, СП. Баронина, А.И. Величкина, М.Д. Бенедиктова, В.И. Галунова, Е.Г. Жилякова, Ю.А. Косарева, В.И. Куля, В.Г. Михайлова, В.Е. Муравьева, М.В. Назарова, А.А. Пирогова, Ю.Н. Прохорова, В.Г. Санникова, М.А. Са-пожкова, В.А. Свириденко, И.В. Ситняковского, А.Н. Собакина, О.И. Шелу-хина, В.П. Яковлева, Б.С. Атала, Дж. Д. Гибсона, Б. Голда, А.Х. Грея, Н.С. Джайанта, Ф. Итакуры, Р.В. Кокса, П. Круна, Ж.И. Макхоула, Дж. Маркела, Л. Р. Рабинера, Ч. Рейдера, А.С. Спаниаса, Г. Фанта, Дж. Фланагана, Р.В. Шафера, М.Р. Шредера и других российских и зарубежных ученых.

С целью повышения качества кодеков с линейным предсказанием для передачи речевых сигналов на скоростях 4-16 (кбит/с) Международным Союзом Электросвязи (МСЭ) и другими организациями разрабатываются кодеры, относящиеся к классу адаптивных кодеров с линейным предсказанием на основе анализа через синтез (ЛПАС) (linear prediction analysis-by-synthesis (LPAS) coders) [61,76,78,81,91]. При данном методе обработки в кодере по параметрам долговременного и кратковременного фильтров-предсказателей производится синтез PC, сравнение его с исходным PC и минимизация взвешенной разности между ними подбором структуры сигнала голосового возбуждения фильтра-предсказателя. Основной особенностью указанных методов кодирования речи является искусственная замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя.

Одной из основных причин избыточности речевого сигнала считается наличие статистических (корреляционных) взаимосвязей между его отсчетами, взятыми в дискретные моменты времени [2]. С целью повышения эффективности цифрового представления речевых сигналов используют методы их кодирования с преобразованием, основное назначение которых состоит в разрушении (декорреляции) указанных взаимосвязей и как следствие сокращении избыточности речи [1,28,33,36,41,52,60].

Полное сокращение избыточности при обработке стационарного сигнала обеспечивает базис, построенный на основе собственных векторов корреляционной матрицы сигнала. Такое оптимальное преобразование найдено и известно в литературе как преобразование Карунена-Лоэва-Пугачева [28,36]. Однако, из-за отсутствия «быстрого» алгоритма его реализации, в практике компактного цифрового представления сигналов оно используется очень редко. Чаще используют дискретные «быстрые» преобразования: Фурье, косинусное, Адамара, Хаара и другие [1,4,19,33,36,66,85,89,93,96]. Следует отметить, что названные преобразования справедливы при обработке стационарных сигналов. Речевой же сигнал, как известно, относится к классу нестационарных сигналов [2,27,51,61]. Следовательно, для его компактного цифрового представления более рационально использовать другие базисы.

Математическая теория аппроксимации предполагает выбор такого базиса, который с помощью линейной комбинации небольшого числа векторов из этого базиса дает возможность представить сигнал с минимальной погрешностью. Проблема состоит в нахождении критерия для выбора такого базиса, который по внутренней своей сути хорошо приспособлен для представления заданного класса сигналов. Известно, что для класса нестационарных сигналов оптимальным является базис, построенный на основе их вейв-лет представлений [11,28,58,68,84,102].

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения зффеїсгивности работы ЛПАС кодеров следует искать новые модели представления сигнала погрешности предсказания, адекватные как голосовому возбуждению модели речеобразования, так и учитывающие психоакустические особенности слухового восприятия речи человеком. Следует также отметить, что при низких скоростях среднеквадратическая погрешность синтеза не адекватна слуховому восприятию. Следовательно, требуется использовать критерий качества синтеза речи, более схожий с критерием человеческого восприятия.

Цель работы

Разработка и исследование методов представления и низкоскоростного кодирования речевых сигналов, передаваемых по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новой психоакустической модели слухового восприятия речи.

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи: • Анализ основных закономерностей преобразования речевого сигнала на периферии слуховой системы человека с целью разработки психоакустической модели слухового восприятия речи.

• Анализ пороговых зависимостей маскировки речи узкополосными сигналами и получение аналитических соотношений для слуховых фильтров, а на их основе построение ортогональных базисов, согласованных со спектральными свойствами слуховой системы в выделенных полосах частот.

• Разработка слухового материнского вейвлета и исследование вейвлет представления речевого сигнала.

• Разработка нового критерия верности синтеза речи на основе громкости погрешности восстановления речевого сигнала.

• Разработка и оптимизация новых методов низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) и представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров.

Методы исследований

Методы теории оптимальных и адаптивных систем; методы сжатия данных; методы оценки качества систем передачи речи; методы вейвлет обработки сигналов; методы теории речеобразования и слухового восприятия речи; методы статистического машинного моделирования и предсказания речевых сигналов.

Научная новизна работы

• Исследована новая радиотехническая модель и получены аналитические соотношения для различных характеристик преобразования речи на периферии слуховой системы.

• Впервые получены аналитические соотношения для пороговых зависимостей слышимости тона при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами; на основе анализа пороговых зависимостей впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров.

• На основе исследования свойств эквивалентных слуховых фильтров разработан новый математический объект - слуховой материнский вейвлет (СМВ); доказано условие его допустимости; получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет.

• Разработан новый метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров, для которых рассчитаны канальные матрицы и соответствующие им собственные векторы.

• Разработана и исследована новая АР-АРСС модель линейного предсказания речи.

• Разработан новый алгоритм текущей оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия.

• Разработаны и оптимизированы методы низкоскоростного ЛПАС кодирования речи с повышенной эффективностью.

Практическая значимость работы

Результаты выполненных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений - MatLAB. Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью.

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061- 97 первый класс качества по разборчивости на скоростях от 3,2 до 16 кбит/с и выше. Это в 2-10 раз меньше скорости, обеспечиваемой кодеком на основе стандартной адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений. При равном качестве синтеза речи разработанные методы кодирования, по сравнению кодером стандарта GSM на скорости 13 кбит/с, обеспечивают скорость передачи 8 кбит/с (на 38% меньше).

Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУ СИ с Группой Телекоммуникационных Компаний «ITNT Group» (ЗАО «Компания ИНТЕНТ», ЗАО «СПРОС ИТ», г. Москва) ООО «Теле.ру» и применены при разработке и организации доступа абонентов к услугам местной, междугородней и международной связи посредством интеллектуальной платформы речевого сопровождения, а также при предоставлении абонентам телефонной сети дополнительной услуги - «голосовая почта», при организации речевого управления информационными ресурсами интеллектуальной сети «Ольга».

Апробация работы

Основные результаты работы были представлены на следующих научно-технических конференциях:

1. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2005, Москва, 2005 г.

2. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУ СИ, Москва, 2005 г.

3. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике», Москва, 2006 г.

4. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2007, Москва, 2007 г.

5. Московская отраслевая научно-техническая конференция «Технологии информационного общества», МТУСИ, Москва, 2007 г.

6. Международная научно-техническая конференция «Фундаментальные проблемы радиоэлектронного и оптоэлектронного приборостроения», Москва, МИРЭА, 2008 г.

7. XIV международная научно-техническая конференция «Радиолокация, навигация, связь» (RLNC 2008), Воронеж, НПФ «САКВОЕЕ», 2008 г.

Краткое содержание работы

Диссертационная работа содержит: введение, четыре главы, заключение и список использованных источников.

В первой главе дается общая характеристика цифровых систем передачи речевых сообщений с повышенной эффективностью. В частности анализируется цифровая система передачи речи использующая источник речеобра-зования со слуховой обратной связью. Рассматривается модель речеобразо-вания со слуховой обратной связью. Показывается важность учета слухового восприятия речи при проектировании эффективных систем речевой информатики и связи. Изучаются особенности преобразования речи на периферии слуховой системы. Дается краткий обзор методов низкоскоростного кодирования речевых сигналов, учитывающих в той или иной степени модели рече-образования и слухового восприятия речи человеком. Определяются критерии верности восстановления (синтеза) речи. Формулируются выводы и ставятся задачи дальнейшего исследования.

Во второй главе исследуются радиотехнические и аналитические модели и основные характеристики преобразования речевых сигналов на периферии слуховой системы. Рассматриваются вопросы аппроксимации нелинейных зависимостей периферии слуховой системы, заданных графически, аналитическими соотношениями. В частности, получены усредненные зависимости порога слышимости в тишине, зависимости между частотой, шириной частотной группы и высотой тона, характеристики фильтрации в частотных каналах (слуховых фильтров), амплитудная характеристика подсистемы «во-лосковая клетка» слуховой системы. Развиваются цифровые модели преобразования речи на периферии слуховой системы. Разрабатывается обобщенная модель периферии слуха в пространстве состояний. В последнем разделе данной главы проводится теоретический анализ пороговых зависимостей слышимости тона при его маскировке стационарными шумами и дается сравнение полученных зависимостей с экспериментальными данными психоакустических измерений.

Третья глава посвящена разработке и исследованию методов представления речевых сигналов в базисах слуховых вейвлет и слуховых фильтров. Вначале главы изучается эффект и проводится теоретический анализ эффекта обострения слухового восприятия речи на основе изучения порогов слышимости тона узкополосным шумом. На основе данного анализа выводится комплексный коэффициент передачи и импульсная реакция слухового фильтра z-ro канала слухового пути. Замечая тот факт, что и импульсная реакция и АЧХ слухового фильтра локализованы во временной и частотной областях, осуществляется формирование слухового материнского вейвлета (СМВ). Показывается, что СМВ удовлетворяет всем известным свойствам вейвлетов, как новых математических объектов. Далее с помощью прямого и обратного вейвлет преобразования осуществляется представление речи в базисе слуховых вейвлет. Приводятся примеры. Разрабатываются и экспериментально проверяются алгоритмы дискретного вейвлет преобразования речи. Выявляются зависимости отношения сигнал/погрешность синтеза от времени задержки и масштаба. На основе анализа энергии выборки речи осуществляется представление речевого сигнала посредством оптимального базиса слуховых фильтров. Рассчитываются собственные функции и собственные числа канальных матриц слухового пути.

В четвертой главе разрабатываются и исследуются новые методы эффективного кодирования речи в классе линейного предсказания с анализом через синтез (ЛГТАС). Вначале разрабатывается математическая модель ЛПАС кодера речи с представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров. Проводится экспериментальное исследование кодера. Выявляется влияние корректирующего формантного фильтра на уменьшение дисперсии шума маскировки. Анализируются зависимости отношения сигнал/шум маскировки от коэффициентов сжатия скорректированного сигнала погрешности предсказания. Выявляются недостатки данного метода кодирования. Разрабатывается новая АР-АРСС модель линейного предсказания речи, более эффективная чем известная АР-АР модель. Эффективность модели подтверждается экспериментально. Далее разрабатывается новый метод и практический алгоритм оценки громкости речи. С учетом новой модели предсказания и оценки громкости речи разрабатывается модернизированный метод ЛПАС кодирования речи с повышенной эффективностью. Дается сравнительный анализ эффективности разработанных методов кодирования. Показывается, что на скоростях 3,2 - 16 и более кбит/с разработанные методы ЛПАС кодирования речи обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061- 97.

Принцип речеобразования со слуховой обратной связью

В системах речевой информатики и связи в качестве получателя речевых сообщений выступает слуховая система человека, анализирующая поступающие на её вход речевые сигналы и осуществляющая распознавание передаваемых речевых сообщений [4,12,14,20,42,48,54,57,63,65,69,93]. Слух упрощенно является как бы микрофонным входом для головного мозга. Динамический диапазон слышимых звуков речи этой биологической системы очень широк; он составляет величину порядка 110 дБ и превосходит возможности практически любой электронной системы. Частотный диапазон звуков, воспринимаемых нормальным слухом, составляет 20-20000 Гц. С возрастом динамический диапазон воспринимаемых звуков сужается, а максимальная частота смещается в сторону 10000-15000 Гц. Однако на процессе восприятия речевых сигналов это не сказывается, так как самая высокочастотная компонента речи, участвующая в слуховой обратной связи, лежит примерно в области 6000-8000 Гц.

Одним из наиболее значимых достижений в исследованиях по биофизике и физиологии слуха явились результаты изучения функции периферических отделов слуховой системы. Эти исследования позволили значительно расширить существующие представления о свойствах улитки внутреннего уха как анализатора спектра речевых (звуковых) сигналов, оценить отражение в активности волокон слухового нерва и нервных элементах первого центрального отдела слуховой системы (комплекса кохлеарных ядер) различных параметров простых и сложных звуков. Полученные результаты привели к более полному пониманию последовательности преобразований, которые происходят в периферических отделах слуховой системы и обеспечивают реализацию слуховой функции.

Восприятие речи слуховой системой разделяют на два уровня. На первом уровне в периферических отделах слуха акустический сигнал разделяется на некоторое множество спектрально-временных компонент, которые затем преобразуются в многомерную импульсную последовательность на уровне волокон слухового нерва. Этот уровень изучен наиболее полно. На втором уровне в центральных отделах слуховой системы осуществляется, восприятие речи, заключающееся в вынесении решений о параметрах рече-образования и распознавании смысловых элементов речи. Этот уровень изучен в меньшей степени. Поэтому далее более подробно остановимся на вопросах преобразования речи в периферических отделах слуховой системы.

В состав периферии слуха входят структуры наружного, среднего и внутреннего уха [54,57,63,65,69]. На уровне этих структур создаются такие условия приёма речевых сигналов в шумах, при которых обеспечивается максимальная чувствительность при допустимом отношении сигнал/шум; осуществляется спектрально-временное многокомпонентное представление речи; производится преобразование многомерного аналогового описания речи в импульсную активность нейронов волокон слухового нерва.

К наружному уху относятся ушная раковина и наружный слуховой проход. Основное назначение ушной раковины - это концентрация энергии и согласование импедансов воздушной среды свободного акустического поля и наружного слухового прохода. Наружный слуховой проход уха человека расположен между ушной раковиной и барабанной перепонкой. Он подобен цилиндрической однородной трубе, открытой на одном конце и закрытой на другом, и имеющей среднюю площадь поперечного сечения 0,37 см2. В самом конце канала находится барабанная перепонка, которая закрывает проход и располагается не перпендикулярно центральной оси канала, но под углом около 30. Выход наружного слухового прохода плавно переходит в барабанную перепонку. АЧХ системы наружного уха характеризуется рядом резонансов с резонансными частотами, на которых в слуховом канале образуются стоячие волны. Первый резонанс приходится на частоту f&3 кГц [57]. Кроме того, установлено, что резонанс на данной частоте приводит к повышению на 5-10 дБ давления у барабанной перепонки по сравнению с давлением у входа в слуховой проход.

Акустические волны, проходя через наружный слуховой канал, воздействуют на систему среднего уха, состоящую из барабанной перепонки и трех миниатюрных косточек: молоточка, наковаленки и стремечка. Барабанная перепонка представляет собой мало эластичную подвижную мембрану толщиной порядка 0,1 мм2. Слуховые косточки, начиная с молоточка, прикреплены к барабанной перепонке и поддерживаются в рабочем состоянии с помощью связок и мышц. Выходом среднего уха является стремечко - это небольшая косточка, передающая перемещения барабанной перепонки в смещения мембраны овального окна внутреннего уха. Согласно современным представлениям, основное предназначение системы среднего уха - это согласование высокого входного импеданса улитки внутреннего уха, заполненной жидкостью, и сравнительно низкого импеданса воздушной среды. Кроме того, благодаря своим мышцам, рефлекторно сокращающимся при действии сильных звуков, среднее ухо выполняет защитную роль, аналогичную системе автоматической регулировки усиления в приемниках телекоммуникационных систем. Важной характеристикой среднего уха является частотная зависимость величины смещения основания стремечка от величины звукового давления на барабанную перепонку.

Аппроксимация нелинейных зависимостей периферии слуховой системы

В данных соотношениях используются постоянные слуха, полученные в результате аппроксимации экспериментальных данных: bz = 6.0459 (барк), b = l/bz= 0,1654, Fz = 0,579 кГц.

Обратная функция для z(f) , а именно, зависимость частоты тона от высоты его восприятия задается соотношением /(2) = Fr-sh[fe] (кГц). (2.6)

Как известно [57,65], чистый тон воспринимается слухом одновременно по нескольким сенсорным каналам, образующим некоторую "частотную группу". Путем многочисленных экспериментальных психофизических измерений получены статистические данные зависимости ширины частотной группы Af от частоты воздействия / [65]. Аппроксимируя эти данные, получаем следующее аналитическое соотношение для зависимости А/ от /

Используя зависимости частоты / тона от высоты z его восприятия, получаем также зависимости ширины А/ частотной группы от высоты z: Af(z) = 2Fch[bz]. (2.8) Зависимости, соответствующие (2.5) и (2.6), изображены на рис. 2.6. На рисунке 2.7 приведены графики зависимостей Af(z), f(z)n 8f{z) = A/(z)//(z) . функцию bf{z) называют отношением Вебера [54], она характеризует изменение пределов дискриминации слуха по частоте от высоты восприятия звукового стимула.

Характеристики фильтрации в частотных каналах. При гармоническом воздействии отклик, порождаемый в структуре среднего уха слуховой системы, одновременно подводиться к твм резонансным системам по числу внутренних волосковых клеток органа Корти. Эти резонансные системы при малых и средних уровнях воздействия можно считать линейными системами, образующих так называемые частотные каналы передачи внутреннего уха [57,65]. Найдем характеристики фильтрации в этих каналах. При этом учтем результаты психофизических измерений их параметров, аппроксимируемых аналитическими соотношениями (2.5) - (2.8). В качестве моделей резонансных систем используем динамические фильтры с импульсными реакциями следующего вида hJt) = 2ame-a\cos2nfj-- sin2 iifj), т = 1,2,.. . (2.9)

Здесь твм - общее число внутренних волосковых клеток, расположенных вдоль базилярной (основной) мембраны улитки внутреннего уха, fm -центральная частота возбуждения m-ого канала, ат - показатель затухания колебаний в т-ом канале.

Импульсным реакциям (2.9) соответствуют передаточные функции km(p) = 2amp/l(p + am)2 + (2цГт)2\, т = \,2,..тбм. (2.10) Эти передаточные функции нормированы так, что на резонансных частотах АЧХ равны единице. Резонансные частоты и полосы пропускания этих фильтров, определяемых на уровне У у {у \\ соответственно раВН%г / +(ат/2к)2, Afym = a Vy A- (2-11)

Величина у определяется по требуемому уровню ослабления. Так уровню ослабления АЧХ в 3 дБ соответствует у = V2, а уровню ослабления в 10 дБ у = -До .

Известно [65], что между высотой тона в барках z и координатой х вдоль базилярной мембраны существует линейная зависимость: z = \xx. Параметр ju определяют из условия, что при хтах= 32 мм zmax= 24 барк. Отсюда //=0,75 барк/мм. Квантуя с шагом Am величину х и учитывая, что на интервале хтах расположено порядка 3500 внутренних волосковых клеток [57], получаем Am = хтвх/т6м = 32-10-3/3500 = 9,14-10"6 лі = 9,UMKM .

Отсюда находим величины zm=(iiAm)m = Q.006855т, т = 1,2,...т6м , подставляя которые в соотношения (2.6) и (2.8) находим резонансные частоты frm = Fz sh \bzт J и полосы частот Afr т = 2Fc h[bzm J.

С учетом соотношений (2.6), (2.8) и (2.11) после несложного преобразования передаточной функции (2.10) приходим к следующему соотношению для амплитудно-высотно-частотной характеристики (АВЧХ) системы внутреннего уха слуховой системы

Формирование слухового материнского вейвлета

Для анализа структуры нестационарных сигналов, к которым в частности относится и речевой сигнал x(t), используют масштабно-временные всплески или волны, называемые вейвлетами [28]. Семейство масштабно-временных вейвлет получается в результате масштабирования СМВ \\і на величину s и сдвига на величину и. Семейство слуховых вейвлет имеет вид где (j&s)- спектр СМВ, определяемый по формуле (3.15) при замене переменной со на cos.

Непрерывные вейвлет преобразования. Прямое вейвлет преобразование для сигнала х є L2 (R) с масштабом s и сдвигом по времени и вычисляется как взаимная корреляция сигнала x(t) с вейвлетом (3.23) [28]:

Собственно синтез или восстановление речевого сигнала по его вейвлет преобразованию осуществляется в соответствии с обратным вейвлет преобразованием, характеризуемым соотношениями [28]

Вейвлет преобразование сигнала x(t) часто удобнее представлять в виде процедуры фильтрации JC(/) . При этом оно может быть переписано в другом виде, а именно в виде свертки оо Л (t \ Wx(u,s)= f JC(/)= W\— \dt = x(t)\\f su() = xh s(и), (3.28) L Vs V s J (t-иЛ v s ) где введена импульсная реакция фильтра (3.29) , ,4 , ч 1 f и — t V s Ум=о

Применяя формулу Планшереля [28,58], вейвлет преобразование сигнала x(t) можно записать также в следующем виде Wx{и,s) = ]x(t)K,s№ = ]x(jWlОсоУш. (3.30) —oo —oo Здесь Я s (/со) представляет собой комплексно сопряженный коэффи циент передачи фильтра, который с учетом соотношений (3.24) и (3.29) равен ДУсо) = " (Усо5)5 (3.31) Так как u,s С/ю)м) = V? JX]/(T)A = 0, (3.32) —оо то Hs и (р) определяет передаточную функцию полосового фильтра.

Как и оконное преобразование Фурье, вейвлет преобразование может измерять частотно-временные изменения спектральных компонент сигнала x(t), но оно имеет другое частотно-временное разрешение. Вейвлет коэффициенты зависят от локальных значений сигнала, как во временной (по переменной и), так и в спектральной (по переменной со = Pv Is) областях, где сосредоточена его максимальная энергия. Локальные изменения во времени сигнала x(t) можно обнаружить по сдвигу и масштабу вейвлет коэффициента с наибольшей амплитудой; его временная и частотная протяженность, соответственно, пропорциональны: snl/s. Высота и ширина прямоугольника в частотно-временной области меняются, но его площадь остается постоянной.

Прямое дискретное вейвлет преобразование. Формулы (3.25) -(3.30) оперируют с аналоговыми функциями по времени и частоте. Для их реализации на ЭВМ требуется переход к дискретно-аналоговым функциям по времени и частоте. Такой переход не приводит к значительной потере информации о сигнале x(t) и о семействе вейвлет \\JUs(t),s 0,-co u co, если частота дискретизации определяется в соответствии с условием Шеннона [67,68] д 2ютах = З КдаЮдах / ) (3-33) Рассмотрим вначале алгоритм вычисления прямого вейвлет преобразования речи. Для этого, с учетом (3.30) и (3,31), представим его в виде Wx(u,s) = )x{j2izf)Y {j2%f s)ej2"fudf. (3.34) -оо

Нетрудно заметить, что (3.34) с точностью до постоянной есть обратное преобразование Фурье от произведения спектров сигнала и СМВ. Поэтому алгоритм прямого дискретного вейвлет преобразования речи состоит из следующих этапов: Вычисляется выборка речевого сигнала хк = x(tk = к I /д),к = О, N -1. Посредством быстрого преобразования Фурье (БПФ - fft) вычисляется выборка спектра речевого сигнала Хп = Ш{хк,Щ, п = 0,N -1.

При фиксированном s, на основе (3.15) вычисляется выборка комплексного спектра слухового материнского вейвлета 1 .. ,_ч nfa \\ \\ + J&{yn(s)-Vn(s)f9 П Wr ,,( ) = f 7-. йо V»(J) = 5T. n = 0,N-l. (3.35) Вычисляется выборка произведения Yn (s) = Хпхп (s), n-03N-l . Посредством обратного БПФ (ifft) вычисляется дискретная по времени выборка: Wxk(s) = iffi{Yn(s),N}. Собственно дискретное вейвлет преобразование (ДВП) выборки речи получаем после дискретизации Wxk(s) по s: Wxhn -Wxjm{sm =m-As), k = 0,N-l, m = ml,m2.

Новая АР-АРСС модель линейного предсказания речи

В работе [47] рассматривался низкоскоростной голосовой кодек в классе ЛПАС с полиномиальным синтезом спектра погрешности предсказания. Недостаток этого метода состоит в том, что для представления сигнала погрешности предсказания требуется переход в спектральную область и аппроксимацию комплексного спектра полиномами Чебышева, которые не адекватны ни модели речеобразования, ни модели слухового восприятия речи.

Для устранения этого недостатка в работе [50] предложен более эффективный метод ЛПАС кодирования речи с представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров, полученных автором в разделе 3.4 третьей главы. Рассмотрим работу этого кодера.

Структурная схема кодера. Схема кодера изображена на рисунке 4.1. Она построена по принципу ЛПАС и содержит: анализатор, синтезатор и оптимизатор. Преобразования в схеме реализуются в дискретные моменты времени: t=0, X 2,3,... Поскольку в синтезаторе кодера выполняются операции эквивалентные декодированию, то декодер отдельно не рассматривается.

В анализаторе кодера на сегменте анализа в N отсчетов из исходной выборки речи {xt}, t = Q,N -1, вычитается его предсказанная реализация {xpt}, формируемая в кратковременном фильтре предсказателе (ФП1). В результате определяется сигнал погрешности предсказания et={xt-xpl}. Одновременно речевой сигнал поступает на блок оценки вектора коэффициентов линейного предсказания (ОКЛП) a[r = {al,a1,...,ap)t компоненты которого квантуются, кодируются и подаются на управляющие входы адаптивных фильтров предсказателей ФП1 анализатора и синтезатора. ти предсказания в ортогональном базисе слуховых фильтров

Исходный речевой сигнал и коэффициенты линейного предсказания поступают также на блок оценки периода основного тона (ОПОТ), где оценивается вектор параметров с, основного тона речи, которые квантуются, кодируются и через декодеры подаются на управляющие входы адаптивных долговременных фильтров предсказателей ФП2 анализатора и синтезатора. В результате формируется скорректированный сигнал погрешности предсказания (ССПП) d,. ССПП в блоке ортогонального преобразования (БОП) на основе канальной матрицы H(z), необходимой для вычисления ортогональных матриц и собственных чисел слуховых фильтров, преобразуется в вектор bf.

Как видно распределение собственных чисел существенно неравномерно. Это позволяет сжимать сигнал на выходе БОП путем кодирования и передачи лишь компонент, соответствующих большим собственным числам. Квантованные параметры aqt,hqt,cqt, поступают в синтезатор кодера.

В блоке инверсного восстановления (БИВ) синтезатора по квантованным параметрам bqt с использованием ортогонального базиса слуховых фильтров восстанавливается скорректированный сигнал погрешности предсказания dt. Далее на основе вычисленных параметров о. t основного тона с помощью долговременного фильтра предсказателя ФП2 восстанавливаются оценки сигнала погрешности предсказания et = {ept + dt }. Собственно синтез речевого сигнала осуществляется путем суммирования предсказанного речевого сигнала, формируемого в кратковременном фильтре предсказателе ФП1, с оценкой сигнала погрешности предсказания: s - {s pt +е }.

Исходный и восстановленный сигналы подаются на блок предварительной обработки и весовой фильтрации (ПОиВФ) оптимизатора кодера, где вначале восстановленный речевой сигнал вычитается из исходного речевого сигнала. Эта разность образует сигнал погрешности восстановления et = (st -s ) и воспринимается слуховой системой как шум маскировки речевого сигнала. Эксперименты показывают, что уровень шума маскировки распределен в спектральной области практически равномерно. Однако замечено, что большой уровень шума маскировки не обнаруживается слуховой системой в полосах частот, где речевой сигнал имеет большую энергию [2,17,20,54,63,65,66]. Поэтому, с учетом свойства слуха человека, можно попытаться уменьшить воспринимаемый уровень шума маскировки, используя в оптимизаторе корректирующий фильтр. В связи со сказанным, можно предположить, что в слуховой системе анализируется не уровень шума маскировки, но его относительная величина. В схеме на рисунке 4.1 это реализу ется введением блока оценивания относительной среднеквадратичной погрешности (ОСКП) 5t восстановления речи. Собственно, оптимизация работы кодера осуществляется через устройство управления (УУ) путем такого подбора числа и вида базисных векторов слуховых фильтров, а также правила пороговой обработки и (или) квантования параметров Ъ(, которые обеспечивают минимум ОСКП синтеза речевого сигнала.

Похожие диссертации на Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет