Содержание к диссертации
ВВЕДЕНИЕ 6
Глава 1. ПРОБЛЕМА СЖАТИЯ СПЕКТРА РЕЧЕВЫХ СИГНАЛОВ. ОБЗОР ИССЛЕДОВАНИЙ, ПОСВЯЩЕННЫХ СЖАТИЮ СПЕКТРА РЕЧИ НА ОСНОВЕ МОДУЛЯЦИОННОЙ ТЕОРИИ 16
1.1.0 необходимости продолжения проведения исследований в рамках модуляционной теории звуковых сигналов 16
1.2. Необходимость решения задачи сжатия спектра речевых сигналов 17
1.3. Методы сжатия спектра речи с устранением информационной и статистической избыточности 19
1.4. О проблеме сжатия спектра речи с позиций теории информации 26
1.5. Обзор исследований, посвященных решению задачи сжатия спектра речевых сигналов на основе модуляционных представлений 27
1.5.1. Первые идеи о сжатии спектра речи на базе теории модуляции 28
1.5.2. Методы сжатия спектра речи при делении мгновенной частоты и передаче косинуса фазы сигнала, а также при передаче мгновенной частоты и огибающей сигнала 34
1.5.3. Современное состояние проблемы сжатия спектра речевых сигналов на базе модуляционной теории 38
1.6. Сжатие спектра речевых сигналов с общих позиций теории модуляции 40
Заключение к главе 1 44
Глава 2. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ СВОЙСТВ ОГИБАЮЩИХ И КОСИНУСОВ ФАЗЫ РЕЧЕВЫХ СИГНАЛОВ 45
2.1. Экспериментальное исследование спектров огибающих и косинусов фазы речевых сигналов 45
2.1.1. Определение верхних граничных частот спектров огибающей и косинуса фазы речевых сигналов 45
2.1.2. Исследование соотношений между спектрами речевых сигналов их огибающих и косинусов фазы 50
2.2. Исследование информационных свойств огибающей и косинуса фазы речевых сигналов 55
2.2.1. Исследование зависимости разборчивости речи от ограничения сверху спектров огибающей и косинуса фазы речевого сигнала 56
2.2.2. Исследование возможности компенсации недостающих высокочастотных составляющих спектра речевого сигнала при ограничении сверху спектра косинуса фазы и подъеме уровня высоких частот в спектре огибающей 70
Заключение к главе 2 76
Глава 3. РАЗРАБОТКА МЕТОДА И ТЕХНИЧЕСКИХ СРЕДСТВ ДЛЯ ДВУХСТУПЕННОГО МОДУЛЯЦИОННОГО РАЗЛОЖЕНИЯ РЕЧЕВЫХ СИГНАЛОВ 78
3.1. Математическая основа двухступенного модуляционного разложения речевых сигналов 78
3.1.1. Основные определения модуляционной теории звуковых сигналов 78
3.1.2. Математическое обоснование модуляционной теории звуковых сигналов 82
3.1.2.1. О применении преобразования Гильберта к звуковым сигналам 83
3.1.2.2. О применении математической модели модуляционной теории для описания звуковых сигналов 87
3.1.3. Многоступенное модуляционное разложение речевых сигналов 88
3.1.4. Математическая модель огибающей речевого сигнала в рамках двухступенного модуляционного разложения 91
3.1.4.1. Чистая модуляционная модель огибающей речевого сигнала 91
3.1.4.2. Спектрально-модуляционная модель огибающей речевого сигнала 96
3.2. Структурная схема устройства для реализации двух ступеней модуляционного разложения речевых сигналов 100
Заключение к главе 3 107
Глава 4. ИССЛЕДОВАНИЕ ВТОРОЙ СТУПЕНИ МОДУЛЯЦИОННОГО РАЗЛОЖЕНИЯ РЕЧЕВЫХ СИГНАЛОВ. РАЗРАБОТКА СПОСОБА ОБРАТИМОГО СЖАТИЯ СПЕКТРА РЕЧЕВОГО СИГНАЛА 109
4.1. Экспериментальное определение условий выполнения второй ступени модуляционного разложения речевых сигналов 109
4.2. Экспериментальное исследование свойств функций второй ступени модуляционного разложения речевых сигналов 122
4.2.1. Исследование соотношений между спектром огибающей речевого сигнала и спектрами функций второй ступени его модуляционного разложения 122
4.2.2. Измерение характеристик мгновенной частоты огибающей речевых сигналов 129
4.2.3. Исследование зависимости разборчивости речи от верхних граничных частот спектров огибающей и косинуса фазы второй ступени модуляционного разложения речевого сигнала 138
4.2.4. Исследование зависимости разборчивости речи от верхней граничной частоты спектра косинуса фазы огибающей с деленной мгновенной частотой 143
4.3. Разработка способа обратимого сжатия спектра огибающей речевых сигналов 153
4.4. Психоакустическая модель, учитывающая особенности слухового восприятия модулированных по частоте и амплитуде сигналов 159
4.5 Разработка способа обратимого сжатия спектра речевых сигналов при обработке их модулирующих функций двух ступеней разложения 163
Заключение к главе 4 172
ЗАКЛЮЧЕНИЕ 174
БИБЛИОГРАФИЧЕСКИЙ СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 177
Приложение 1. Акты о внедрении результатов работы 190
Введение к работе
Настоящая диссертационная работа посвящена разработке метода компандирования (сжатия-восстановления) спектра речевых сигналов средствами модуляционной теории.
Актуальность исследования. Особенностью современного этапа развития общества является усиление роли информации во всех основных сферах человеческой деятельности [135], переход общества практически во всемирном масштабе от индустриального к информационному, когда информация стала важнейшим стратегическим ресурсом [136].
Число средств1 передачи информации по радиоканалу непрерывно возрастает. Речевая коммуникация (телефония) остается одним из наиболее оперативных и востребованных способов непосредственного обмена информацией между людьми. Количество абонентов, пользующихся услугами телефонной связи, ежегодно увеличивается. На сегодняшний день число абонентов средств подвижной радиосвязи (радиотелефонии) значительно превышает количество стационарных телефонов, включенных в фиксированные сети. Наиболее интенсивно развивающейся областью передачи речи в настоящее время являются системы мобильной радиосвязи [72, с. 3].
Увеличение потока передаваемых по радиоканалу сообщений приводит к усилению значения проблемы эффективного использования радиочастотного спектра, так как радиочастотный спектр является невозобнов-ляемым ограниченным ресурсом. Одним из путей эффективного использования радиочастотного ресурса является сжатие спектра передаваемых сигналов, в частности речевых как занимающих значительную долю среди всех сигналов, транслируемых по радиоканалу [72, с. 4].
Над решением задачи сжатия спектра речевых сигналов исследователи работают, по крайней мере, на протяжении последних восьмидесяти лет. За это время сформировалось основное направление ее решения, по --лучившее в настоящее время наиболее широкое применение, сжатие спектра речи при устранении статистической и психофизической избыточности с использованием методов линейного предсказания. Однако, несмотря на то, что проблема сжатия спектра речевых сигналов на сегодняшний день достаточно успешно решается средствами статистической теории, поиск других теоретических оснований для ее решения не только не прекращается, но и усилился в последние годы, что обосновывается ограниченными возможностями известных методов при возрастающей потребности.
Радикальное решение проблемы сжатия спектра речевых сигналов в настоящее время не найдено, и ее решение не только не потеряло своей актуальности на сегодняшний день, но и приобрело еще большую остроту с развитием телекоммуникационных технологий.
Модуляционная теория является теоретическим фундаментом, который традиционно рассматривается в качестве основы для поиска решения обозначенной проблемы. В рамках данного направления по существу решений пока не было найдено, однако интерес к нему в последние годы возрос, о чем свидетельствуют появившиеся в последние годы публикации [88 - 90, 94 - 97], посвященные данной тематике.
В модели модуляционной теории сигналы описываются как сложно-модулированные (одновременно по амплитуде и частоте) процессы, в виде произведения огибающей (амплитудно-модулирующей функции сигнала) и косинуса фазы (частотно-модулированной функции сигнала). Установлено, что спектры огибающей и косинуса фазы речевых сигналов обладают примерно одинаковой верхней границей и занимают приблизительно одну область частот. Также установлено, что для обеспечения коммерческого качества передачи речи (не ниже первого класса качества речи по ГОСТ Р 50840 - 95) необходимо передавать как огибающую, так и косинус фазы речевых сигналов. Из этого следует, что для сжатия спектра речевого сигнала на основе модели модуляционной теории необходимо сжимать как спектр огибающей, так и спектр косинуса фазы. Для сжатия спектра оги --бающей речевых сигналов предлагается выполнить вторую ступень модуляционного разложения сигнала, то есть разложить огибающую сигнала на ее огибающую и косинус фазы. После чего обработкой модулирующих функций второй ступени модуляционного разложения речевого сигнала добиться уменьшения полосы частот его огибающей. Для сжатия спектра косинуса фазы речевого сигнала предлагается выполнять деление мгновенной частоты сигнала без ее выделения и ограничивать сверху спектр косинуса фазы сигнала с деленной мгновенной частотой.
Разработка нового эффективного способа компандирования спектра речевых сигналов является актуальной, прежде всего, для систем радиосвязи (например, специализированных систем подвижной радиосвязи). Также это актуально для систем записи и хранения больших массивов речевой информации.
Объект исследования: обработка речевых сигналов.
Предмет исследования: Компандирование (сжатие - восстановление) спектра речевых сигналов при их обработке на основе математической модели модуляционной теории.
Основная цель исследования заключается в разработке эффективного метода компандирования спектра речевых сигналов.
В соответствии с основной целью и предметом исследования определены следующие основные задачи исследования:
- экспериментально исследовать свойства функций, описывающих речевые сигналы в математической модели модуляционной теории;
- разработать новую психоакустическую модель, учитывающую особенности слухового восприятия модулированных по амплитуде и частоте сигналов;
- разработать метод и технические средства компандирования спектра речевых сигналов при обработке их природных модулирующих функций;
- экспериментально исследовать эффективность разработанного метода компандирования спектра речевых сигналов;
- обеспечить внедрение результатов, полученных в диссертационном исследовании, в учебный процесс и практику научных исследований.
Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в теории функций, физиологии слуха и речи, теории информации, спектральной теории и модуляционной теории.
Методы исследования. Во время проведения исследования применялись методы математического анализа; спектрального анализа (теоретического и экспериментального); компьютерного моделирования; артикуля-ционных измерений, и др.
Информационная база исследования. В качестве информационных источников исследования использованы:
- научные источники в виде данных из книг, журнальных статей, научных докладов и отчетов о научно-исследовательской работе, материалов научных конференций и семинаров;
- официальные документы в виде ГОСТов;
- результаты собственных расчетов и проведенных экспериментов. Научная новизна исследования:
1. На основе экспериментальных измерений параметров мгновенной частоты речевых сигналов внесены уточнения в сделанные ранее выводы о свойствах мгновенной частоты фонем русского языка: во-первых, модулирующие частоты природной частотной модуляции гласных звуков русской речи могут принимать значения выше 1 кГц, во-вторых, природная несущая частота гласных звуков русской речи, как правило, не равняется частоте основного тона голоса.
2. Для устранения психофизической избыточности речевых сигналов с целью сжатия их спектра предложена новая психоакустическая модель, учитывающая особенности слухового восприятия модулированных по амплитуде и частоте сигналов.
3. Для русской речи экспериментально установлено, что модулирую - -щие частоты природных амплитудной и частотной модуляций речевого сигнала в значительной степени совпадают.
4. Экспериментально установлено, что несущая частота речевого сигнала для всех фонем русского языка превышает несущую частоту огибающей сигнала.
5. Для русского языка экспериментально установлено, что при сохранении информации о величине природной несущей частоты речевого сигнала можно незаметно для слуха подменить составляющие спектра сигнала, обусловленных его природной частотной модуляцией, аналогичными спектральными составляющими, обусловленными его природной амплитудной модуляцией.
6. На основе предложенной психоакустической модели разработан способ и устройство компандирования спектра речевых сигналов при де-лении мгновенной частоты сигнала и его огибающей и ограничении сверху спектров огибающей огибающей, косинусов фазы сигнала и огибающей с деленными мгновенными частотами. Экспериментально оценена эффективность компандирования спектра речи разработанным способом.
Научная ценность результатов исследования заключается в том, что полученные в ходе работы при выполнении данного диссертационного исследования научные и технические результаты (например, предложенная новая психоакустическая модель слухового восприятия, установленные факты совпадения и возможности незаметной для слуха подмены модулирующих частот природных частотной и амплитудной модуляций речевых сигналов) могут быть использованы при создании новых методов и средств обработки речевых сигналов на основе математической модели модуляционной теории.
Практическая значимость работы:
Проведенные теоретические и экспериментальные исследования позволили разработать эффективный способ и устройство компандирования спектров PC при обработке их природных модулирующих функций. Реали -зация цифровыми средствами разработанного способа компандирования спектра PC в современных системах радиосвязи позволит увеличить эффективность использования радиочастотного ресурса.
Реализация результатов диссертационной работы.
Материалы диссертационной работы использованы:
1. В учебном процессе и НИР кафедры акустики Санкт- Петербургского государственного университета кино и телевидения.
2. В учебном процессе и НИР Института ФСБ России (г. Санкт- Петербург).
3. В НИР ООО «Неватон».
Внедрение результатов диссертационной работы подтверждено соответствующими актами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались в трех сообщениях на научно-технических конференциях Санкт-Петербургского государственного университета кино и телевидения в 2006-2007 годах.
Публикации. Основное содержание диссертации изложено в 10 опубликованных и депонированных статьях, а также одной заявке на «Способ и устройство сжатия спектра речевых сигналов», по которой получен патент РФ на изобретение.
Структура и объем работы. Диссертация содержит введение, основной текст из четырех глав, заключение, список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 193 страницы, включая 57 рисунков на 46 страницах и 2 таблицы на 2 страницах. Список использованной литературы содержит 138 наименований.
Во введении обоснована актуальность темы диссертации, сформулированы проблема, основная цель и задачи исследования, дана характеристика работы, сформулированы основные положения, выносимые на защиту, описана структура диссертации.
В первой главе с позиций теории информации обозначена проблема сжатия спектра речевых сигналов, обоснована необходимость развития модуляционной теории звуковых сигналов, являющейся по своей сути аналоговой теорией. Показано развитие и современное состояние решения проблемы сжатия спектра речевых сигналов с целью телекоммуникаций. Обоснована необходимость проведения исследований по решению обозначенной проблемы на фундаменте альтернативных теоретических представлений. Проведен обзор исследовательских работ, посвященных решению проблемы сжатия спектра речевых сигналов на базе модуляционной теории. Проблема сжатия спектра речевых сигналов обозначена с общих позиций теории модуляции. На основе анализа приведенных работ в конце первой главы делаются выводы о решении задачи компандирования спектра речевых сигналов на основе модуляционной теории и формулируются основные задачи настоящего исследования.
Во второй главе приводятся результаты экспериментального исследования спектральных и информационных свойств огибающей и косинуса фазы речевых сигналов. Установлено, что модулирующие частоты природной амплитудной и природной частотной модуляций речевых сигналов в значительной степени совпадают. Приводятся результаты исследования зависимости разборчивости речи от верхних границ спектров косинуса фазы и огибающей речевых сигналов. Приводятся результаты исследования возможности субъективно незаметной подмены высокочастотных компонент спектра речевого сигнала, обусловленных природной частотной модуляцией, на аналогичные высокочастотные компоненты спектра, обусловленные природной амплитудной модуляцией, при ограничении сверху спектра косинуса фазы сигнала и подъеме уровня высоких частот в спектре огибающей сигнала. По результатам экспериментов делаются выводы о невозможности такой подмены, так как при ограничении спектра косинуса фазы сигнала теряется значительная часть информации не только о модулирующих частотах природной частотной модуляции и девиации мгновен - -ной частоты сигнала, но и о природной несущей частоте сигнала. Делается вывод о нецелесообразности применения ограничения сверху спектров косинус фазы и огибающей речевых сигналов для сокращения полосы частот канала связи, требующейся для трансляции речи. Делается вывод, что для сжатия спектра речевых сигналов при обеспечении коммерческого качества передачи речи (не ниже первого класса качества речи по ГОСТ Р 50840 - 95), необходимо передавать огибающую, и косинус фазы сигнала, а также отдельно сжимать спектры как огибающей, так и косинуса фазы сигнала.
В третьей главе приводится математическая основа модуляционной теории звуковых сигналов. Обосновывается правомерность применения преобразования Гильберта, на использовании которого строится модуляционная теория, по отношению к звуковым сигналам, которые являются относительно широкополосными, тем самым снимаются вопросы относительно теоретической обоснованности модуляционной теории звуковых сигналов. Приводится концепция многоступенного модуляционного анализа-синтеза звуковых сигналов. Обосновывается идея двухсту пенного модуляционного разложения речевых сигналов. Для описания огибающей речевых сигналов в рамках двухступенного модуляционного разложения предложена спектрально-модуляционная модель. На основе спектрально-модуляционной модели огибающей разработан способ и устройство для двухступенного модуляционного разложения речевых сигналов. Приведены структурные схемы, характеристики и описание работы отдельных блоков и узлов разработанного устройства для выполнения двух ступеней модуляционного разложения речевых сигналов.
В четвертой главе экспериментально определена возможность технической реализации второй ступени модуляционного разложения речевого сигнала разработанным в третьей главе способом. Экспериментально определены оптимальные с точки зрения обеспечения качества передачи речи параметры и схема устройства для двухступенного модуляционного - -разложения речевых сигналов. Приведены результаты экспериментальных исследований спектральных и информационных свойств огибающей, косинуса фазы и мгновенной частоты огибающей речевых сигналов. Проведено измерение параметров мгновенной частоты некоторых фонем русского языка, которое позволило уточнить сделанные ранее выводы о свойствах мгновенной частоты речевых сигналов для гласных и согласных фонем русского языка. Для некоторых фонем русского языка, для мужского и женского голосов, впервые измерены основные параметры мгновенной частоты огибающей сигнала, соответствующие ее описанию в классической модели частотной модуляции. Приведены результаты исследования зависимости слоговой разборчивости речи от верхних граничных частот спектров огибающей и косинуса фазы второй ступени модуляционного разложения речевых сигналов. Приведены результаты зависимости слоговой разборчивости речи от верхней граничной частоты спектра косинуса фазы огибающей с деленной мгновенной частотой. На основе полученных результатов предложен способ обратимого сжатия спектра огибающей речевых сигналов, приведены результаты экспериментальных исследований эффективности сжатия спектра огибающей речевых сигналов предложенным способом. Для сжатия спектра речевых сигналов на основе модели модуляционной теории при уменьшении психофизической избыточности предложена новая психоакустическая модель, учитывающая особенности слухового восприятия модулированных по амплитуде и частоте сигналов. Приведены результаты исследования возможности частичной субъективно незаметной подмены природной частотной модуляции на природную амплитудную модуляцию речевого сигнала. Установлено, что при сохранении информации о величине природной несущей частоты речевого сигнала можно незаметно для слуха подменить модулирующие частоты природной частотной модуляции сигнала аналогичными модулирующими частотами природной амплитудной модуляции сигнала. На базе полученных результатов и предложенной психоакустической модели разработан способ и - устройство компандирования спектра речевых сигналов при обработке их модулирующих функций двух ступеней модуляционного разложения. Приведены результаты экспериментального исследования эффективности сокращения полосы частот канала связи, требующейся для передачи речевого сигнала при компандировании его спектра разработанным способом. На разработанные способ и устройство для его реализации получен патент РФ на изобретение.
В заключении кратко излагаются основные научные и практические результаты, полученные в данной работе.
На защиту выносятся следующие положения:
І.Для сжатия спектра речевого сигнала на основе математической модели модуляционной теории необходимо сжимать спектры огибающей и косинуса фазы сигнала.
2. Модулирующие частоты природной амплитудной и природной частотной модуляций речевых сигналов в значительной степени совпадают.
3. Установлена возможность в определенных пределах незаметной для человеческого слуха подмены модулирующих частот природной частотной модуляции на аналогичные модулирующие частоты природной амплитудной модуляции речевых сигналов.