Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Зуев Павел Юрьевич

Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех
<
Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зуев Павел Юрьевич. Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех : диссертация... кандидата технических наук : 05.11.18 Санкт-Петербург, 2007 166 с. РГБ ОД, 61:07-5/3497

Содержание к диссертации

Введение

Глава 1. Известные способы повышения разборчивости речи 15

1.1. Причины снижения разборчивости речи, воспринимаемой на фоне акустических помех 15

1.1.1. Маскировка в частотной области 16

1.1.2. Маскировка во временной области 20

1.2. Повышение разборчивости речи путем увеличения уровня полезного сигнала 22

1.3. Повышение разборчивости речи путем снижения уровня помехи 23

1.3.1. Аналоговые шумоподавители 25

1.3.2. Цифровые шумоподавители 44

1.4. Выводы по главе 1 50

Глава 2. Модуляционные преобразования звуковых сигналов 51

2.1. Выбор теоретической базы разработанного метода сжатия части частотного диапазона речевого сигнала для повышения его разборчивости на фоне помех 51

2.2. Теоретические основы модуляционных преобразований звуковых сигналов 55

2.3. Применение модуляционных преобразований звуковых сигналов 62

2.4. Изменение свойств звуковых сигналов при делении мгновенной частоты 67

2.5. Выводы по главе 2 80

Глава 3. Разработка метода и технических средств сжатия части частотного диапазона речевого сигнала для повышения его разборчивости на фоне помех 82

3.1. Разработанный метод сжатия части частотного диапазона речевого сигнала 82

3.2. Известные свойства речи и слуха человека 86

3.2.1. Виды звуковых колебаний, возбуждаемых в речевом тракте человека 87

3.2.2. Описание свойств звуков речи человека с позиций спектральной теории представления сигналов 90

3.2.3. Описание свойств звуков речи человека с позиций модуляционной теории представления сигналов 94

3.2.4. Выводы 96

3.3. Технические средства сжатия части частотного диапазона речевого сигнала 97

3.3.1. Структурная схема точного аналогового нелинейного частотного компрессора 100

3.3.2. Фильтры 103

3.3.3. Генератор 104

3.3.4. Сумматор мгновенных частот 104

3.3.4.1. Фазовращатель звукового сигнала 105

3.3.4.2. Фазовращатель сигнала генератора 107

3.3.4.3. Перемножители сигналов 107

3.3.4.4. Вычитатель сигналов 107

3.3.5. Точный аналоговый делитель мгновенной частоты 108

3.3.5.1 Сумматор мгновенных частот 108

3.3.5.2 Генератор 110

3.3.5.3 Амплитудный ограничитель 110

3.3.5.4 Вычитатели мгновенных частот 110

3.3.6. Альтернативная схема точного аналогового делителя мгновенной частоты 111

3.3.6.1 Сумматор мгновенных частот 115

3.3.6.2 Амплитудный ограничитель 115

3.3.6.3 Вычитатели мгновенных частот 115

3.3.6.4 Генератор 116

3.3.6.5 Амплитудный детектор и фильтр низких частот 116

3.3.6.6 Перемножитель сигналов 118

3.3.7. Сумматор сигналов 118

3.4. Выводы по главе 3 119

Глава 4. Результаты исследований разборчивости речевого сигнала с частично компрессированным частотным диапазоном 121

4.1. Методы оценки разборчивости речи 121

4.1.1. Субъективные методы оценки разборчивости речи 121

4.1.2. Объективные методы оценки разборчивости речи 125

4.1.3. Выводы 131

4.2. Результаты артикуляционных испытаний точного аналогового нелинейного частотного компрессора 133

4.2.1. Определение оптимальных параметров нелинейной частотной компрессии речевого сигнала 133

4.2.2. Исследование эффективности применения точного аналогового нелинейного частотного компрессора для повышения разборчивости речи, воспринимаемой на фоне акустических помех 145

4.3. Исследование зависимости разборчивости речевого сигнала от ограничения спектра частот огибающей 147

4.4. Выводы по главе 4 154

Заключение 156

Библиографический список использованной литературы 158

Приложение

Введение к работе

Понятие помех в общем смысле включает в себя и понятие шумов, иногда эти понятия различают, поскольку шумы составляют наиболее обширный класс помех [8, с. 100]. Известно довольно большое количество разновидностей помех с самыми разнообразными свойствами, в частности, по способу воздействия на речевые сигналы все разновидности помех можно разделить на две группы:

1). Радиотехнические помехи. Возникают в аппаратуре и каналах звукопередачи под воздействием тепловых шумов, электромагнитных наводок и т.п.

2). Акустические помехи. Их источниками служат звуки, создаваемые природными явлениями, работающими механизмами, бытовой техникой и транспортными средствами, кроме этого источниками акустических помех являются удаленные голоса посторонних людей, играющая музыка, звуки «эха» и реверберации в помещениях [1].

В данном диссертационном исследовании рассматриваются методы обработки речевых сигналов, которые позволяют повысить разборчивость речи, воспринимаемой на фоне акустических помех.

Актуальность исследования. Общеизвестно, что восприятие речи на фоне акустических помех сопровождается снижением ее разборчивости. Вместе с тем существуют такие сферы деятельности человека, в которых восприятие речи, переданной посредством телекоммуникационных систем, по объективным причинам происходит в условиях высокого уровня акустических помех. Причем часто от достоверности и своевременности получения информации, содержащейся в речевом сигнале, зависят жизнь и здоровье людей, а также сохранность материальных ценностей. Например, организация оповещения и передача речевых команд управления на водном, наземном и воздушном транспорте; на промышленных предприяти-

ях, где высокий уровень шумов является характерной особенностью производства; при проведении спасательных операций в зонах стихийных бедствий; при проведении антитеррористических и войсковых операций и т.п. В обозначенных сферах деятельности человека разборчивость речи определяется не только качеством канала звуко-передачи, в значительной степени разборчивость зависит от уровня и спектрального состава акустических помех, мешающих прослушиванию полезного речевого сигнала. Поэтому проблема повышения разборчивости речи, воспринимаемой на фоне акустических помех не потеряла своей актуальности и по сегодняшний день.

Один из очевидных путей решения названной проблемы заключается в повышении уровня полезного сигнала, передаваемого по каналу звукопередачи, и таким образом, повышении отношения сигнал/шум в прослушиваемом сигнале. Однако этот путь имеет ограниченные возможности, поскольку увеличение уровня речевого сигнала сопровождается усилением эффекта прямой и обратной маскировки согласных фонем гласными. В итоге, увеличение уровня полезного сигнала позволяет повысить разборчивость речи только до определенного порога, после чего происходит снижение ее разборчивости. В настоящее время для повышения разборчивости речи, воспринимаемой на фоне помех различной природы происхождения, широко применяются различные электронные (как аналоговые, так и цифровые) шумоподавители. Вместе с тем, подобные устройства не позволяют избавиться от негативного влияния на разборчивость речи тех акустических помех, которые воздействуют на слушателя одновременно с полезным речевым сигналом. Для борьбы с этой разновидностью помех могут быть использованы индивидуальные средства защиты от шума (наушники, шлемофоны и т.п.). Однако область их применения ограничена, поскольку в ряде случаев отсутствует возможность обеспечить всех людей в зоне оповещения индивидуальными средствами защиты от шума (на-

пример, на вокзалах, в аэропортах и т.п.). Кроме этого, полная изоляция от звуков окружающего мира, например, водителя транспортного средства, может привести к запаздыванию, либо к полному отсутствию его реакции на возникшую в ходе движения опасность.

Таким образом, разработка нового метода обработки речевых сигналов, позволяющего в реальном масштабе времени повысить разборчивость речи, воспринимаемой на фоне акустических помех, является актуальной проблемой для различных систем служебной связи и речевого оповещения. Одним из путей решения указанной проблемы может служить использование сжатия части частотного диапазона речевого сигнала путем точного деления его мгновенной частоты.

Объект исследования: обработка речевых сигналов.

Предмет исследования: метод и технические средства сжатия частотного диапазона речи путем нелинейной безинерционной обработки ее мгновенной частоты без необходимости выделять эту модулирующую функцию в виде отдельного субсигнала. Исследование зависимости разборчивости речи от параметров компрессирования, уровня речевого сигнала и уровня акустической помехи в точке прослушивания сообщения.

Основная цель исследования заключается в разработке нового метода и технических средств частотного компрессирования речевых сигналов путем нелинейной обработки их мгновенной частоты для повышения разборчивости речи, воспринимаемой на фоне акустических помех.

В соответствии с основной целью и предметом исследования определены следующие задачи исследования:

- теоретически и экспериментально исследовать пригодность нового метода нелинейной обработки мгновенной частоты речевых сигналов для повышения разборчивости речи, воспринимаемой на

фоне акустических помех;

-теоретически и экспериментально проработать возможные варианты и пути построения точного нелинейного частотного компрессора с целью обеспечить его практическую реализацию;

-экспериментально определить влияние нелинейной обработки мгновенной частоты на восприятие компрессированных речевых сигналов на фоне акустических помех;

- обеспечить внедрение полученных результатов.

Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в области передачи и преобразования аналоговых сигналов, а также физиологии слуха и речи человека: Д. Габора, П. Марку, Ж. Дагэ, Г.И. Цемеля, А.А. Харкевича, А.С. Винницкого, В.И. Тихонова, Б.Р. Левина, Д.В. Агеева, Ю.М. Ишуткина, В.К. Уварова, Н.Б. Покровского, М.А. Сапожкова, Л.А. Чистович, Э. Цвикера, Р. Фелькеллера, И.А. Алдошиной.

Методы исследования. Во время проведения исследования применялись методы теоретического анализа (математического, логического, системного, моделирования, обобщения опыта), спектрального анализа (экспериментального и теоретического), артикуляционных измерений и экспертных оценок.

Информационная база исследования. В качестве информационных источников проведенного исследования использованы:

- научные источники в виде: данных и сведений из них, жур
нальных статей, научных докладов и отчетов, материалов научных
конференций;

-официальные документы в виде ГОСТов и технических описаний на устройства обработки звуковых сигналов;

-результаты собственных расчетов и проведенных экспериментов.

Научная новизна исследования:

  1. Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех. Отличие разработанного метода состоит в том, что разборчивость повышается за счет сжатия части частотного диапазона речевых сигналов путем точного аналогового деления их мгновенной частоты без выделения этой модулирующей функции в виде отдельного субсигнала.

  2. Разработан новый способ точного сжатия части диапазона изменения мгновенной частоты речевых сигналов, позволяющий в реальном масштабе времени сжимать необходимую часть частотного диапазона речевых сигналов.

  3. Предложено оценивать полезность и эффективность преобразования речевых сигналов в нелинейном частотном компрессоре введением новой характеристики, а именно: эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи и показывает субъективное увеличение соотношения сигнал/шум при восприятии речи на фоне акустических помех.

  4. Установлены зависимости эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и величины верхней граничной частоты полосы пропускания канала звукопередачи. С помощью установленных зависимостей определены оптимальные (по критерию максимального повышения разборчивости речи) коэффициент деления мгновенной частоты, частота порога компрессии и верхняя граничная частота полосы пропускания канала звукопередачи, при которых достигается максимальное увеличение эквивалентного отношения сигнал/шум в прослушиваемом на фоне акустических помех речевом сигнале, а также зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования.

Не-

обоснованность и достоверность полученных результатов подтверждается:

  1. Согласованностью теоретических выводов с результатами их экспериментальной проверки.

  2. Использованием традиционных методов измерений.

  3. Соответствием полученных результатов, логически аргументированным ожиданиям.

4.0бщепринятой статистической обработкой результатов измерений.

  1. Патентом РФ на изобретенные способ точного аналогового сжатия части частотного диапазона звуковых сигналов и устройство для его реализации.

  2. Апробацией результатов работы.

Научная ценность результатов исследования:

  1. Разработан новый подход к повышению разборчивости речи в условиях акустических помех.

  2. Полученные в диссертации зависимости могут служить научным фундаментом для широкого практического использования результатов работы, например, для разработки систем речевого оповещения с автоматическим включением частотного компрессирования в канале звукопередачи при превышении акустическими помехами порога шумности в зоне прослушивания сообщений.

Практическая значимость и реализация результатов работы:

1. Теоретическое решение задачи точного сжатия части частотного диапазона звуковых сигналов позволило создать работоспособный нелинейный частотный компрессор. Новое решение позволило устранить известные недостатки, свойственные методу сжатия частотного диапазона звуковых сигналов путем выделения и обработки их мгновенной частоты в виде отдельного субсигнала.

  1. Частотно компрессированные с помощью созданного нелинейного частотного компрессора речевые сигналы можно прослушивать, не восстанавливая масштаб мгновенной частоты, что подтверждено результатами артикуляционных измерений.

  2. Установлена зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования. Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум.

  3. Решение задачи точного сжатия части частотного диапазона звуковых сигналов получено впервые и позволяет по аналогии решать и другие задачи по обработке частотного диапазона звуковых сигналов (например, экспандирование части частотного диапазона).

  4. Материалы диссертационной работы используются в учебном процессе Санкт-Петербургского государственного университета кино и телевидения, а также Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С.-Петербург). Внедрение результатов диссертационной работы подтверждено соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на научно-технических конференциях СПбГУКиТ в 2004-2007 годах.

Публикации. Основное содержание диссертации изложено в 5 опубликованных и депонированных статьях, а также в одной заявке на изобретение, по которой получен патент РФ на «Способ и устройство точного аналогового сжатия части частотного диапазона звуковых сигналов».

Структура и объем работы. Диссертация содержит введение, основной текст из четырех глав, заключение, библиографических список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 166 страниц, включая 37 рисунков на 32 страницах и 4 таблицы на 2 страницах. Список литературы содержит 68 наименований.

В первой главе проведен анализ известных на сегодняшний день способов и технических средств, с помощью которых повышается разборчивость речи, воспринимаемой на фоне акустических помех. По результатам анализа выделены основные пути решения проблемы повышения разборчивости речи, воспринимаемой на фоне акустических помех. В качестве направления данного диссертационного исследования выбрано изучение возможностей частотного компрессирования речевых сигналов путем нелинейной обработки их мгновенной частоты для повышения разборчивости речи, воспринимаемой на фоне акустических помех.

Во второй главе приводится обоснование выбора модуляционной теории звуковых сигналов в качестве теоретической базы для решения поставленных в данной диссертации задач. Рассматриваются теоретические основы, а также применение модуляционных преобразований звуковых сигналов. В качестве основы для разрабатываемого метода и технических средств частотного компрессирования речевых сигналов, которые повышают разборчивость речи, воспринимаемой на фоне акустических помех, выбрано точное деление мгновенной частоты. Деление мгновенной частоты осуществляется путем преобразования самого исходного звукового сигнала без выделения этой модулирующей функции в виде отдельного субсигнала. Проведен математический анализ изменений свойств звуковых сигналов при делении их мгновенной частоты.

В третьей главе в качестве одного из вариантов решения проблемы повышения разборчивости речи, воспринимаемой на фоне акустических помех, предложен метод нелинейной обработки мгновенной частоты речевого сигнала на передающей стороне канала связи без восстановления ее масштаба на приемной стороне канала. При этом сжатию подвергается только верхняя часть частотного диапазона исходного сигнала. Основанием для предложения такого метода обработки речевого сигнала служат результаты исследований свойств речи и слуха человека. Для реализации предложенного метода сжатия объема речевого сигнала разработаны технические средства, позволяющие осуществлять точное частичное сжатие частотного диапазона речевого сигнала. На разработанные способ и одно из устройств для его реализации получен патент РФ. Приведены структурные схемы, характеристики и описания порядка работы отдельных блоков и узлов разработанных технических средств.

В четвертой главе проведен анализ известных методов оценки разборчивости речи, по результатам анализа принято решение в ходе экспериментальных исследований, для оценки влияния сжатия части частотного диапазона речевого сигнала на его разборчивость на фоне акустических помех, использовать метод субъективных экспертных оценок (артикуляционные измерения слоговой разборчивости). Предложено оценивать эффективность преобразования речевых сигналов в нелинейном частотном компрессоре введением новой характеристики, а именно: эквивалентного отношения сигнал/шум. Данная характеристика определяется по разборчивости речи и иллюстрирует субъективное повышение отношения сигнал/шум при прослушивании компрессированного речевого сигнала на фоне акустических помех. По результатам измерений получены новые зависимости слоговой разборчивости и эквивалентного

отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопередачи. Полученные зависимости иллюстрируются с помощью графиков, по которым определены оптимальные значения частоты порога компрессии и коэффициента деления мгновенной частоты в надпороговой области, при которых эквивалентное отношение сигнал/шум повышается максимально. В виде таблицы и графика приведены результаты артикуляционных испытаний разработанного нелинейного частотного компрессора при оптимальных параметрах компрессии и различных соотношениях уровней полезного речевого сигнала и акустической помехи. Кроме этого в главе 4 приведены результаты исследований влияния ограничения сверху ширины полосы частот спектра огибающей речевого сигнала на разборчивость русской речи.

В заключении кратко излагаются основные научные и практические результаты, полученные в данной работе.

На защиту выносятся следующие положения:

  1. Разборчивость речи, воспринимаемой на фоне акустических помех, можно повысить путем компрессирования верхней части (выше 4 кГц) частотного диапазона речевого сигнала.

  2. Сжимать верхнюю часть частотного диапазона речевого сигнала следует делением мгновенной частоты, транспонированной вверх по частотному диапазону соответствующей части речевого сигнала.

  1. Нелинейное частотное компрессирование речевых сигналов, воспринимаемых на фоне акустических помех, оптимальное по критерию максимального увеличения разборчивости речи, создает ощущение большей величины отношения сигнал/шум, чем имеет место в действительности.

Повышение разборчивости речи путем увеличения уровня полезного сигнала

Основной целью данной работы является разработка метода и технических средств, позволяющих повысить разборчивость речи, воспринимаемой на фоне акустических помех. Поскольку степень слуховой маскировки существенно зависит от соотношения уровней маскирующего и маскируемого звуковых сигналов, то увеличение отношения сигнал/шум в прослушиваемой смеси полезного речевого сигнала и акустической помехи приведет к повышению разборчивости речи. Поэтому вначале данного диссертационного исследования был проведен анализ [10, 41] известных на сегодняшний день способов и технических средств, позволяющих увеличить отношение сигнал/шум при передаче звуковых сигналов по каналам связи и записи-воспроизведения. Анализ проводился с точки зрения эффективности их использования для повышения разборчивости речи, воспринимаемой на фоне акустических помех.

Один из очевидных путей решения названной проблемы заключается в повышении уровня полезного сигнала, передаваемого по каналу звукопередачи, и таким образом, повышении отношения речевой сигнал/акустическая помеха при прослушивании сообщения. Однако этот путь имеет ограниченные возможности, поскольку увеличение уровня речевого сигнала сопровождается усилением эффекта послемаскировки и (особенно) предмаскировки согласных фонем гласными. В итоге, увеличение уровня полезного речевого сигнала позволяет повысить его разборчивость только до определенного порога, после чего происходит снижение разборчивости речи.

Результирующие потери восприятия при высоких уровнях речи определены экспериментально [52, с. 214], путем измерения разборчивости при различных уровнях речи, различных частотных ограничениях спектра и различных уровнях шума (акустической помехи). На рис. 1.4 приведено семейство кривых, иллюстрирующих зависимость коэффициента восприятия Р от эффективного уровня ощущения формант при различных уровнях шума, параметром кривых является суммарный уровень шума Nu,, дБ.

Анализируя зависимости, изображенные на рис. 1.4, можно сделать вывод о том, что чем выше уровень акустической помехи, тем при меньших уровнях ощущения речи над порогом маскировки начинают проявляться потери восприятия за счет оглушения слуха человека громкой речью.

В настоящее время для повышения разборчивости речи, воспринимаемой на фоне помех различной природы происхождения, путем снижения уровня помех широко применяются различные электронные (как аналоговые, так и цифровые) шумоподавители.

Несмотря на бурное развитие цифровой аппаратуры обработки звуковых сигналов, которая будет рассмотрена отдельно, на сегодняшний день не потеряли своей актуальности и широко применяются на практике ряд аналоговых шумоподавителей. Рассмотрим целесообразность применения данных устройств для повышения разборчивости речевого сигнала.

Одними из первых были разработаны и применяются до сих пор на практике пороговые шумоподавители. Принцип их работы состоит в том, что в паузах полезного звукового сигнала, когда сильнее всего слышны шумы, автоматически уменьшается коэффициент усиления канала передачи, и тем самым достигается эффект подавления шумов. Достоинством пороговых шумоподавителей является простота и возможность использования на любом этапе зву-копередачи.

Выбор величины порога срабатывания (уровень входного сигнала), а также степени шумопонижения (ослабления выходного сигнала по отношению к входному) существенно влияет на качество получаемого после обработки звукового сигнала. Необходимо найти компромисс между эффективностью шумопонижения и возникающими искажениями звукового сигнала. Оптимальное значение порога должно быть ниже уровня слабых звуков полезного сигнала с одной стороны, и выше уровня шумов на входе шумоподави-теля, с другой. В свою очередь оптимальное значение степени шумопонижения находится в промежутке между единицей (шумопонижения нет) и значениями, когда на слух начинают ощущаться срезы начала и конца звуков. В итоге получается невысокая эффективность шумопонижения - 5ч-8 дБ [2]. И, конечно, пороговый шу-моподавитель не устранит те акустические помехи, которые при сутствуют во входном сигнале и превышают величину порога шумопонижения.

Кроме этого, если входной сигнал плохо маскирует шум, то возможно появление эффекта «модуляции шума» (когда уровень шума в результате внешнего воздействия на звуковой сигнал начинает меняться в пределах одной фонограммы). В случае использования порогового шумоподавителя возможно появление и исчезновение шума с частотой следования пауз, что негативно скажется на разборчивости речевого сигнала.

На проблему «модуляции шума» хотелось бы обратить особое внимание, поскольку это явление практически не происходит в природе. Например, шум горной реки. Находясь рядом с ней, человек быстро привыкает к звуку бурлящей воды и замечает только его значительные изменения. «...Есть теория, что такая особенность человеческого слуха сформировалась вследствие эволюционного развития - в подсознании зафиксировано, что внезапные изменения окружающих звуков могут предвещать опасность...» [3]. Таким образом, любые незначительные изменения в присутствующем шуме, моментально воспринимаются человеческим слухом как что-то чужеродное. При прослушивании речевого сигнала эти изменения будут раздражать слушателя, отвлекать его внимание, что негативно скажется на разборчивости речи.

На более высоком качественном уровне проблема шумоочи-стки звукового сигнала была решена с появлением устройств динамической фильтрации [20] или DNR (от англ. Dynamic Noise Reduction - динамическое шумоподавление), которые аналогично пороговым шумоподавителям меняют свой коэффициент передачи, но не для всей полосы пропускания, а только для ее части. В научно-популярной литературе динамические фильтры чаще называют денойзерами [4], видимо по аналогии с названием шумоподавителя DN (De-Noiser) фирмы «Kenwood» [20].

На сегодняшний день существует довольно много вариантов построения динамических фильтров, которые можно разделить на три основные группы.

Динамические фильтры первой группы представляют собой набор из нескольких соединенных параллельно пороговых шумо-подавителей. Каждый из шумоподавителей работает в своем частотном диапазоне независимо от остальных, что позволяет снизить эффект «модуляции шума». По такому принципу построены четырехполосный шумоподавитель Ю.М. Орлова, а также девятиполосный шумоподавитель А.С. Богатырева и В.И. Медведева [20].

Динамические фильтры второй группы построены с учетом процесса звукообразования в музыкальных инструментах. Было установлено, что с уменьшением громкости, относительное содержание высокочастотных составляющих в музыкальном сигнале уменьшается. Это явление связано с тем, что при изменении громкости звучания музыкальных инструментов изменяется соотношение между уровнями основного тона и гармоническими составляющими (обертонами). Основные тоны для большинства инструментов лежат в области частот ниже 4,5 кГц [20, с. 10], «поэтому ограничение полосы пропускания канала во время воспроизведения тихих пассажей (а также в паузах звучания) лишь незначительно ухудшит качество звучания, но заметно ослабит характерные для звукозаписи высокочастотные шумы» [20, с. 10-11].

По такому принципу построены шумоподавитель X. Скотта и шумоподавитель DNL (Dynamic Noise Limiter - динамический ограничитель шума) фирмы «Philips» [20].

Теоретические основы модуляционных преобразований звуковых сигналов

С появлением радиотелефонии в 20-х годах прошлого столетия внимание ученых и инженеров, работающих в сфере телекоммуникаций, было привлечено к модуляциям радиотехнических сигналов [11]. Наибольший интерес вызывала проблема частотного уплотнения каналов передачи звуковых сигналов. Попытки решить эту проблему предпринимались многими специалистами разных стран. Однако теоретическая база, позволившая существенно продвинуться в этом направлении, появилась только в 1945 году, когда Д. Габор опубликовал созданную им теорию аналитического сигнала [21]. В своей работе Д. Габор предложил новый подход к геометрической трактовке сигнала и впервые с математической точки зрения дал четкие определения огибающей и мгновенной частоты для пары сигналов (s(t), s(t)}. Где s(t) - исходный (в нашем случае звуковой) сигнал, a s(t) - опорный сигнал, полученный из исходного с помощью преобразования Гильберта (сопряженный с ним по Гильберту) [22, с. 43-45]. Именно для этой пары сигналов можно однозначно определить модулирующие функции исходного звукового сигнала. Д. Габор рассматривал любой произвольный сигнал в виде вектора в неподвижной декартовой системе координат на комплексной плоскости (см. рис. 2.1). Проекции вектора объединяются в виде комплексного сигнала который также называют аналитическим [33, с. 6]. В этом случае исходный звуковой сигнал s(t) является проекцией сигнального вектора на действительную ось (Re, на рис. 2.1). где S(t) - длина сигнального вектора, которую Д. Габор назвал огибающей или мгновенной амплитудой пары сигналов (s(t), s(t)}, а (p(t) - текущая фаза сигнала. Сигнал s(t), полученный из исходного с помощью преобразования Гильберта, является проекцией сигнального вектора на мнимую ось (Im, на рис. 2.1).

Тогда Уместно напомнить, что для периодических сигналов, заданных на промежутке [-ТЕ, ТЕ], прямое преобразование Гильберта записывается в виде: где 0 = 2TEt/(t2 - tj) - тс и v/ - текущие фазы [11, с. 11]. Обратное преобразование Гильберта для периодических сигналов имеет вид [22, с. 43]: Для непериодических сигналов, заданных на неограниченном промежутке времени, используется преобразование Гильберта с ядром Коши [11, с. 11]: где интеграл следует понимать в смысле главного значения. Обратное преобразование Гильберта имеет вид [22, с. 43]: Пара сигналов, сопряженных по Гильберту, удовлетворяет условию ортогональности [11, с. 12-13], т.е.: где T - временное окно, в котором ведется интегрирование. При этом не требуется накладывать каких-либо дополнительных ограничений на исходный и опорный сигналы, например на ширину частотного диапазона. Для пары сигналов {s(t), s(t)} известны понятия модулирующих функций: 1). Как уже упоминалось выше, огибающей S(t) пары сигналов {s(t), s(t)} называют неотрицательную функцию времени, которая соответствует длине сигнального вектора в каждый момент времени. С помощью выражений (2.2) и (2.3) для проекций сигнального вектора на оси координат получаем: Определяемые с помощью формул (2.9-2.11) субсигналы S(t), (p(t) и co(t) получили название модулирующих функций пары сигналов {s(t), s(t)} и нашли широкое применение при описании различных способов преобразования узкополосных сигналов [11, с. 13]. В частности, в конце 40-х и начале 50-х годов прошлого ве ка, как за рубежом [24], так и в нашей стране [26-29], активно проводились исследования возможности выделения и преобразования мгновенной частоты звуковых сигналов. Изучалась в первую очередь возможность сжатия занимаемого звуковыми сигналами частотного диапазона.

Однако способа, позволяющего восстанавливать исходный сигнал с приемлемым качеством звучания, найдено не было, и работы в этом направлении были прекращены. Развитие теория Д. Габора получила во второй половине семидесятых годов прошлого века, благодаря проводимым под руководством Ю.М. Ишуткина работам в Ленинградском институте киноинженеров в новом для звукотехники направлении, которое было названо «Модуляционный анализ-синтез звуковых сигналов». Ю.М. Ишуткиным [30, 31] было предложено обобщить понятия модулирующих функций, введенных Д. Габором (2.9-2.11), так как для их определения требуется выполнение только одного условия - ортогональности исходного и опорного сигналов (2.8). Следовательно, для любого произвольного сигнала Si(t), ортогонального с исходным s(t), можно определить модулирующие функции пары сигналов {s(t), Si(t)}. При этом не требуется накладывать каких-либо дополнительных ограничений на исходный и опорный сигналы, например на ширину частотного диапазона.

Описание свойств звуков речи человека с позиций спектральной теории представления сигналов

Речевой тракт при детальном рассмотрении представляет собой ряд последовательно расположенных воздушных полостей сложной конфигурации, которая может меняться в процессе образования звуков речи. В этих полостях при возбуждении звуковых колебаний создается эффект акустического резонанса, что придает каждой фонеме ее характерное звучание. Говоря «техническим языком», речевой тракт является сложным частотным фильтром с переменными параметрами.

При рассмотрении спектров отдельных фонем можно выделить ряд областей со спектральными максимумами, соответствующими набору резонансных частот речевого тракта. Такие области спектров фонем принято называть формантами, они характеризуются положением на оси частот, уровнями и шириной. Число формант и их характеристики зависят от формы полостей, а также от общей протяженности речевого тракта человека. Так у взрослого мужчины число формант в отдельных фонемах может достигать семи [51]. Тем не менее, в спектрах одних и тех же фонем, произнесенных разными людьми, положение и ширина соответствующих формант совпадают.

В рамках исследований свойств речи человека проводился ряд экспериментов с целью выявить признаки, по которым слуховой аппарат человека отличает одну фонему от другой. Данные этих исследований подтверждают, что для различения двух гласных звуков слуховой аппарат человека использует не весь спектр сигнала, а только положение спектрального максимума на определенных участках шкалы частот. Например, для идентификации фонем «и» и «э» слуховым аппаратом человека используется низкочастотная область спектра речевого сигнала, а для различения фонем «у», «ю» и «и», используется положение спектрального максимума, в области частот от 1600 до 3000 Гц [51].

Похожие признаки используются и для идентификации некоторых согласных. Например, в работах Шуплякова P.M. [51] было доказано, что для различения фонем «с» и «ш» слуховой аппарат человека определяет частоту спектрального максимума в области частот от 1100 до 1600 Гц. И это несмотря на существенное отличие формы спектров этих фонем друг от друга.

Заслуживают внимания выводы, сделанные из результатов исследований разрешающей способности слухового аппарата человека выделять спектральные максимумы в фонемах: в области низких частот (менее 3 кГц) число спектральных максимумов, выделяемых слухом в гласном звуке, может быть больше числа формант; в высокочастотной области спектра, близко расположенные форманты воспринимаются как один спектральный максимум [51].

Таким образом, слуховой аппарат человека обладает невысокой разрешающей способностью в области частот выше 3 кГц

Возвращаясь к вопросу идентификации фонем, следует отметить, что речь человека отнюдь не состоит из отдельно произносимых фонем. Наиболее крупным ее элементом можно считать фразу, фразы состоят из слов, слова из слогов, а слоги в свою очередь из фонем. Фонемы изолированно, за исключением небольшого количества предлогов и междометий, не существуют. В ходе различных исследований установлена связь между фонемами в слогах. Иначе говоря, вероятность появления отдельно взятого звука речи зависит как от предыдущего, так и от последующего звука. Также замечены определенные корреляционные связи между более удаленными фонемами, например, внутри слов [8].

Указанные взаимодействия между фонемами приводят к изменению во времени значения частоты основного тона голоса человека, а также к изменению положения формант на оси частот в отдельно взятых фонемах. Данные исследований, приведенные в [51], подтверждают, что слуховой аппарат человека регистрирует указанные изменения основного тона голоса, а так же изменения в положении первых двух (иногда трех) формант, и по характеру этих изменений идентифицирует произнесенные фонемы.

Результаты исследований свойств речи человека в рамках спектральной теории представления сигналов позволяют сделать следующие выводы [65]: для идентификации голоса говорящего, слуховой аппарат человека пользуется высотой основного тона, а также определением временных характеристик речи - интонации, ритма и т.п.; для идентификации фонем слуховой аппарат человека использует определенные признаки первых двух (реже трех) формант - положение спектрального максимума на оси частот и характер изменения его положения во времени, а так же характер изменения основного тона голоса; частота основного тона голоса человека не превышает значения 400 Гц; частоты первых двух формант основных гласных фонем русского языка, приведенные в таблице 3.1 [8], не превышают значения 2,5 кГц; наибольшую ширину спектра имеют фонемы, образованные шумовым способом, однако и их две первые форманты занимают область частот до 3 кГц.

Таким образом, с точки зрения спектральной теории представления сигналов, какие-либо изменения в спектре речевого сигнала в области частот выше 3 кГц не должны негативно сказаться на его разборчивости.

Как уже отмечалось в главе 2, человеческий слух реагирует не только на спектральный состав звукового сигнала, но и на изменение его мгновенной частоты. Поэтому ниже приведены данные исследований свойств речи человека с точки зрения модуляционной теории звуковых сигналов.

Определение оптимальных параметров нелинейной частотной компрессии речевого сигнала

Разборчивость речи измеряется, как правило, в процентах, по количеству правильно идентифицированных ее элементов. Конечный результат оценки разборчивости зависит от следующих факторов [61]: какие элементы речи выбраны для прослушивания экспертами - фразы, слова, слоги или звуки, соответственно различают фразовую, словесную, слоговую и фонемную разборчивости; состав экспертов и степень их тренированности; качество голоса диктора, его дикция, интонация и т.п.; -акустические условия проведения измерений (размер и форма помещения, уровень шумов и т.п.); методика проведения измерений и методы статистической обработки результатов.

Правила проведения субъективных измерений разборчивости речи (артикуляционные испытания) регламентируются различными отечественными и международными стандартами, например, ГОСТ Р 50840-95 «Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости», ГОСТ 25902-83. «Зрительные залы. Методы определения разборчивости речи» [67], ГОСТ 51061-97 «Параметры качества речи и методы ее измерения», ISO/TR4870, IEC 268-16. А также различными национальными стандартами, например, ANSI S3.2-1989 - «Method for measurement the Intelligibility of Speech Over Communication Systems» («Метод определения разборчивости речи в системах связи») [61].

В регламентированных стандартами правилах обязательно указывается, какой испытательный материал необходимо использовать для проведения измерений разборчивости речи. Как правило, это специально составленные таблицы фраз, слов или слогов, которые наиболее полно отражают статистику данного языка. Эти таблицы могут зачитываться диктором непосредственно во время проведения измерений, либо записываются заранее на различные носители, а затем воспроизводятся с помощью акустической системы. Оба варианта могут быть использованы при оценке акустического качества помещений, качества звукозаписывающей и звуковоспроизводящей аппаратуры, систем связи и т.п.

Как уже упоминалось, существуют фонемная, слоговая, словесная и фразовая разборчивости речи. При проведении артикуляционных испытаний одной и той же, например, системы связи, каждый вид разборчивости будет характеризоваться разными числовыми значениями. Это связано с тем, что процент правильных идентификаций предсказуемого сообщения всегда выше, чем у непредсказуемого. Степень предсказуемости при прослушивании фразы всегда будет выше, чем для отдельных слов или слогов, поскольку если часть фразы была плохо «расслышана», то о ее содержании можно догадаться по смыслу. На рис. 4.1а показана зависимость фразовой разборчивости от словесной, а на рис. 4.16 - зависимость словесной разборчивости от слоговой [61].

В отечественных стандартах по оценке качества передачи речи по каналам связи (ГОСТ Р 50840-95 [32] и ГОСТ 51061-97 [63]) предлагается проводить измерение слоговой разборчивости речи методом артикуляционных испытаний, а также измерение фразовой разборчивости при нормальном и ускоренном темпах произнесения. Наиболее предпочтительной является оценка слоговой разборчивости, поскольку таблицы слогов обладают меньшей запоминаемостью и большей разрешающей способностью [8], а результаты измерений удобнее обрабатывать.

Во время проведения артикуляционных испытаний слоговые таблицы зачитываются в определенном ритме специально подобранными дикторами, которые обладают хорошей дикцией и слухом. Количество дикторов должно быть не менее четырех, количество экспертов по ГОСТ Р 50840-95 [32] и ГОСТ 51061-97 [63] должно составлять 4-5 человек. Желательно, чтобы эксперты не были знакомы с дикторами, иначе измеренная разборчивость окажется выше за счет узнавания интонации, дикции и т.п.

Отношение числа правильно идентифицированных слогов из слоговой таблицы к общему количеству озвученных, усредненное по всем экспертам, будет представлять собой процент слоговой разборчивости. При необходимости с помощью соответствующих кривых (см. рис. 4.1) по слоговой разборчивости можно определить разборчивость слов и фраз. Например, при слоговой разборчивости 40-50% число правильно понятых фраз составит 90%, а при слого вой разборчивости 70%, число правильно понятых фраз приблизится к 100% [61].

Международными стандартами (например, ANSI S3.2-89) предлагается использовать для проведения артикуляционных испытаний пять дикторов и пять экспертов, но процедура предъявления речевого материала значительно сложнее [61].

Проведение субъективных измерений разборчивости речи дает наиболее достоверные результаты. Вместе с тем организация субъективных измерений является сложным, длительным и довольно дорогостоящим процессом, поэтому на сегодняшний день большое внимание уделяется созданию объективных методов оценки разборчивости. Это позволяет внедрять в практику новые достаточно эффективные компьютерные методы расчета разборчивости речи в различных условиях.

Как уже упоминалось выше, для количественной оценки разборчивости речи наряду с субъективными методами, широко используются и объективные методы оценки разборчивости речи. К ним относятся [62]: - AI (articulation Index) - индекс артикуляции; -SII (speech intelligibility index) - индекс разборчивости речи; - %Alcons (percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; - STI (speech transmission index) - индекс передачи речи; - RASTI (rapid speech transmission index) - быстрый индекс передачи речи. Перечисленные методы оценки разборчивости речи можно разделить на две основные группы по реализованным в них принципам проведения расчетов характеристик речевого сигнала.

Первая группа методов базируется на предположении, что результирующую разборчивость речи можно определить по сумме вкладов ее разборчивости в отдельных частотных полосах. Величина вклада зависит от отношения сигнал/шум в каждой полосе. К этой группе относятся следующие объективные методы определения разборчивости речи: индекс артикуляции (AI); индекс разборчивости речи (SII); процент артикуляционных потерь согласных (%Alcons).

Использовать индекс артикуляции (AI) для определения разборчивости речи было предложено Г. Флетчером еще в 1940 году. Для этого весь частотный диапазон речевого сигнала делится на 20 полос. Считается, что каждая полоса вносит свой независимый от других полос вклад в разборчивость речи. Для каждой полосы определяется отношение сигнал/шум по пиковым значениям речевого сигнала и эффективным величинам результирующего шума на выходе канала передачи (для помещений - в точке прослушивания). Затем полученные отношения взвешиваются и суммируются для получения индекса артикуляции 0 АІ 1. В зависимости от значения AI различают следующие градации разборчивости речи: плохая - А1 0,3; удовлетворительная - 0,3 А1 0,5; хорошая - 0,5 А1 0,7; очень хорошая - 0,7 А1.

Похожие диссертации на Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех