Содержание к диссертации
Введение
Глава 1 Постановка задачи диссертационного исследования 10
1.1 Современное состояние и тенденции развития речевых технологий 10
1.2 Влияние шума на функционирование речевых систем 12
1.3 Обзор систем и программных средств компенсации помех в зашумленных речевых сигналах 15
1.4 Постановка задачи диссертационного исследования 18
Глава 2 Теоретико-информационный анализ методов компенсации помех 21
2.1 Метод компенсации помех, основанный на низкочастотной, высокочастотной и полосовой фильтрации 22
2.2 Метод компенсации помех, основанный на гребенке фильтров 25
2.3 Метод компенсации помех, основанный на медианной фильтрации 26
2.4 Оптимальная фильтрация 30
2.4.1 Метод оптимальной компенсации помех, основанный на фильтре Винера 31
2.4.2 Метод оптимальной компенсации помех, основанный на фильтре Калмана 38
2.5 Адаптивная фильтрация 43
2.5.1 Метод адаптивной компенсации помех без прямой оценки сигнала 43
2.5.2 Метод адаптивной компенсации помех с прямой оценкой сигнала 47
2.6 Метод компенсации помех, основанный на вейвлет фильтрации 51
2.7 Метод компенсации помех, основанный на спектральном вычитании 56
2.8 Выводы 61
Глава 3 Метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах 63
3.1 Многоканальное представление речевого сигнала 63
3.2 Прямые и обратные функции декомпозиции 66
3.3 Правила принятия решений при определении границ сегментов речевой активности 69
3.4 Определение сегментных оценок спектра шума и коррекция сигнала 74
3.5 Описание процесса компенсации помех 76
3.6 Выводы 77
Глава 4 Разработка системы автоматической компенсации помех зашумленных речевых сигналов 77
4.1 Модуль анализа речевого сигнала 77
4.2 Модуль контекстно-зависимого обнаружения сегментов речевой активности 78
4.3 Модуль многоканальной коррекции сигнала 82
4.4 Структурная схема системы компенсации помех в речевых сигналах 83
4.5 Выводы 85
Глава 5 Оценка достоверности научных результатов 86
5.1 Контроль качества речевых сигналов 86
5.1.1 Сегментно-ориентированный показатель качества сигнал - шум 89
5 1.2 Сегментно-ориентированный показатель - дифференциал спектров 90
5 1.3 Нормированный показатель качества речевых сигналов 90
5 1.4 Обобщенный показатель сигнал - шум 91
5.1.5 Акустический контроль качества 92
5 1.6 Метод оперативного контроля качества речевых сигналов 93
5.2 Сравнительный анализ времени определения класса качества речевых сигналов методами артикуляционного и оперативного контроля 100
5.3 Метод экспериментальной оценки качества речевых сигналов 104
5.3.1 Определение количества сегментов для расчёта показателей качества речевого сигнала 105
5.3.2 Определение количества контрольных измерений 106
5.3.3 Формирование исходных данных для расчёта показателей качества 110
5.3.4 Расчёт значений показателей качества речевых сигналов 113
5.3.5 Сравнение показателей качества речевых сигналов с эталоном 123
5.3.6 Анализ результатов экспериментального исследования 144
5.4 Сравнительный анализ предлагаемого решения с известными 149
5.5 Выводы 155
Заключение 156
Список условных сокращений 158
Список литературы 159
Приложение 166
- Влияние шума на функционирование речевых систем
- Метод компенсации помех, основанный на медианной фильтрации
- Правила принятия решений при определении границ сегментов речевой активности
- Модуль контекстно-зависимого обнаружения сегментов речевой активности
Введение к работе
Актуальность. В настоящее время (по данным Министерства информационных технологий и связи РФ и РИА "РосБизнесКонсалтинг") свыше 60 % в совокупном объёме передаваемой информации по общедоступным каналам связи составляют речевые сообщения, значимость которых сохранится и в будущем. Это обусловлено тем, что такому универсальному инструменту человеческого общения как речь, обладающему уникальными особенностями передачи мысли, индивидуальности характера личности, эмоциональной окраски, аутентификации и другими, присущими только данному коммуникативному процессу, трудно найти какую-либо эквивалентную замену во многих системах связи и передачи информации.
В федеральных целевых программах ("Национальная технологическая база на 2002 - 2006 годы", "Федеральная космическая программа на 2001 - 2005 годы", "Исследования и разработки по приоритетным направлениям развития науки и техники на 2002 - 2006 годы"), утверждённых Правительством РФ, важное внимание уделяется решению задач, направленных на совершенствование средств телекоммуникаций и радиотехнических систем, разработку и развитие новых технологий обработки и представления информации, разработку аппаратно-программных адаптивных звукотехнических средств различного назначения, повышения качества звука.
Прогресс в научно-технической сфере неразрывно связывает коммуникативные процессы и повседневную деятельность человека с многочисленными устройствами и механизмами, создающими шум, который сдерживает возможности речевых технологий. Во многих случаях шум ослабляет внимание, снижает разборчивость и комфортность восприятия речевых сообщений передаваемых по каналам связи, повышает утомляемость, а, следовательно - и риск задержки или неточности в принятии важных решений, что, например, при управлении объектами повышенной опасности является недопустимым. По этим причинам создание методов снижения помех в речевых сигналах является одной из важных научно-практических задач. В данной области имеется множество теоретических разработок. Их многообразие обусловлено с одной стороны значимостью задачи, а с другой - отсутствием приемлемого метода её решения.
Речевые сигналы (PC) имеют свои особенности. В них тесно связаны аку-стико-семантические уровни. Поэтому преобразования на акустическом уровне могут снижать смысловое содержание сигнала. В данном контексте применение
-5-многих высокоэффективных методов обработки сигналов ограничивается. Это обуславливает потребность решения актуальных научных задач, направленных на разработку новых методов и алгоритмов для повышения качества PC.
Таким образом, значимость речевых сообщений в информационном пространстве и потребность повышения качества коммуникативных процессов (средств приема, передачи и обработки PC) с одной стороны, и с другой - видимая возможность её реализации посредством разработки метода многоканальной автоматической компенсации помех в зашумленных PC рассматриваются автором как объективные признаки актуальности диссертационного исследования.
Цель работы и задачи исследования. Целью диссертационной работы является разработка метода и алгоритмов для автоматической компенсации помех в зашумленных речевых сигналах, направленных на повышение их качества перед приёмом и передачей. Для достижения поставленной цели потребовалось решить следующие задачи:
теоретико - информационный анализ методов компенсации помех с точки зрения их применимости к речевым сигналам;
разработка контекстно - зависимого алгоритма обнаружения сегментов речевой активности;
разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналов;
разработка метода оперативного контроля качества речевых сигналов, позволяющего упростить и ускорить процесс принятия решений при определении качества речи;
разработка структурной схемы системы автоматической компенсации помех в зашумленных речевых сигналах;
разработка метода экспериментальной оценки качества речевых сигналов в сравнении с эталоном;
сравнительный анализ разработанных решений с известными
Методы исследования. Для решения поставленных задач использовались методы теории цифровой обработки сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобразования, теории планирования и постановки эксперимента.
Научная новизна:
разработан контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;
разработан метод многоканальной автоматической компенсации помех в за-шумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;
разработан метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;
разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном.
Практическая значимость. Результаты исследований легли в основу разработок для создания системы автоматической компенсации помех в зашумлённых PC. Разработанный метод оперативного контроля качества PC, позволяет упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95 и ГОСТР 51061-97) процесс принятия решений при определении качества речи, и, может использоваться для: тестирования аппаратуры обработки, приема и передачи PC общего и специального назначения без проведения сложных и дорогостоящих измерений; выявления причин снижающих качество каналов связи, измерения энергетических параметров звуковых полей, образованных потоком среды, и определении акустических характеристик различных средств снижения шума.
Разработанная структурная схема системы автоматической компенсации помех в зашумлённых речевых сигналах позволяет в условиях непараметрической априорной неопределенности на основе предложенных теоретических решений снижать шум и повышать качество речевых сигналов.
Разработанный контекстно-зависимый алгоритм обнаружения сегментов речевой активности позволяет исключать в сигнале интервалы, содержащие шум. Отличительно новым признаком алгоритма является контекстный анализ, позволяющий определять границы невокализованных сегментов в локальном
-7-окружении вокализованных интервалов сигнала. Алгоритм может применяться для: создания адаптивных систем компенсации помех; совершенствования средств повышения пропускной способности канала связи за счёт его временного уплотнения; уменьшения объема выделяемых ресурсов на хранение речевых сообщений, например, в системах автоматизированной обработки телефонных вызовов, где предусматриваются функции тотальной записи всех разговоров.
Разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.
Полученные в диссертации научные положения, методы, алгоритмы и рекомендации могут использоваться при создании новых и совершенствовании существующих мультимедиа технологий, реставрации речевых фонограмм, человеко-машинных систем с речевым взаимодействием, голосовой идентификации, расшифровки "черных ящиков" подвижных объектов, звукотехнических средств различного назначения, в учебном процессе при проведении практических занятий и в научно-исследовательских работах студентов, выполняемых в рамках лекционных курсов "Речевые технологии" и "Информационные технологии" специальности 230201 "Информационные системы и технологии".
Основные положения, выносимые на защиту:
контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;
метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;
метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;
структурная схема системы автоматической компенсации помех в зашумлен-ных речевых сигналах;
метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном.
Достоверность научных положений., выводов и рекомендаций обеспечивается корректным использованием теории цифровой обработки сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобра-зования, теории планирования и постановки эксперимента; успешной проверкой решений, полученных на основе теоретических разработок, средствами компьютерного моделирования.
Результаты использования. Результаты диссертационной работы использованы в ОАО "Российские железные дороги" (ОАО "РЖД"), Федеральном государственном авиационном предприятии "Пулково" (ФГУАП "Пулково"), ОАО "ЛЕНПОЛИГРАФМАШ", ФГУП "Центральный исследовательский институт технологии судостроения" (ЦНИИ ТС), Санкт-Петербургском государственном политехническом университете.
Публикации. По теме диссертационной работы опубликовано 6 печатных работ, в том числе патент на изобретение РФ.
Апробация работы. Основные положения, результаты, выводы и рекомендации диссертационной работы докладывались и обсуждались: на Межвузовской научной конференции "XXIX НЕДЕЛЯ НАУКИ СПбГТУ 27 ноября-2002 декабря 2000 года"; IX Международной научно- методической конференции "Высокие интеллектуальные технологаи образования и науки 14-15 февраля 2002 года"; на заседаниях кафедры "Системного анализа и управления" факультета технической кибернетики и "Гибкие автоматические комплексы" механико-машиностроительного факультета Санкт-Петербургского государственного политехнического университета.
Структура и объём диссертации. Диссертация состоит из введения, пяти глав, заключения, списка условных сокращений, списка литературы, и приложения (акты использования результатов диссертационной работы). Общий объём диссертации составляет 171 страниц, в том числе 70 рисунков и 17 таблиц. Список литературы насчитывает 123 наименования.
Во введении обосновывается актуальность работы, определяются цель и задачи диссертационного исследования, научная новизна, практическая значимость, апробация, приводится краткое содержание глав диссертации.
В главе 1 анализируется современное состояние и тенденции развития речевых технологий, приводится обзор систем, программных средств и технологий компенсации помех в зашумленных речевых сигналах, формулируется постановка задачи диссертационного исследования, определяются основные термины.
В главе 2 представлен теоретико-информационный анализ методов компенсации помех в контексте их применения к речевым сигналам, определяется целесообразность разработки нового метода.
В главе 3 приводятся разработанные автором теоретико-практические решения, направленные на создание метода многоканальной автоматической компенсации помех в зашумленных PC. Предлагается способ представления PC на основе использования прямых и обратных функций декомпозиции; правила принятия решений при определении границ сегментов речевой активности, отличительно новым признаком которых является контекстный анализ, позволяющий определять в зашумленных сигналах границы речевых сегментов; приводится описание процесса компенсации помех в зашумленных PC.
Влияние шума на функционирование речевых систем
Неразрывность повседневновной деятельности человека с многочисленными устройствами и механизмами, создающими шум, являются причинами того, что речевые сигналы всегда в той или иной степени зашумлены.
Шум ограничивает возможности РТ [20,21,22,23,72,109]. Например, в каналах мобильной связи именно из-за шума в PC 20 % соединений продолжаются меньше, чем могли бы длится [72]. Это означает, что компании, предоставляющие услуги связи, только по этой причине упускают значительную часть дохода.
Только из-за шума более 10 % существующих в России коммутируемых каналов речевой связи имеют неудовлетворительное качество [15]. В результате появляется ряд проблем. С одной стороны, потребителям предоставляются услути низкого качества, что недопустимо, с другой - увеличивается время на передачу одной и той же информации, а значит и нагрузка на сети.
В настоящее время широкое распространение стали получать системы автоматизированной обработки телефонных вызовов (call-центры), позволяющие повышать уровень сервиса [90,103]. В таких системах предусматривается возможность замены сотрудников компаний функциями call-центра для выполнения в круглосуточном режиме однообразных операций, например, предоставления справочной информации о режиме работы организаций, услугах о способе оплаты их по кредитной карте и т.д. Развитие современных call-центров направленно на использование последних достижений в области систем интерактивного голосового ответа, называемых системами IVR (Interactive Voice Response), автоматического речевого взаимодействия, голосовой идентификацией. Подобные центры производятся фирмами Intel, IBM, Nortel Networks, Nuance, Voicevault и др. [25,89,90,103,118,123]. В них предусматриваются функции контроля качества обслуживания с возможностью тотальной записи, хранения и поиска всех разговоров. Такой контроль позволяет вносить изменения в работу операторской службы, помогает определять причины появления претензий, а также повышает уровень корректности общения. Системы с IVR, речевым взаимодействием и идентификацией позволяют снизить нагрузку на операторов и сократить затраты предприятий на обработку каждого вызова до 4 - 5 раз [27,89]. Однако шум в PC снижает возможности таких систем. Только из-за присутствия шума точность работы средств речевого взаимодействия и голосовой идентификации может уменьшаться на 40 % — 70 %, в то время как их точность при отсутствии шума приближается к 99 % [86,92,94,107]. Это означает, что с увеличением числа вызовов, поступающих со средств мобильной связи, где, как правило, присутствует шум, увеличится нагрузка как на операторов так и на специалистов компании, продлится время нахождения в очереди вызовов, а следовательно, увеличатся затраты предприятия на обработку каждого из них. Шум сдерживает возможности систем автоматизированной обработки вызовов в уменьшении затрат, которые будут существенными для любой компании, ежедневно регистрирующей несколько тысяч речевых сообщений и переговоров.
Задачи записи, воспроизведения, поиска и хранения переговоров могут встречаться, например, в диспетчерских службах ОАО "Российские железные дороги", где требуется контролировать работу персонала и осуществлять для этого, ежедневно, непрерывную запись всех переговоров в подразделениях, предоставляющих справочную информацию пассажирам или оформляющих необходимые для проезда документы. Кроме того, решения этих задач востребованы, например, в службах вызова скорой помощи, пожарной охраны, вневедомственной охраны, в диспетчерских службах управления движением на воздушных линиях и в других организациях, в которых требуется осуществлять регистрацию PC.
Известны примеры, когда число вызовов, поступающих в компанию, достигало 97 млн. [89]. В среднем 50 % - 65 % времени разговора занимают паузы [46,63]. Поэтому при использовании функций тотальной записи всех разговоров порядка 50 % - 65 % объёма памяти, выделяемых на их хранение, будет занимать шум, увеличивая этим нерациональное использование вычислительных средств и ресурсов памяти.
Шум ослабляет внимание [8,33], снижает разборчивость и комфортность восприятия PC, повышает утомляемость, а, следовательно - и риск задержки или неточности в принятии важных решений, что недопустимо, например, при управлении объектами повышенной опасности. По этим причинам разработка методов снижения помех в PC является актуальной научно-практической задачей. К 2010 году свыше 65% жителей развитых стран в возрасте от 15 до 50 лет будут использовать какие-либо беспроводные устройства связи [27]. Потребность взаимодействия и необходимость получать информацию на основе такого естественного для человека способа как речь являются важными факторами развития РТ. В настоящее время в России наблюдается отставание от развитых стран в сфере разработки и совершенствования РТ [27,56, 111]. Для преодоления отставания некоторые российские компании и научные учреждения, в числе которых МГТУ им. Баумана, Cognitive Technologies, РосНИИ Искусственного интеллекта и другие организации, договорились об образовании консорциума "Российские речевые технологии" [27,56,111]. Основой развития РТ является создание таких средств обработки голосовой информации, функциональные возможности которых приближались или превосходили бы возможности человека. Для этого теоретико-практические решения должны опираться на всю систему знаний, используемых интеллектом человека, что представляет собой определенную проблему, требующей длительных совместных усилий многих специалистов [30]. Решение такой проблемы в полном объеме возможно только разделением её на отдельные задачи, к числу которых относится задача компенсации помех в зашумлё нных речевых сигналах.
В связи с тем, что количество научно-исследовательских групп, работающих в направлении развития РТ в мире, очень велико, приведенный ниже обзор не может охватить описание всех существующих разработок. Поэтому среди них были выбраны такие разработки, которые, по мнению автора, представляют наибольший интерес с научно-практической точки зрения.
Метод компенсации помех, основанный на медианной фильтрации
Достоинством метода является возможность сглаживать в сигнале резкие переходы и снижать шум импульсного характер, притом, что искажения в информационную составляющую речевого высказывания не вносятся - МФ сохраняет монотонно изменяющиеся участки сигнала.
Недостатком метода можно считать следующее. Протяженность окна фильтра принято устанавливать нечетным N = {3,5,7,...} так, чтобы N не превосходило число элементов обрабатываемого вектора [4,24,53]. При обработке сигнала с объемом выборки, значительно превосходящим N, появляются временные задержки. В целом из-за постоянного роста производительности вычислительных средств этот недостаток принимает второстепенное значение.
Таким образом, метод может использоваться для снижения импульсных помех в речевых сигналах. Однако снижение, например, широкополосного шума, спектр которого изменяется плавно, им не обеспечивается, притом, что временные и вычислительные ресурсы используются. В этом смысле метод компенсации помех, основанный на медианной фильтрации является малоэффективным.
Процедуру выделения полезного сигнала из смеси с шумом называют фильтрацией, а устройства, в которых она осуществляется — фильтрами [50]. Фильтры, выделяющие полезный сигнал из смеси с шумом наилучшим образом (с точки зрения выбранного критерия), называют оптимальными [60]. Основное содержание задачи оптимальной фильтрации (ОФ) сигналов состоит в следующем. Необходимо получить устройство, воспроизводящее сигнал наилучшим образом, с точки зрения выбранного критерия. При этом априорно (до начала обработки) считаются известными характеристики полезного сигнала и помех, а также их функциональное (аддитивное) взаимодействие. В случае небольшого объема априорных данных (или при их отсутствии) необходимо применять методы адаптивной фильтрации [60]. В адаптивных фильтрах априорная неопределенность в статистических характеристиках преодолевается их оцениванием в ходе работы фильтра с последующим использованием полученной информации для корректировки процесса выделения сигнала из зашумленной смеси [7,50,60]. Такие фильтры представляют собой некоторое усложнение задачи неадаптивной обработки [60].
В синтезе оптимальных систем компенсации помех исходными являются: математическая формулировка задачи; выбор критерия в соответствии с целевым содержанием решаемой задачи. Построение таких систем сопровождается формированием структуры, алгоритма обработки сигналов, количественной оценкой качества работы и рассмотрением возможности практической реализации полученных результатов [60].
Большой вклад в развитие теории оптимальной фильтрации внесли работы А.Н. Колмогорова, Н.Винера, Р. Калмана, В. А. Котел ьникова, В.И. Тихонова и других [5,32,50,60]. В настоящее время существуют множество схем компенсации помех, основанных на этой теории. Они отличаются применяемыми критериями и алгоритмами обработки сигналов, объёмом априорных сведений о полезных сигналах и помехах, допущениями и ограничениями, рассмотрением наблюдаемых процессов в непрерывном или в дискретном времени и т.д. Методы оптимальной фильтрации являются фундаментальными в разнообразных задачах обработки сигналов, в том числе и в задачах адаптивной фильтрации [32]. В работах [5,50,60] подробно изложены различные аспекты их применения. Многие схемы снижения шума основаны на оптимальных методах фильтрации Винера и Калмана. Рассмотрим подробнее возможности этих методов с точки зрения их применимости для компенсации помех в речевых сигналах.
Фильтром Винера (ФВ) называется процесс блочной коррекции наблюдаемого сигнала, путём взвешивания его оптимальными (по критерию минимума среднеквадратической ошибки) весовыми коэффициентами» которые формируются решением уравнения Винера-Хопфа. Коррекция называется блочной в связи с тем, что сигнал представляется отдельными наборами (блоками), состоящих из конечного числа отсчётов сигнала [5,32,42,73].
Правила принятия решений при определении границ сегментов речевой активности
Модуль анализа (МА) предназначен для представления сигнала в виде отдельных частотных каналов на основе использования функций декомпозиции, рассмотренных в разделах 3.1 и 3,2, и прямого преобразования Фурье. Применение МА позволяет произвести частотно-временную локализацию помех, содержащихся в зашумленном PC. Структурная схема разработанного модуля показана на рис, 4.1.
Структурная схема модуля анализа речевого сигнала МА состоит из следующих блоков: БД - блок декомпозиции, предназначен для разделения речевого сигналах на отдельные каналы на основе использования функций декомпозиций, рассмотренных в разделе ЗА и 3.2; БПФ - блок прямого преобразования Фурье, предназначен для представления сигналов, выделенных блоком декомпозиции в частотной области; БВА - блок вычисления амплитуды предназначен для определения значения амплитуды сигнала в частотной области.
Наблюдаемые выборочные значения PC, поступают на вход модуля МА, где блоком декомпозиции БД1 представляются, на основе использования функций декомпозиции (раздел 3.1 и 3.2), множествами выборок vu(«) и v12(«).
Далее, с выхода БД1 сигнал v,,(n) поступают на вход блока БД2, а сигнал v12(«) на вход БДЗ. Блоками БД2 и БДЗ v(](w) и v,2(«) функциями декомпозиции представляются во временной области новыми сигналами v2i(n), у2гС«), v23(«) и v24(«), которые поступают на входы блоков БД4, БД5, БДб, и БД7. На выходах БД4, БД5, БДб, и БД7 образуются во временной области сигналы v3i(«), Vi2(n),...,v$s(n). Они преобразуются блоками БПФ{, БЛФ2,...,БПФ8 в частотную область. На выходах БПФІ7 БПФ2,...,БПФ$ формируются спектры сигналов v3i(fl)» v32(«),...,V38(n). Данные с выходов БПФу, БПФ2,..., БПФ& передаются на вход БВА, где вычисляются амплитудные значения сигналов в частотном спектре. После этого, информация с выхода блока БВА передается к модулю многоканальной коррекции сигнала. На этом функционирование модуля МА завершается.
Модуль контекстно-зависимого обнаружения сегментов речевой активности (МКРА), предназначен для определения в зашумленных сигналах моментов начала и окончания речевых интервалов на основе использования предложенных правил принятия решений, рассмотренных в разделе 3.3. МКРА позволят исключать в PC интервалы, содержащие шум. Структурная схема модуля показана на рис. 4.2.
Структурная схема модуля контекстно-зависимого обнаружения сегментов речевой активности МКРА содержит: БСС — блок сегментации сигнала, предназначен для представления входной сигнальной последовательности в виде множества отдельных кратковременных интервалов (сегментов); БЭП блок, предназначенный для расчёта значений энергии и ЧНП сигнала; БВП - блок вычисления порогов, предназначен для определения порогов энергии и ЧНП; БС - блок сравнения, предназначен для сравнения энергии и ЧНП с соответствующими пороговыми значениями; БОИ - блок обнаружения в входном сигнале интервалов РА; БПГ - блок поиска границ, предназначен для определения моментов начала и окончания интервалов с речевой активностью; БПГЛ - блок поиска границ речевых сегментов в локальном окружении выявленных БПГ интервалов РА; БПЗ - блок, предназначенный для записи и хранения моментов начала и окончания речевых интервалов (НК ).
Поступающий сигнал на вход модуля МКРА представляется с помощью блока БСС последовательностью сегментов, для каждого из которых блоком БЭП вычисляется энергия и ЧНП, согласно формулам (3.11),(3.12). Данные с выхода БЭП поступают на входы БВП и БС. Блоком БВП рассчитываются по формулам (3.14) и (3.15) значения порогов. Для принятия решения о присутствии в сигнале интервалов РА (раздел 3.3) данные с выхода БЭП сравниваются в блоке БС со значениями порогов, рассчитанных блоком БВП. Сигнал с выхода БС подается на вход блока БОИ, где в соответствии с правилом (3.11), принимается решение о присутствии в сегменте РА.
Данные с выхода БОИ поступают на вход блока БПГ для определения первоначальных границ интервала РА. Границы, установленные блоком БПГ, уточняются блоком БПГЛ на основе анализа локального окружения сегментов РА (рис. 3.8). Для этого блоком БПГЛ осуществляется пересчёт ранее вычисленных пороговых значений и одновременно используются процедуры, реализующие правила, предложенные в разделе 3.3. Данные с выхода БПГЛ о границах интервалов РА поступают на вход блока БПЗ для записи их в буферную память.
Более подробный алгоритм работы МКРА представлен в виде схемы на рис. 4.3 - 4.4. Отличительной новизной разработанного алгоритма является контекстный анализ, позволяющий определять в зашумленных сигналах моменты начала и окончания сегментов с речевой активностью, на основе использования правил принятия решений, предложенных в разделе 3.3.
Модуль контекстно-зависимого обнаружения сегментов речевой активности
Оперативным контролем качества (ОКК) будем называть метод определения качества речи (или системы обработки PC), основу которого составляет анализ объективных данных - многомерных графических представлений (рис. 5.1 - рис. 5.5) с последующей интерпретацией их в соответствии с таблицами 52 - 5.4 [10,11,12,21,23,28,51]. На рис. 5.1 и рис. 5.2 показаны многомерные представления PC в форме осциллограммы, спектрограммы, энергии, и числа нулевых переходов, которые получены с помощью программного комплекса (ПК) "Звукоинженер" [17,21,23]. Они позволяют принимать решения о качестве PC в условиях ограниченного объема экспериментальных (речевых) данных. Фон спектрограммы является показательным индикатором качества PC. Он наглядно показывает шум и характер изменения его во времени, по амплитуде и частоте. На практике в сигнале могут присутствовать различные виды шумов, а сведения о них, как правило, заранее неизвестны. В этой связи графические представления PC позволяет получить необходимые сведения об изменении шума и выработать соответствующие рекомендации при разработке новых и совершенствовании существующих систем снижения помех. Если в сигнале содержится так называемый белый шум, то в спектрограмме будет присутствовать фон, равномерно распределенный как по времени, так по амплитуде и частоте. Если в сигнале содержится любой другой шум, то спектрограмма покажет, как именно изменяются во времени его амплитудно-частотные характеристики. Если в сигнале шум не содержится, то спектрограмма покажет отсутствие фона. Нарис. 5.1 и рис. 5.3 фон отсутствует, а на рис. 5.2 , рис, 5.4, рис. 5.5 -почти совпадает с полезным сигналом. Насыщенность фона характеризует плотность шума - чем темнее фон, тем выше плотность. Кроме этого, при исследовании качества важным показателем является диапазон изменения частот. Передаваемые и принимаемые по каналам связи PC (или сигналы до и после обработки их некоторой системой) должны сохранять диапазон частот в интервале Fmin F , Fimx. Минимальное значение частоты определяется в интервале
Fmine(20ru -300 Гц), а максимальное - Fmax =Fd/, где Fd є(8000Гц-44100Гц)- частота дискретизации [28,30]. Если в сигнале после обработки отсутствуют некоторые (верхние, нижние или другие) частоты, то спектрограмма покажет сокращение интервала Fmin F FtT]ax или отсутствие отдельных частотно-временных фрагментов речи. Отсутствие таких фрагментов означает, что в полезном сигнале содержатся искажения - изменения, которые могут снижать разборчивость и приводить к частичной или полной утрате амплитудо-частотных и временных фрагментов PC.
Графики осциллограммы (ось абсцисс - время; ось ординат - уровень квантования сигнала), спектрограммы (ось абсцисс —время; ось ординат - частота, ось аппликат— амплитуда, измеряемые в герцах и в децибелах соответственно), энергии (ось абсцисс - время, ось ординат - уровень сигнала, измеряемый в децибелах) и числа нулевых переходов [53] позволяют установить в сигнале моменты начала и окончания интервалов речевой активности (РА). Под интервалами РА понимаются временные интервалы, содержащие речевые единицы (звукосочетания, слова или фразы). По интервалам РА измеряется уровень сигнала, а по интервалам неречевой активности - уровень шума (рис. 5.2, рис. 5.5).
Данные об уровне речи и шума (рис. 5.2, рис. 5.5) используются при принятии решений о качестве PC согласно табл. 5.2 -табл. 5.4. По графику энергии (рис. 5.1 - рис. 5.5) определяется динамический диапазон. Речевой сигнал считают сигналом с высоким качеством, если его динамический диапазон соответствует уровню 40дБ-57дБи сигналом с достаточным качеством, если динамический диапазон находится в интервале 20 дБ - 40 дБ [28].
Уровень энергии сигнала 120 дБ - 130 дБ называют порогом болевого восприятия, а уровень 40 дБ - порогом слышимости речи. Энергия речевых сигналов изменяется внутри интервала, ограниченного указанными порогами - в диапазоне от 40 дБ до 97,5 дБ, Часто, (для удобства) энергию PC рассматривают в сравнении с нулевым уровнем. Для этого в соответствующих расчетах производится вычитание верхней границы 97,5 дБ, которое приводит к формированию нового диапазона изменения энергии с максимальным значением, равным уровню 0 дБ.
В работе [28] указываются границы изменения средних значений энергий речевых сигналов: от -60 дБ до -20 дБ. Если энергия речевого сигнала изменяется от нижнего до верхнего значения указанных границ, то сигнал характеризуется как высококачественный (динамический диапазон 20 дБ - 40 дБ). Данные о закономерностях изменения разборчивости в зависимости от различных уровней речи и шума (таблица 5.3) показывают следующее. Если уровень речи минус уровень шума составляет 40 дБ и выше, то слоговая разборчивость речи в процентном соотношении будет находиться в интервале 85% - 97%, если 30 дБ - 40 дБ, то слоговая разборчивость будет находиться в диапазоне 80% - 85% (табл. 5.3) [28,51 ].
При расчете качества PC принято устанавливать именно слоговую разборчивость, а не слов или фраз, так как в отличие от слогов последние обладают смыслом, который позволяет в ряде случаев (например, когда разобрать содержание PC возможно с большим трудом) точно записывать слова и выражения. Вместе с тем, для того, чтобы установить разборчивость в любом языке достаточно располагать сведениями о любой разборчивости, например, звуков, слогов, слов или выражений. Их процентные уровни связаны между собой и могут сопоставляться согласно данным таблицы 5.4 [10,11,12,28,51].
В государственных стандартах указывается, что качество речи (или, например, систем обработки, приема и передачи PC) следует характеризовать не только слоговой разборчивостью (табл. 5.3), но и соответствующим классом качества (табл. 5.4). Значения таблицы 5.4 приводятся в ГОСТ Р 50840-95 и ГОСТ Р 51061-97, регламентирующие артикуляционные измерения, а сведения о зависимости слоговой разборчивости от уровня речи и шума (табл. 5.3) в работах [28,51].