Содержание к диссертации
Введение
1. Подавление аддитивных помех в речевых сообщениях 8
1.1. Постановка задачи подавления аддитивных помех в речевых сообщениях 8
1.2. Подавление стационарных помех в речевых сообщениях 9
1.3. Подавление эхо-помех в речевых сообщениях 25
1.4. Выводы 45
2. Верификация личности на основе статистических свойств речевых сообщений 47
2.1. Постановка задачи 47
2.2. Способы статистического описания речевых сообщений 51
2.3. Верификация личности по сформированному речевому сообщению 70
2.4. Выводы 75
3. Низкоскоростное кодирование речевых сообщений 77
3.1. Принципы работы и практическая реализация речевого кодека, совместимого со стандартами IS-96-A и IS-733 77
3.2. Построение речепреобразующих устройств на основе метода линейного предсказания со смешанным возбуждением 90
3.3. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок 96
3.4. Выводы 102
4. Восстановление речевых сообщений методом реконструктивной томографии 104
4.1. Функциональная модель периферии слуха 104
4.2. Восстановление речевых сообщений на основе метода реконструктивной томографии 119
4.3. Восстановление речевых сообщений на основе метода реконструктивной томографии по зашумленным данным 126
4.4. Выводы 138
Заключение 139
Список сокращений 143
Литература 144
Приложение 153
- Подавление стационарных помех в речевых сообщениях
- Верификация личности по сформированному речевому сообщению
- Построение речепреобразующих устройств на основе метода линейного предсказания со смешанным возбуждением
- Восстановление речевых сообщений на основе метода реконструктивной томографии
Введение к работе
В настоящее время техническая информатика представляет собой широкую и быстро развивающуюся область, включающую в себя как чисто физические проблемы, так и разнообразные прикладные вопросы. Одной из важных теоретических и практических задач является разработка новых методов и алгоритмов обработки речевых сообщений. В качестве основных направлений исследований здесь можно выделить четыре направления: фильтрация речевых сообщений на фоне помех различной природы, аутентификация личности по голосу, низкоскоростное кодирование речевых сигналов и распознавание речи.
К сожалению, известные на текущий момент алгоритмы обработки речевых сообщений не свободны от недостатков. Так, приводимые в литературе [10,22,23,55,56 и др.] алгоритмы адаптивной линейной и нелинейной фильтрации, в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Алгоритмы аутентификации [19,28,39 и др.] подразумевают, как правило, достаточно сложное параметрическое описание речевых сообщений и не всегда обеспечивают желаемую точность правильного принятия решения. Применение рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений [15,24,82,89 и др.] для передачи информации по каналам с высоким процентом ошибок приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Наконец, до сих пор остается открытым вопрос об эффективных методах восстановления скрытых речевых сообщений и адекватных радиотехнических моделях голосовой и слуховой систем [35-38]. Целью работы является
1. Синтезировать эффективные алгоритмы фильтрации речевых сообщений, искаженных стационарными (фоновыми) и нестационарными (эхо) помехами.
2. Разработать эффективный алгоритм верификации диктора по голосу на основе статистических свойств речевых сообщений.
3. Определить эффективные алгоритмы низкоскоростного (до 2400 бит/с и ниже) кодирования речевых сообщений. Найти структуру алгоритма для канала передачи информации с высоким (до 5 %) процентом ошибок.
4. На основе метода реконструктивной томографии разработать модели формирователей слухового спектра (для распознавания свойств голосового тракта) и интонационного портрета (для распознавания источника голосового возбуждения).
5. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений в реальном масштабе времени на современной элементной базе.
Поставленные в диссертации вопросы исследовались в четырех разделах.
В первом разделе получены новые практически реализуемые алгоритмы фильтрации речевых сообщений на фоне помех. Рассмотрены два важных с практической точки зрения случая: 1) когда наблюдению доступна аддитивная смесь речевого сообщения и стационарного шума; 2) когда в дополнении к наблюдаемой реализации имеется канал, содержащий сигнал, коррелированный с шумом; условие стационарности шума при этом может нарушаться. Показано, что синтезированные алгоритмы являются достаточно универсальными, требуют минимального объёма априорной информации и позволяют существенно улучшить качество звучания (восприятия). Выполнена их программная (с помощью системы Math-Lab 8.0) и аппаратная (на базе цифрового процессора обработки сигналов (ЦПОС) TMS320VC5410A) реализация в реальном масштабе времени. Во втором разделе выполнены синтез, анализ и практическая реализация алгоритма верификации личности на основе статистических характеристик речевых сообщений. Найдено преобразование, позволяющее аппроксимировать исходное речевое сообщение (парольное слово) стационарным эргодическим случайным процессом авторегрессии конечного порядка. Исследованы различные меры различимости двух речевых сообщений, представленных авторегрессионными коэффициентами, и выбрана наилучшая из них. Методами статистического моделирования и с помощью аппаратной реализации на базе ЦПОС TMS320VC5410A установлена работоспособность и достаточно высокая эффективность предложенного алгоритма верификации личности по голосу.
В третьем разделе рассмотрены принципы работы речевых кодеков на основе методов линейного предсказания с возбуждением от кода (CELP-вокодер) или со смешанным возбуждением (MELP-вокодер). Исходя из критериев желаемого качества кодированной речи, скорости битового потока, устойчивости речевого преобразования к канальным ошибкам, минимума затрачиваемых ресурсов цифрового сигнального процессора синтезированы и практически реализованы QCELP-вокодеры со скоростями 8000-13200 бит/с; MELP-вокодеры со скоростями 1200-2400 бит/с и высоким качеством речи, сохраняющимся при 1% ошибок в канале; MELP-вокодер со скоростью 2400 бит/с с удовлетворительным уровнем разборчивости речи, сохраняющимся при 5% ошибок в канале. Экспериментально с помощью программного (на языке высокого уровня С) и аппаратного (на базе ЦПОС TMS320VC5410A) моделирования установлена работоспособность и эффективность предложенных речепреобразующих устройств. Указаны пути дальнейшего понижения скорости битовых потоков вокодеров.
В четвертом разделе исследованы возможности восстановления скрытого от наблюдения речевого сообщения на основе метода реконструктивной томографии. В пренебрежении и с учетом мешающего действия шумов синтезированы алгоритмы формирования скрытого речевого сообщения по текущей спектральной плотности наблюдаемого речевого сигнала с помощью обратного преобразования в пространстве Радона. Для последнего случая с целью получения устойчивых и корректно работающих алгоритмов томографической реконструкции зашумленных речевых сообщений разработаны регуляризирующие процедуры весовой функции во временной или частотной областях. Показано, что полученные результаты имеют достаточно общий характер и могут быть использованы при проектировании систем автоматического формирования речевых сообщений по их проекционным данным.
В заключении подводятся итоги проведенных исследований, сформулированы выводы по работе в целом.
В приложении 1 исследованы различные полиномиальные аппроксимации наиболее часто встречающихся на практике нелинейных функций. Выполнен сравнительный анализ этих аппроксимаций между собой, а также с аппроксимациями, приведенными в литературе. Сформулированы критерии в пользу выбора того или иного полиномиального приближения заданной нелинейной функции, исходя из специфики задачи, а также с учетом ограничений, определяемых точностью алгоритма и быстродействием системы.
В приложении 2 рассмотрено представление сигналов через обобщенные спектры, полученные на основе различных систем ортогональных многочленов. Предложены быстрые методы спектрального анализа, использующие квадратурные формулы повышенной точности. Исследованы погрешности полиномиальных аппроксимаций, и сформулированы критерии выбора оптимального ортогонального базиса для вычисления обобщенного спектра.
Результаты диссертационной работы докладывались на 4 Международных и 6 научно-технических конференциях, опубликованы в работах [97-107] и использовались в разработках ОАО "Электросигнал" (г. Воронеж) и ЗАО "СПРОС ИТ" (г. Москва).
Подавление стационарных помех в речевых сообщениях
Полезный сигнал s(t) представляет собой речевое сообщение, занимающее полосу частот от 0 до 4000 Гц, на источник которого не накладывается никаких ограничений. Помеху v(t) будем полагать стационарным случайным процессом с произвольным законом распределения. Необходимо из наблюдаемой реализации x(t) (1.1) с заданным уровнем разборчивости и качества выделить полезный сигнал s(t).
Сформулированная задача фильтрации осложняется тем, что построить адекватную математическую модель речевого сигнала в общем случае пока не представляется возможным. Кроме того, далеко не всегда удается обобщить полученные (при заданной модели полезного сигнала) теоретические результаты на случай негауссовских помех. В этой связи на практике приходится искать подходы, основанные на сопоставлении существенно отличающихся друг от друга характеристик сигнала и помехи.
Для синтеза алгоритма шумоподавления используем свойство нестационарности речевого сигнала. Нестационарность речевого сигнала прояв ляется в том, что его характеристики изменяются (порой достаточно резко) с течением времени, оставаясь приближенно постоянными на коротких интервалах длительностью 10- 30 мсек (так называемое свойство локальной стационарности речевого сигнала) [22,31,83,86 и др.]. Характеристики же помехи в силу предположения о ее стационарности будут оставаться постоянными в течение всего интервала наблюдения.
Одним из основных параметров, динамику которого во времени можно отслеживать сравнительно просто, является энергия. Энергия позволяет охарактеризовать интенсивность принимаемой реализации (1.1) как во всем частотном диапазоне речевого сигнала (от 0 до 4000 Гц), так и в какой-либо полосе частот. Последнее обстоятельство представляется особенно важным, поскольку помехи, накладывающиеся на речевое сообщение, имеют, как правило, ширину полосы частот существенно меньшую по сравнению с шириной полосы частот полезного сигнала. Таким образом, отслеживая вариации энергии в различных полосах частот, можно установить приблизительный спектральный состав помехи с последующим ее удалением (фильтрацией). Для оптимального разбиения всего спектрального диапазона речевого сигнала на поддиапазоны рассмотрим, как осуществляется процесс выполнения спектрального анализа человеческим ухом. В ряде исследований [22,31 и др.] было установлено, что "аналого-цифровое преобразование" звука происходит во внутреннем ухе вдоль плоскости мембраны. Различные области в улитке, каждая из которых содержит нейтральные рецепторы, настроены на различные диапазоны частот. Эмпирические исследования позволили создать современное представление о критических диапазонах, каждый из которых соответствует своей области в улитке. С экспериментальной точки зрения критическая полоса частот может быть определена как полоса частот, на которой субъективно можно выделить резкие изменения в звуковом сигнале. Воспринимаемая громкость узкополосного источника звукового сигнала при по стоянном уровне звукового давления остается постоянной даже в том случае, если полоса частот будет расширена до критической, после чего громкость начнет усиливаться. Порог обнаружения узкополосного источника звукового сигнала между двумя маскирующими тонами остается постоянным до тех пор, пока область частотного разделения между двумя тонами будет лежать в пределах критической полосы частот. Для среднего слушателя критическая полоса BWC может быть аппроксимирована следующим выражением [4,81,83]
Верификация личности по сформированному речевому сообщению
Источником акустической речевой волны является артикуляционный аппарат диктора. Он состоит из следующих физиологических органов: бронхов, легких, диафрагмы, трахеи, голосовых связок, гортани, глотки, небной занавески, языка, ротовой и носовой полостей [31]. При произнесении звуков речи поток воздуха нагнетается из легких, проходит через трахею, гортань, полость рта и носа и затем выдувается через губы и ноздри. Колебания голосовых связок создают несущий процесс гласных звуков, являющихся последовательностью коротких импульсов. Частота следования этих импульсов называется частотой основного тона (ОТ), которая, медленно изменяясь, создает эмоциональную окраску речи. В литературе [17,31,32,49,50 и др.] приводятся различные значения частоты ОТ, ее значение варьируется у мужчин от 60 до 250 Гц, у женщин от 70 до 350 Гц; у пилотов реактивных самолетов, говорящих в условиях перегрузок, частота ОТ может увеличиваться до 600 Гц.
Гортань и ротовую полость называют голосовым трактом. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны так, что вся речеобразующая система функционирует как единый сложный объект. В акустике голосовой тракт обычно рассматривают как систему резонаторов, характеристики которых медленно изменяются во времени. Частоты и области резонаторов называются соответственно формантными частотами и областями. Часто для краткости пользуются термином форманта [31,49,50].
Звуки, при формировании которых голосовые связки осуществляют колебательные движения, называют вокализованными. Все остальные звуки принято относить к невокализованным. Более точно: среди последних различают фрикативные звуки, возникающие при образовании турбулентного широкополосного шума, и взрывные звуки, формируемые путем создания в тракте смычки с последующим внезапным высвобождением сжатого в области за смычкой воздуха.
При решении задачи верификации воспользуемся линейной моделью речеобразования. Линейная модель речеобразования была разработана Фантом в конце 1950-х годов. Ее математическое обоснование и подробное изучение проведено Фантом и Фланаганом на основе тщательно поставленных экспериментов [49-51].
Известно [22,31 и др.], что, строго говоря, речевой сигнал не является стационарным в каком-либо смысле и эргодическим случайным процессом, т.е. его статистические характеристики нельзя в общем случае определять путем усреднения по времени одной реализации. Тем не менее, операцию усреднения для одной реализации часто успешно используют для приближенных расчетов в теории и технике передачи речевых сообщений [22,29]. Воспользуемся в дальнейшем указанным обстоятельством при нахождении параметров статистической модели исходного речевого сигнала.
Пусть информационное речевое сообщение x(t) наблюдается в течение интервала времени [0,Т]. Будем считать, что обработке доступны отсчеты речевого сигнала Xj =x(iAt), i = 0,N-l, представленные в стандартном ИКМ формате [31] с частотой выборок 8000 выб/сек (шагом дискретизации At = 0,125 мс). Здесь N = trunc(T/At), a trunc(-) — целая часть числа.
При этом длительность сигнала не превышает 0,5 с или 4000 отсчетов (что соответствует длительности одного слова, состоящего из 3-4 букв).
Одной из важнейших статистических характеристик случайного процесса является его корреляционная функция или связанный с ней пропорциональной зависимостью коэффициент корреляции. Следуя [22,29,31 и др.], определим значения К: выборочной корреляционной функции К(т) речевого сигнала x(t) в точках Х: = jAt, j = 0,L как
Построение речепреобразующих устройств на основе метода линейного предсказания со смешанным возбуждением
Рассмотрим теперь способы построения низкоскоростных речепреобразующих устройств, работающих на скоростях до 1200 бит/с и ниже.
К первым низкоскоростным вокодерам можно отнести полосовые вокодеры, гомоморфные вокодеры и вокодеры с линейным предсказанием (например LPC-10, который долгое время являлся вокодером федерального стандарта США FS-1015 со скоростью битового потока 2,4 кбит/с) [82]. Все перечисленные вокодеры определяли любой речевой фрейм либо голосовым, либо шумовым, что приводило к неестественному звучанию синтезированного речевого сигнала. Кроме того, определение ОТ в этих вокодерах было неточным, что ухудшало разборчивость речи.
Разработка в конце 80-х годов прошлого века алгоритмов Improved Multi-Band Excitation (IMBE) проектирования вокодеров и последующее их совершенствование - Advanced Multi-Band Excitation (AMBE) - привели к существенному улучшению качества вокодеров с потоком бит менее 2,4 кбит/с [9,85]. Данные вокодеры разбивают всю частотную область фрейма речевого сигнала на N полос, причем N определяется ОТ сигнала. Затем в каждой полосе принимается решение "голосовой"-"шумовой", что приводит к повышению разборчивости речи и ее натуральному звучанию. При этом алгоритмы БУШЕ и АМВЕ не используют технику линейного предсказания и остаточный сигнал.
Несмотря на указанные достоинства IMBE и АМВЕ вокодеры не свободны от недостатков, к основным из которых следует отнести существенную зависимость качества речи от диктора (что определяется зависимостью качества речи от ОТ) и сильную деградацию качества речи в зависимости от увеличения ошибок в битовом потоке. Вследствие этого в настоящее время продолжаются работы по поиску алгоритмов преобразования речи в битовый поток со скоростью менее 2,4 кбит/с при сохранении ее приемлемого качества. В результате проведенных исследований одним из наиболее эффективных методов построения низкоскоростных (1,2-2,4 кбит/с) вокодеров признан метод линейного предсказания со смешанным возбуждением - MELP (Mixed Excitation Linear Prediction) [90].
MELP кодер основан на традиционной параметрической модели кодирования с линейным предсказанием [17,31], но, кроме того, содержит ряд дополнительных особенностей, а именно: вся рабочая область частот делится на полосы (от 3 до 7), в каждой из которых принимается решение о классе сигнала возбуждения — "шумовой" или "голосовой". Таким образом, суммарный сигнал возбуждения является смешанным; форма "голосового" сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера; для реализации одиночных импульсов возбуждения применяются "апериодические" импульсы; с целью улучшения "натуральности" звучания синтезированной речи применяются дсперсионный и адаптивный фильтры.
Функциональная схема блока анализа MELP-вокодера представлена нарис. 3.5.
Входной речевой сигнал фильтруется и дискретизируется с частотой выборки 8000 выб/с. Число уровней квантования дискретизированного сигнала составляет 16 разрядов. Далее сигнал разбивается на речевые сегменты длительностью 22,5 мс и подается на блок определения КЛП. В этом блоке с помощью метода Дарбина-Левинсона [31] находятся 10 КЛП аІ5 которые являются коэффициентами фильтра кратковременного предиктора (синтезирующего фильтра) с системной функцией H(z) (3.1).
Как отмечалось выше, непосредственное квантование КЛП достаточно сильно сказывается на изменении АЧХ синтезирующего фильтра и его устойчивости. Поэтому вместо КЛП было предложено использовать описанные в п. 3.1 ЛСП [15,76], связанные с КЛП взаимно однозначным преобразованием, но обладающие рядом преимуществ:расположение их в порядке возрастания и сепарация друг от друга на расстояние не менее 50 Гц являются необходимыми и достаточными условиями устойчивости синтезирующего фильтра; квантование ЛСП существенно меньше сказывается на АЧХ синтезирующего фильтра, и, следовательно, необходимо существенно меньшее количество бит для передачи параметров сигнала при сохранении его качества.
При квантовании ЛСП будем использовать векторное квантование с использованием многостраничных фиксированных кодовых книг [70]. При этом находится номер вектора, имеющего минимальное взвешенное среднеквадратичное отклонение от полученного вектора ЛСП. Нами предполагается использование четырехстраничной кодовой книги (7 бит, 6 бит, 6 бит, 6 бит), в результате чего для кодирования вектора спектральных пар требуется 25 бит на речевой фрейм.
Полученные квантованные спектральные пары преобразуются обратно в КЛП и используются в инверсном фильтре краткосрочного предиктора, с помощью которого из исходного речевого сигнала выделяется сигнал возбуждения. Анализируя сигнал возбуждения [31], находят следующие параметры: ОТ, форму сигнала возбуждения (ФСВ) и голосовую активность в выбранных полосах.
Точная оценка ОТ является важной задачей, так как слух очень чувствителен к его искажениям. Исследования показывают [17,31 и др.], что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 мс до 18 мс, что создает значительные трудности при его определении. В настоящее время точного и не требующего чрезмерной задержки способа определения ОТ не существует, а в качестве наиболее надежного метода применяют корреляционные методы с интерполяцией сигнала возбуждения, основанные на базе теории Голда-Рабинера [30]. Передача оценки ОТ в синтезирующую часть вокодера требует 7 бит на фрейм [105].
В первых низкоскоростных вокодерах сигнал возбуждения представлял собой единичный (или другой формы) импульс для "голосовых" речевых фреймов и цифровую реализацию шумового сигнала для "шумовых" фреймов. Данная аппроксимация ФСВ при сохранении разборчивости синтезированного сигнала приводила к неестественному звучанию и снижению индивидуальности голоса диктора. В настоящее время более эффективным методом определения ФСВ является использование кодовых книг, содержащих набор векторов сигналов возбуждения, представленных во временной или частотной области. В описываемом вокодере предполагается использование кодовой книги из 256 векторов, представляющих упрощенные формы сигнала возбуждения в частотной области. При этом для передачи ФСВ требуется 8 бит на речевой фрейм [105].
Восстановление речевых сообщений на основе метода реконструктивной томографии
Анализируя процессы преобразования речевого сигнала на периферии слуха, и сравнивая их с алгоритмами томографической (послойной) реконструкции скрытых от непосредственного наблюдения закономерностей [48], адекватной представляется гипотеза о том, что слуховая система построена по принципу томографической системы [35]. Действительно, вид АЧХ слуховых фильтров (рис. 4.3 и 4.4) эквивалентен тем окнам, с раскрывом Afp(zm), m = l, тбм , через которые слуховая система как бы проецирует анализирует входной сигнал на nigM различных направлений (слоев), каждое из которых характеризует каким-либо образом передаваемое сообщение, состоящее из последовательности речевых образов, пока скрытых от наблюдения. Задача слуховой системы состоит в том, чтобы из принятого сложно-модулированного речевого сигнала, выделить (восстановить) закодированное в нем речевое сообщение. С этой целью в ее периферической части формируются проекционные данные - сигналы сенсорных высотных каналов, которые характеризуют восстанавливаемый речевой образ под тем или иным углом зрения. Угол зрения ф можно оценить как произведение характеристической (резонансной) частоты fr(z) слухового фильтра z-oro канала на интервал наблюдения Т, т.е. q (z) = 27tfr (z)T рад/с. Далее в центральных отделах слуховой системы на основе этих данных восстанавливается скрытое от непосредственного наблюдения передаваемое речевое сообщение (звук, фонема, дифон, слово и т.д.). Вопрос о том, каким образом это происходит в слуховой системе, остается пока открытым. Однако на основе нейрофизиологических исследований реакций нейронов различных ее отделов существует целый ряд подтверждений процедур, подобным используемым в реконструктивной томографии.
Исследование нейронов высших отделов слуховой системы показывает наличие эффектов обострения фронтов импульсных стимулов так, как это, например, происходит при дифференцировании сигналов. Установлен факт не только дифференцирования, но и низкочастотной фильтрации импульсных откликов нейронов в синаптических окончаниях дендритов нейронов. Кроме того установлено, что в высших отделах слуховой системы существует множество нейронов (их называют нейронами-детекторами), которые реагируют на суммарный эффект от множества реакций, полученных от различных сенсорных каналов (под разными углами) [48].
Предположив, что выдвинутая гипотеза справедлива, рассмотрим математические аспекты данной задачи. Пусть речевой сигнал s(t), содержащий информацию о некотором звуковом образе cs(tlst2), воздействует на слуховую систему в течение времени локальной стационарности Тлс. На периферии слуха скалярный сигнал s(t) преобразуется в многомерный стохастический точечный процесс dN(t,z), 0 z Z = 24 (где z — высота тона в барках), отображающий реакции множества нейронов слухового нерва. При этом, как подтверждено экспериментально [42,44], в качестве математической модели такого точечного процесса может выступать многомерная пуассоновская последовательность с плотностью вероятности вида где п - число импульсов, реализовавшееся в эксперименте на плоскости [z,t], -is(t,z) - текущая плотность импульсации z-ro канала, М - среднее число импульсов, которое приближенно может быть найдено как [102-104] Здесь, с учетом (4.13), (4.15), (4.17) и (4.26) при (Е)» %0 текущая плотность импульсации JJ.S (t, z) связана со средним значением статистики E(z,t) соотношением где IIQK(Z) = XO(Z)SLQ к(Ка2) — пороговая интенсивность, Gs(2nf(z),t) медленно изменяющаяся функция, практически постоянная на интервале Тлс, и несущая информацию о восстанавливаемом звуковом образе cs(t1?t2). Предположим, что величины p,s(t,z) характеризуют проекционные томографические данные R(t,(p) [48]. Найдем взаимосвязь этой функции с as(t,z). Для этого необходимо от переменной z перейти к переменной (p(z) = 27tf (z)T. Очевидно, при T = l/2f(zmax) 0 (p(z) 7i при О z zmax. Используя определение f (z) (4.6),