Введение к работе
Актуальность темы. Спектральные преобразования речевых сигналов (PC) являются удобным аппаратом, позволяющим достигать значительного сокращения избыточности и повышения информативности описания речи. Компактное спектральное представление PC обеспечивают разложения Карунена-Лозва, каноническое разложение и разложения, основанные на синтезированных приспособленных базисных системах. Эти методы позволяют получать оптимальные спектральные представления PC с необходимыми свойствами в заданном классе преобразований, но требуют значительных вычислительных затрат. Для уменьшения объема вычислений при реализации алгоритмов обработки PC целесообразно использовать быстрые разложения по системам базисных функций Уолша и Хаара. Таким образом, аппарат обобщенного спектрального анализа PC позволяет повысить эффективность по заданному показателю качества алгоритмов обработки PC. Основы теории и практические рекомендации по применению обобщенного спектрального анализа сигналов изложены в работах Н.Я. Внленкина, С. Качмажа, Г. Штейнгауза, А.М. Трахтмана, В.А. Трахт-мана, X. Хармута, Н. Ахмеда, К.Р. Рао и др.
Методы спектрального преобразования с восстановлением широко используются при кодировании, передаче и хранении PC. К настоящему времени разработаны и частично внедрены в пракгаку системы высококачественной цифровой передачи речевых сигналов со скоростью 16...32 Кбит/с. В развитие теории и практики кодирования и передачи PC существенный вклад внесли работы М.А. Сапожкова, А.А. Пирогова, В.Г. Михайлова, а также работы Дж. Маркела, А. Грея, Л. Рабинера, Р. Шафера и др. Достигнутые успехи выдвинули на первый план задачу устранения ограничений существующих систем обработки и высокоэффективной передачи PC, к которым можно отнести невысокое качество восстановленного PC, а также значительное снижение эффективности кодирования речи при наличии искажений и шумов. Основным требованием к методам обработки в этом случае является уменьшение размерности представления PC при заданном критерии приближения и допустимой величине, ошибки аппроксимации. Известные методы спектрального кодирования PC недостаточно полно учитывают особенности слухового восприятия речи и нестационарную структуру PC, что в совокупности с использованием неоптимальных базисных систем снижает эффективность сжатия исходного речевого сообщения при допустимом качестве восстановленной речи. Тем более, что важным условием функционирования систем речевой связи является обработка PC в реальном масштабе времени. Поэтому актуальна проблема снижения вычислительных затрат и улучшения качественных параметров
алгоритмов спектрального кодирования PC.
В работах К.Фукунаги, Р.Дуда, П.Харта, СВатанабэ, В.А.Омельченко и др. показана эффективность применения обобще:пгх спектральных преобразований исходных сигналов в системах распознавания. В системах распознавания используются спектральные методы без восстановления исходного сигнала. При этом особое значение имеет устойчивость спектральных оценок к мешающим факторам процедуры классификации. К таким факторам относятся вариативность и зашумленность PC, влияние чувствительности алгоритмов формирования признаков к временному сдвигу, изменению продолжительности звучания элементов речи и т.п. Особенно существенно влияние вариативности PC на вероятность правильной классификации первичных элементов речи таких, как фонемы, дифоны, аллофоны и т.п. Вариативность речи обусловлена множеством причин, среди которых возможны позиционные и комбинационные изменения речевого состава, индивидуальные особенности строения голосового аппарата, влияние ситуации и внешнего окружения, вносимые линейные и нелинейные искажения. Использованием методов фильтрации и позиционирования, применением дополнительной нелинейной обработки спектральных компонент PC достигается снижение влияния вариативности речи. Вследствие этого представляют ;urrepec разработка и исследование эффективных с точки зрения вычислительных затраї, слабой чувствшй>и.и~„іи к вариативности речи алгоритмов обобщенного спектрального представления PC.
Цель и задачи работы. Основной целью данной работы является разработка эффективных алгоритмов обобщенной спектральной обработки PC, учитывающих специфику речи, в интересах повышения качества функционирования систем передачи и обработки речевой информации.
Поставленная цель работы включает решение следующих задач:
синтез и анализ базисных систем обобщенного спектрального представления PC, оптимальных по заданным показателям качества в требуемом классе дискретных операторов;
разработка алгоритма отбора значимых спектральных компонент, учитывающего численную оценку качества восстановленной речи;
разработка алгоритмов восстановления PC по искаженным спектральным отсчетам быстрого преобразования Уолша;
разработка алгоритма клиппирования с предварительной обработкой PC для уменьшения общей вычислительной сложности алгоритма расчета параметров авторегрессионной модели речи;
разработка алгоритма сегментации непрерывного PC на участки акустической однородности;
разработка алгоритма формирования общих признаков Карунена-Лоэва, слабо чувствительных к индивидуальным особенностям дикторов,
для эффективного распознавания элементов речи;
- разработка алгоритма синтеза спектральных признаков, учитывающего разделимость спектральных признаков элементов речи.
Научная новизна работы состоит в следующем.
-
Предложен алгоритм синтеза базисных систем, учитывающий среднеквадратическую ошибку аппроксимации как сигнала, так и его производной.
-
Показана возможность использования численной оценки качества речи в алгоритмах отбора значимых элементов спектра для повышения эффективности кодирования речи.
-
Показана возможность применения методов регуляризации АН. Тихонова и модифицированного метода псевдообращений для высококачественного восстановления речи, кодированной с помощью быстрого преобразования Уолта.
-
Предложен алгоритм клиширования PC для уменьшения вычислительных затрат при вычислении параметров авторегрессионной модели без снижения качества речи.
-
Предложен алгоритм сегментации непрерывного PC па участки акустической однородности, слабо чувствительный к неинформативным флюкгуациям параметров PC и с низкими вычислительными затратами.
-
Предложен алгоритм формирования общих признаков Карунена-Лоэва, слабо чувствительных к индивидуальным особенностям дикторов.
-
Предложен алгоритм, повышающий разделимость обобщенных спектральных признаков в условиях значительной вариативности речевого материала.
Практическая значимость диссертационной работы. Представленные в работе алгоритмы обобщенного спектрального представления. PC могут быть использованы в таких радиотехнических системах, как системы передачи информации, системы интерактивного взаимодействия человека и машины, информационно-справочные системы с распознаванием PC, системы экономного хранения PC, медицинские системы диагностики и т.д. Реализация результатов исследований позволит повысить эффективность устройств обработки PC с точки зрения вычислительных затрат, качества восстановления и снижения чувствительности к вариативности речи.
Основные положения, выносимые на защиту.
1. Алгоритм синтеза оптимальных по комбинированному критерию качества базисных систем, слабо чувствительных к вариативности PC и уменьшающих динамический диапазон ошибки аппроксимации.
-
Алгоритмы восстановления PC на основе методов регуляризации А.Н. Тихонова и псевдообращения в кодеках речи, использующих быстрое преобразование Уолша.
-
Алгоритм клшширования PC с предварительной фильтрацией, позволяющий уменьшить вычислительные затраты при оценке параметров авторегрессионной модели без снижения качества речи.
-
Алгоритм сегментации непрерывного PC на участки акустической однородности, слабо чувствительный к неинформативным флюктуациям параметров PC и с низкими вычислительными затратами.
-
Алгоритмы формирования спектрального признакового пространства, позволяющие получать признаки, слабо чувствительные к вариативности речевого материала.
Методы проведения исследований. В работе использовались методы теории обобщенных спектральных разложений, теории вероятности, теории распознавания образов и вычислительной математики.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались: на Международных [3,8,9,10,22,23], Всероссийских [1,2,5,6,7,12,13,18...21,30] научных конференциях и семинарах, а также на 34-й и 35-й конференциях профессорско-преподавательского состава РГРТ А.
Внедрение результатов работы. Результаты диссертационной работы внедрены в учебный процесс РГРТА и Московского технического университета связи и информатики, а также в региональной сети передачи данных "Ринфотелс", что подтверждено соответствующими актами.
Публикации. По теме диссертации оігубликовано 32 работы. Из них 4 статьи в центральной печати, 1 учебное пособие, 7 статей в межвузовских сборниках, 18 тезисов докладов на конференциях и 2 отчета о НИР.
Структура и объем работы. Диссертационная работа состоит из введения, трех главі заключения, библиографического списка из 123 наименований и 2 приложений. Диссертация содержит 150 с, в том числе 108 с. основного текста, 2 таблицы и 45 рисунков.