Содержание к диссертации
Введение
1 Низкоскоростные кодирующие системы для обработки речевого сигнала 12
1.1 Структура и методы сокращения избыточности в низкоскоростных кодирующих систем речевого сигнала 13
1.1.1 Кодеры с линейным предсказанием 14
1.1.2 Векторные квантователи ч. 22
1.2 Направления развития применения векторного квантования параметров представления речевого сигнала 30
Выводы 36
2 Учет межкадровых зависимостей в речевом сигнале при векторном квантовании 37
2.1 Предпосылки использования параметров функции возбуждения в качестве управляющих сигналов 37
2.2 Разработка способа обработки речевого сигнала на основе векторного квантования с управлением сигналом тон/шум 38
2.2.1 Разработка векторных квантователей речевых сигналов с управлением сигналом тон-шум 38
2.2.2 Разработка векторных квантователей с конечным числом состояний речевых сигналов с управлением сигналом тон-шум.. 44
2.2.3 Разработка алгоритма построения векторного квантователя с конечным числом состояний с управлением сигналом тон-шум.. 51
2.2.4 Алгоритм построения функции следующего состояния 54
2.3 Моделирование. 60
Выводы 67
3 Исследование и разработка векторного квантователя низкоскоростной кодирующей системы речевого сигнала 70
1 Влияние модуля вектора разделения на формирование кодовой книги 70
2 Формирование кодовых книг векторных квантователей и исследование характеристик 78
3 Разработка быстрого алгоритма поиска эталонного вектора на основе инвариантных относительно метрики преобразованиях и исследование характеристик 88
Выводы 110
Заключение 111
Список использованной литературы 115
- Направления развития применения векторного квантования параметров представления речевого сигнала
- Разработка способа обработки речевого сигнала на основе векторного квантования с управлением сигналом тон/шум
- Формирование кодовых книг векторных квантователей и исследование характеристик
- Разработка быстрого алгоритма поиска эталонного вектора на основе инвариантных относительно метрики преобразованиях и исследование характеристик
Введение к работе
Актуальность темы. Динамика развития систем информационного обмена, систем и сегей телекоммуникаций показывает, что возрастает потребность в передаче речевых сигналов (PC) в реальном масштабе времени. Пропускная способность подавляющего большинства каналов передачи информации является недостаточной, что обуславливает необходимость обработки исходного PC с целью его сжатия.
Загруженность каналов связи, интенсивно увеличивающееся число пользователей систем информационного обмена, особенно систем мобильной связи, и постоянно возрастающие требования к качественным характеристикам систем приводят к необходимости исследования потенциальных возможностей существующих методов и разработки новых методов сжатия речевых сигналов.
Широкий спектр задач, возникающих при кодировании информации, содержащейся в PC, стимулировал появление разнообразных теоретических методов и подходов, среди которых наиболее эффективным показал себя метод идентификации параметров PC: огибающей спектра (ПОС) и функции возбуждения (ПФВ) методом линейного предсказания. Этот вопрос исследовался Б.С. Аталом, М.Р. Шредером, Л.Р. Рабинером, Р.В. Шафером, Дж.Д. Маркелом, А.Х. Греем. Большой вклад в развитие методов оценивания параметров речевых сигналов внесли МЛЗ. Назаров, Ю.Н. Прохоров, Е.П. Пономарев, Г.А. Коротаев.
Невозможность повышения степени сжатия информации в PC при сохранении необходимого уровня показателей качества ниже битовых скоростей передачи 4,8 - 9,6 килобит в секунду в рамках теории линейного кодирования привело к активному развитию методов блочного или векторного квантования параметров представления PC. Этот вопрос исследовался И. Линдом, А. Бузо, P.M. Греем, Дж. Макхоулом, Г. Гишем, А. Гершо, а также рядом исследователей в Японии, Китае и Корее.
Основной темой исследований являлось создание параметрической модели представления функции возбуждения, что позволило получить высокий уровень естественности синтезированного речевого сигнала. Однако работы по исследованию характеристик векторных квантователей не прекращались. Дальнейшее развитие этого направления, которому посвятили свои труды М.О. Дунхам, P.M. Грей, а также другие исследователи, расширило область приложения автоматов с конечным числом состояний к различным задачам обработки речевых сигналов и привело к созданию алгоритмов ир<^гг'цг'г" "«"««""" ^ ^диици
РОС. национальная!
СПстеНУрг^-лД
числом состояний (ВККЧС). Однако достаточно полный анализ работы таких алгоритмов практически отсутствует.
Подключение к системам информационного обмена, системам и сетям телекоммуникаций традиционных средств передачи информации систем мобильной связи и цифровых систем передачи данных приводит к увеличению требований по компактности представления информации. Это приводит к увеличению требований к эффективности сжатия PC в речепреобразующих устройствах (РПУ). Повысить коэффициент сжатия PC в РПУ позволяют методы, основанные на использовании параметров функции возбуждения в качестве управляющих при векторном квантовании спектральных параметров PC. Необходимость обеспечения реального масштаба времени при кодировании и векторном квантовании PC накладывает жесткие требования по быстродействию на микропроцессорные устройства в составе РПУ. Однако разработке методов снижения вычислительных затрат при векторном квантовании ПОС и быстрых алгоритмов поиска эталонного вектора в последнее десятилетие уделяется недостаточное внимание.
Использование в качестве управляющих сигналов параметров функции возбуждения при векторном квантовании позволяет более точно описывать долговременные корреляционные зависимости в PC, и повысить коэффициент сжатия. Построение систем кодирования речевого сигнала, имеющих в составе векторные квантователи с управлением параметрами функции возбуждения (ФВ), анализ их работы являются актуальными задачами, так как решение подобных задач позволяет реализовать в реальном масшгабе времени РПУ с высокими показателями качества синтезированного PC без увеличения битовой скорости передачи.
Цель диссертационной работы заключается в разработке и исследовании методов обработки речевого сигнала с использованием параметров функции возбуждения в качестве управляющих сигналов векторных квантователей в составе кодирующих систем с низкой битовой скоростью передачи для повышения качества синтезированного речевого сигнала.
Для достижения поставленной цели предполагается решение следующих задач:
-
Исследование эффективности использования параметров функции возбуждения в качестве управляющих сигналов при векторном квантовании речевых сигналов;
-
Разработка способа обработки речевых сигналов, основанного на векторном квантовании с использованием параметров функции возбуждения в качестве управляющих;
-
Синтез структурных схем устройств, реализующих теоретические концепции векторного квантования, и проведение анализа качества их работы;
-
Исследование и разработка алгоритмов построения структурированных кодовых книг векторных квантователей, обеспечивающих снижение уровня вычислительных затрат на процедуру векторного квантования;
-
Разработка пакета программ для анализа характеристик разработанных алгоритмов векторного квантования речевых сигналов;
-
Оценивание вычислительных затрат, необходимого объема памяти и проведение анализа средств, реализующих процедуру векторного квантования PC в реальном масштабе времени при различных вариантах реализации.
Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы функционального анализа и математической статистики, теории статистических решений, а также методы локальной оптимизации в многомерных пространствах. Анализ полученных решений проводился с использованием методов вычислительной математики и статистического моделирования на ЭВМ.
Научная новизна. В рамках диссертации были получены следующие новые научные результаты.
-
Показана возможность использования параметров функции возбуждения в качестве управляющего сигнала при векторном квантовании речевых сигналов.
-
Разработан и исследован способ кодирования речевого сигнала на основе векторного квантования с конечным числом состояний спектральных параметров с использованием параметров функции возбуждения в качестве управляющих.
-
Модернизирован метод определения совокупности эталонных векторов путем нахождения локального оптимального разделения на кластеры в многомерном пространстве.
-
Разработан алгоритм поиска эталонного кодового вектора на основе инвариантного относительно метрики преобразования входного вектора и эталонов.
5. Проведено моделирование различных вариантов построения
векторных квантователей PC на ЭВМ и оценена их эффективность.
Достоверность научных положений, полученных результатов и выводов базируется на применении адекватного математического аппарата и подтверждается результатами моделирования на ЭВМ и экспериментальными акустическими тестами предпочтения.
Практическая ценность полученных результатов заключается в следующем:
1. Определен параметр функции возбуждения, являющийся наибо
лее эффективным с точки зрения использования в качестве управляю
щего сигнала векторного квантователя;
-
Предложены и исследованы способы построения векторных квантователей PC, а также векторных квантователей PC с конечным числом состояний с управлением сигналом тон-шум;
-
Разработаны структурные схемы речепреобразующих устройств и векторных квантователей, реализующие предложенные способы обработки PC;
-
Разработан и исследован алгоритм построения структурированных кодовых книг векторных квантователей сигналов, а также произведена оценка снижения вычислительных затрат на процедуру векторного квантования PC;
-
Разработан и исследован быстрый алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, произведена оценка снижения вычислительных затрат,
-
Разработан пакет программ, позволяющий провести сравнительный анализ показателей качества различных структур векторных квантователей и эффективности предложенных способов.
На защиту выносятся результаты теоретических и экспериментальных исследований:
-
Способ построения векторных квантователей PC, а также векторных квантователей PC с конечным числом состояний с управлением сигналом тон-шум, позволяющий снизить ошибки квантования ПОС;
-
Алгоритм построения структурированных кодовых книг векторных квантователей ПОС, снижающий вычислительные затраты при определении эталонных векторов кодовой книги векторного квантователя;
-
Алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, обеспечивающий снижение вычислительных затрат в процессе векторного квантования ПОС в реальном масштабе времени;
4. Результаты анализа различных способов построения векторных квантователей PC.
Внедрение результатов. Результаты диссертационной работы внедрены в ОКР ОАО «Муромский завод РИП», ОАО «НПП «Звукотех-ника», а также в учебный процесс Муромского института (филиала) ВлГУ. Исследования и практические разработки по теме диссертации были использованы при выполнении госбюджетной НИР «Исследование и разработка методов и аппаратуры обработки сигналов» (1995-2000 гг., № гос. per. 01910036569).
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Всероссийской научно-технической конференции «Новые информационные технологии. Информационное, программное и аппаратное обеспечение» (Таганрог, 1995); Международной научно-технической конференции «Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1996); Международной научно-технической конференции «Направления развития систем и средств связи» (Воронеж, 1996); Международной научно-технической конференции «Актуальные проблемы анализа к обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1997); Молодежной научно-технической конференции «XXIII Гагаринские чтения» (Москва, 1997); Международной научно-технической конференции «К.Э.Циолковский -140 лет со дня рождения. Космонавтика. Радиоэлектроника. Геоинформатика» (Рязань, 1997); II Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 1997); научно-технической конференции студентов и аспирантов вузов России «Радиотехника и электроника в народном хозяйстве» (Москва, 1998); Молодежной международной научно-технической конференции «XXIV Гагаринские чтения» (Москва, 1998); Молодежной международной научно-технической конференции «XXVI Гагаринские чтения» (Москва, 2000); на конференциях Муромского института Владимирского государственного университета и научных семинарах кафедры радиотехники МИ ВлГУ (1995 - 2000 гг.).
Публикации. По теме диссертации опубликовано 19 печатных работ, включая 7 статей, 4 доклада, 7 тезисов докладов и 1 патент РФ. Часть материалов изложена в научно-технических отчетах по НИР.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка используемой литературы и приложений. Общий объем работы составляет 127 страниц машинописного текста. Диссертация содержит 34 рисунка и 4 таблицы. Библиография
содержит 85 наименований, в том числе 19 работ автора. В приложении представлены документы, подтверждающие внедрение результатов работы и перечень разработанных программ.
Направления развития применения векторного квантования параметров представления речевого сигнала
На данном этапе развития цифровых вокодеров наблюдаются две задачи: приближение качества синтезированного речевого сигнала к естественному звучанию в диапазоне битовых скоростей передачи от 4800 до 9600 бит в секунду и построение вокодеров в диапазоне от 1200 до 2400 бит в секунду. Основным критерием качества сверхнизкоскоростных вокодеров (1200-2400 бит в секунду) является разборчивость, а такие показатели качества как узнаваемость диктора, оценка эмоционального состояния и им подобные второстепенны. В первой задаче основные исследования ведутся в направлении поиска более качественной модели функции возбуждения, в то время как во второй задаче основными проблемами являются высококачественное кодирование формы огибающей спектра, так как основным методом сокращения избыточности ПОС является их совместное или векторное квантование.
Применение методологии векторного квантования к кодированию параметров речевого сигнала поставило ряд проблем. Во-первых, важной проблемой оказалось обеспечение устойчивости синтезирующих фильтров. Так как при векторном квантовании происходит совместное квантование набора (вектора) параметров, то в случае использование коэффициентов фильтра отсутствует гарантия устойчивости синтезирующего фильтра. Использование в качестве передаваемых параметров коэффициентов фильтра исследовалось Итакурой и Саито [55], и было показано, что при скалярном квантовании требуется не менее 9-10 бит на коэффициент для обеспечения устойчивости синтезирующего фильтра. Кроме того, было показано, что при линейной интерполяции коэффициентов даже в этом случае не гарантируется устойчивость фильтра на приемной стороне. Наибольшее распространение получило использование в качестве передаваемых параметров коэффициентов отражения. Они непосредственно получаются в автокорреляционном методе, необходимым и достаточным критерием устойчивости в данном случае служит ограничение коэффициентов отражения по модулю менее единицы, а устойчивость синтезирующего фильтра, полученного интерполяцией автокорреляционных коэффициентов, следует из того, что линейная интерполяция элементов положительно определенных теплицевых матриц дает положительно определенную теп-лицеву матрицу.
В случае применения векторного квантования параметров огибающей спектра выбор параметров представления огибающей спектра не ограничивается условием обеспечения устойчивости синтезирующего фильтра. Важным моментом является выбор метрики пространства векторов представления огибающей спектра или в более общем случае выбор меры расстояния между векторами. Неоднозначность данного выбора следует из особенностей восприятия разборчивости и качества представления человеческим мозгом. В настоящее время ведется поиск адекватной модели особенностей восприятия человеком речи [64-71,82-85].
Получающиеся в результате решения Левинсона-Дарбина коэффициенты отражения не являются самым оптимальным представлением для параметров ПОС для последующей передачи. Поиск решения этой проблемы привел к появлению целого ряда представлений, наибольшее распространение из которых получили линейные спектральные пары. Однако, несмотря на улучшение характеристик векторных квантователей с использованием линейных спектральных пар над другими представлениями корреляция между объективными и субъективными показателями качества систем преобразования речи невысока. Приближающийся к единице (0,96) коэффициент корреляции между объективными и субъективными показателями качества систем преобразования речи на основе использования кепстральных мер расстояния, исследованных Дж. Хансеном и С. Нандкумаром [35] положили начало исследованиям малопараметрических кепстральных представлений параметров огибающей спектра речевого сигнла [72-74] и поиску мер расстояний, обладающих высокой степенью корреляции с субъективными показателями качества речевых сигналов [75].
Предложенный в 80-ом году алгоритм нахождения совокупности эталонных векторов или кодовой книги векторного квантователя [23], получивший впоследствии название ЛБГ-алгоритм, имеет ряд существенных недостатков, некоторые из которых не устранены по настоящее время. В настоящее время практически отсутствуют результаты исследований в области векторного квантования параметров функции возбуждния. Этот подход позволит либо увеличить коэффициент сжатия информации в системах протоколирования или в справочных системах, либо позволит при менять более сложные модели функции возбуждения без увеличения битовой скорости передачи.
Разработка способа обработки речевого сигнала на основе векторного квантования с управлением сигналом тон/шум
В самом простом случае на вход векторного квантователя подается дополнительный управляющий сигнал тон-шум, выделенный в текущем кадре. Это позволит разделить кодовые книги и, следовательно, эталонные кодовые векторы. Таким образом, вдвое увеличивается количество эталонных векторов, а увеличения битовой скорости передачи не происходит, так как признак тон-шум все равно передается на принимающую сторону. Рассмотрим более подробно такой векторный квантователь. Работает это устройство следующим образом (рисунок 2.1). С выхода кодера с линейным предсказанием (КЛП) на вход решающего устройства векторного квантователя РУї поступает вектор параметров огибающей спектра я, а в качестве управляющего сигнала на него же поступает сигнал тон/шум. В решающем устройстве РУї из двух векторных квантователей ВК] и ВК2, выбирается рабочий и на его вход передается вектор a. После процедуры векторного квантования решающее устройство РУ2 в зависимости от значения сигнала тон/шум передает на выход век торного квантователя либо канальный символ с\ с выхода векторного квантователя для вокализованных фрагментов речевого сигнала, либо канальный символ с2 с выхода векторного квантователя для невокализован-ных фрагментов речевого сигнала.
Сигнал тон/шум берется с соответствующего выхода КЛП, а если он отсутствует, то предварительно выделяется из параметров представления функции возбуждения. Следует отметить, что использование данной структуры векторного квантователя не накладывает никаких ограничений на способ представления параметров огибающей спектра, а также на методы формирования кодовых книг векторных квантователей. Например, можно использовать линейные спектральные пары и классический метод построения кодовой книги Линда (Linde Y), Бузо (Buzo А.) и Грея (Gray R.M.), в литературе получивший название ЛБГ-алгоритм [23]. Алгоритм построения кодовой книги ВК с управлением сигналом тон/шум При построении множества эталонных кодовых векторов или кодовой книги используется алгоритм с самообучением и, соответственно, обучающая последовательность Х= {х(ї), 1 / «} разбивается на две самостоятельных обучающих последовательности для случаев: Так как, количество обучающих векторов при построении кодовой книги должно, по крайней мере, быть в 50-100 раз больше, чем количество эталонных кодовых векторов [11], то необходимо выполнять проверку этого условия для «і И «2. Рассмотрим более подробно структуру алгоритма ВК при управлении процедурой ВК сигналами тон/шум текущего кадра и предыдущего кадра. Структурная схема передающей части векторного квантователя с управлением сигналом тон/шум от текущего и предыдущего кадра приведена на рисунке 2.2. При построении множества эталонных кодовых векторов или кодовой книги используется алгоритм с самообучением и, соответственно, обучающая последовательность разбивается на четыре самостоятельных обучающих последовательности для случаев: Рассмотрим более подробно процедуру проектирования ВК, то есть алгоритма построения четырех кодовых книг ВК методом неравномерной дихотомии. Рассмотрим случай Производятся аналогичные расчеты, заменив в формулах условия (2.2) (2.3) (2.6) выражение (2.1) на (2.21) (2.22) (2.23) соответственно. Предложен способ [25] преобразования речи на основе векторного квантователя с конечным числом состояний (ВККЧС). Предлагаемый спо соб преобразования речевого сигнала осуществляют следующим образом. В процедуры векторного квантования и векторного деквантования в качестве управляющего параметра вводят значение сигнала тон-шум - Т/Ш и Т/Ш соответственно. Таким образом, процедуры векторного квантования и векторного деквантования имеют вид: с = a\a,Sn, Т/Ш J и а = р [с ,S n,Т/Ш ) соответственно. Кроме того, функция следующего состояния приобретает вид: Sn+l-fee(Sn,c,T/Ul) и +1 =/сД5 ,с ,Т/Ш ) для процедуры векторного квантования и процедуры векторного деквантования соответственно, где: а - процедура векторного квантования; а - вектор параметров огибающей спектра речевого сигнала; Sn - номер текущего состояния векторного квантования, 5=1, 2,..., N; N- число состояний; п - номер рассматриваемого кадра; Т/Ш - сигнал тон/шум при векторном квантовании; с - канальный символ на входе линии связи; Р - процедура векторного деквантования; с - канальный символ на выходе линии связи; S\ - номер текущего состояния векторного деквантования; а - вектор восстановления параметров огибающей речевого сигнала; Т/Ш - сигнал тон/шум при векторном деквантовании; fee ФУНКЦИЯ следующего состояния векторных квантования и деквантования; Sn, і - номер следующего состояния векторного квантователя; S пг\ - номер следующего состояния векторного деквантователя. Использование сигнала тон-шум в качестве дополнительного управляющего параметра при векторном квантовании и деквантовании позволяет разделить множество эталонных кодовых векторов восстановления для вокализованных и невокализованных фрагментов речевого сигнала, что обеспечивает возможность вдвое увеличить общее количество эталонных кодовых векторов восстановления без увеличения битовой скорости передачи. Это позволит повысить качество синтезированного речевого сигнала. Использование сигнала тон-шум в качестве дополнительного управляющего параметра в функции следующего состояния позволяет разделить фонемные переходы с вокализованного и фонемные переходы с невокализо-ванного фрагментов речевого сигнала. Это позволит более точно описать последовательности фонемных переходов речевого сигнала. Обобщенная структурная схема системы связи на базе речепреобра-зующего устройства с ВККЧС с управлением сигналом тон-шум приведена на рисунке 2.3.
Формирование кодовых книг векторных квантователей и исследование характеристик
Одним из вариантов устранения недостатков присущих ЛБГ-алгоритму является использование структурированной кодовой книги построенной методом неравномерной дихотомии [11, 23, 40-41]. Для уменьшения величины средних искажений и максимального использования бит откажемся от равномерного ветвления дерева. Процедуру обучения построим следующим образом. На каждом этапе процесса разделения определяется полное искажение, вносимое каждым кластером. Кластер, дающий наибольшее искажение разделяется в первую очередь, после чего процесс повторяется. Отметим, что в этом случае число уровней может быть любым целым числом, не обязательно равным 2В, где В — целое число. Для битовых скоростей кодирования в районе 1,0 бит/параметр разница в средней величине ошибок квантования между полным перебором и неравномерной дихотомией составляет всего около 0,25 дБ. Для многих приложений это небольшое отличие компенсируется экономией вычислительных затрат, достигаемой при поиске по методу дихотомии. Поиск по методу дихотомии представляет собой частный случай из класса методов ВК, называемых ВК с древовидным поиском, причем метод дихотомии — простейший из этого класса. Вообще в каждом узле дерева можно разделять пространство более чем на две подобласти (К 2). Такой метод отличается от метода дихотомии большим объемом вычислений при некотором улучшении рабочих характеристик.
Однако, поскольку во многих приложениях характеристики квантования при использовании методов дихотомии и полного перебора весьма близки, обычно целесообразно применять более экономичный поиск по методу дихотомии с неравномерным деревом. Дерево поиска при неравномерной дихотомии, четырнадцати промежуточных векторах Vj и шестнадцати эталонных кодовых векторах у приведено на рисунке 3.3. Алгоритм построения кодовой книги методом неравномерной дихотомии. Шаг 0. Определение и формирование данных. Выбирается мера расстояния между векторами х и у. На практике наиболее часто пользуются средней и среднеквадратической ошибкой, так как при этих мерах наиболее просто определить центроиды кластеров. Краткое описание работы алгоритма. Просматривая всю таблицу D -искажений вносимых кластерами, выбирается максимальное значение D и соответствующий этому D номер кластера, вносящего наибольшие искажения. Переменой М присваивается номер кластера, вносящего наибольшие искажения. По величине искажений, вносимых кластером DM, определяется вектор є , на который будут отличаться вектора итерационного процесса разделения кластера х м, хм .
После определения пары векторов итерационного процесса разделения кластера проводится перераспределение векторов обучающей последовательности, входивших в исходный кластер. Номер кластера, к которому принадлежит вектор из обучающей последовательности, хранится в таблице 510, где в соответствии с номером вектора из обучающей последовательности стоит номер кластера, к которому принадлежит вектор. Перераспределив векторы, определяются центроиды новых кластеров х м, х"м\ вычисляются искажения, вносимые новыми кластерами Da, центры новых кластеров, записываются в конце таблицы V: VL — х м , VL+l =х"м, где L и 1+1 - номера строк; искажения вносимые новыми кластерами записываются в конце таблицы D: DL = Da, DL+t = Db. В таблицу Рг на строке с номером М записывается число L — номер строки в которой в таблице V записан первый из двух векторов — центроидов кластеров хм, на которые был разделён кластер М. В таблицу D на строку с номером М записывается 0, чтобы в ходе дальнейшего выполнения алгоритма не разделять кластер с номером М. В таблице в место элементов, равных М, записываются номера кластеров L и 1+1 в соответствии с принадлежностью векторов к кластерам L или L+1. Процесс итерационного разделения обучающей последовательности на кластеры повторяется до тех пор, пока искажения, вносимые каждым из кластеров, не станет меньше требуемых максимальных значений или пока число эталонных векторов восстановления не станет равным или большим требуемого значения.
Разработка быстрого алгоритма поиска эталонного вектора на основе инвариантных относительно метрики преобразованиях и исследование характеристик
Существует ряд представлений векторов ПОС. Основными являются: коэффициенты отражения, логарифмы отношений площадей, линейные спектральные пары и кепстральные коэффициенты. Ряд исследований [34-39] показал, что в зависимости от налагаемых требований в разных случаях наиболее приемлемыми являются различные представления векторов параметров огибающей спектра. Так, например, линейные спектральные пары наиболее устойчивы к процедуре векторного квантования, а кепстральные коэффициенты наиболее адекватны субъективным показателям качества синтезированного речевого сигнала.
При реализации векторных квантователей в реальном масштабе времени наиболее важной задачей является снижение вычислительных затрат на поиск эталонного кодового вектора. Предложено множество методов поиска эталонного вектора [42-50].
Однако большинство из них заключается в разделении гиперпространства векторов ПОС на локальные области уже после создания кодовой книги и без учета информации по разделению гиперпространства в процессе построения кодовой книги. Это приводит к снижению показате лей качества при использовании таких алгоритмов ввиду неправильной классификации входного вектора ПОС.
Поэтому наибольшее распространение получили такие методы как: метод полного перебора и метод неравномерной дихотомии. Методы равномерной и неравномерной дихотомии весьма похожи, т.к. оба метода относятся к методу иерархической кластеризации пространства ПОС. Эти методы имеют целью сокращение вычислений по сравнению с поиском по методу полного перебора. Они основываются на геометрических представлениях в пространстве ПОС. В этих методах кодовая книга подвергается предварительной обработке, а операции умножения заменяются на операции сравнения: при этом требования к памяти возрастают. Число операций умножения удается сократить примерно на порядок. Метод дихотомии весьма существенно сокращает вычислительные затраты по сравнению с другими методами за счет некоторого ухудшения рабочих характеристик, так как структурированная кодовая книга не проходит заключительной оптимизации. При поиске эталонного вектора по методу дихотомии при увеличении числа бит на вектор затраты возрастают линейно, а не экспоненциально, как в методе полного перебора.
Предложен метод векторного квантования [51-53], основанный на поиске кодового вектора по методу дихотомии. Проведено исследование быстрого алгоритма поиска, снижающего вычислительные затраты на классификацию. Поиск проводится в неэвклидовом пространстве - расстояние между векторами определено не как среднеквадратичное (1.28), а как среднее (1.30) при v = 1.
Одним из наиболее эффективных путей снижения скорости передачи сигналов, обладающих избыточностью, является применение методов векторного квантования (ВК), при котором осуществляется совместное квантование блока параметров [23]. При ВК определяется эталонный вектор, ближайший к входному вектору, и передается его номер. Одним из важнейших моментов построения системы ВК является выбор меры искажения, или расстояния между векторами. Рассматриваемые ниже алгоритмы базируются на среднем значении абсолютной ошибки: где Л: - входной вектор, v - кодовый вектор, N - размерность вектора.
Здесь и далее по тексту верхние индексы в скобках обозначают номер итерации, верхние индексы без скобок определяют номер кодового вектора.
При поиске кодового вектора в системах с ВК необходимо определить в соответствии с (3.21) меру искажений между входным и всеми эталонными векторами и найти эталонный вектор, при котором мера искажений минимальна. Метод дихотомии позволяет снизить количество операций вычисления меры искажений с L до 2-log2L, где L - размерность кодовой книги. Для поиска кодового вектора по методу дихотомии необходимо log2 L раз определить, какой из двух векторов является ближайшим к входному вектору. Предлагаемый алгоритм позволяет произвести быструю классификацию входного вектора и осуществляется в многомерном бинарном пространстве на основе инвариантных относительно меры искажений преобразований. Пусть входной вектор равен
На т-ы этапе необходимо из двух векторов найти кодовый вектор, обеспечивающий минимальное значение меры искажений (3.21). Компоненты векторов х, vk , vk+I являются выходными сигналами скалярного квантователя, который строится таким образом, чтобы при изменении величины сигнала от минимального до максимального значения выходной сигнал квантователя изменялся бы от [0;0 .. 0] до [1;1 .. 1]. Размерность бинарного сигнала на выходе скалярного квантователя равна /, т.е. число уровней квантования равно 21. Вектор v можно представить в виде матрицы где у7,,у-2 v v J является бинарным представлением у-го компонента век тора. Кодовая книга хранится в памяти именно в виде совокупности мат риц И, =1,2.../,. Входной вектор х преобразуется в бинарную матрицу X аналогичным образом. Преобразования в бинарном пространстве осуществляются в два этапа. Основной операцией первого этапа является снижение размерности входного и кодовых векторов. На втором этапе для целей классификации используется информация, содержащаяся в старших разрядах компонентов входного и кодовых векторов. Поскольку количество разрядов, требуемых для классификации априори неизвестно, то для определения момента завершения процесса классификации введем вектор порогов классификации Структурная схема алгоритма обработки приведена на рисунке 3.9. Определение эталонного вектора производится за log2 L циклов. На т-и 7ІШ цикле на классификатор подаются матрицы: входная X, кодовые У ,У вектор порогов классификации h. Классификатор определяет номер к или к+\ матрицы V, ближайшей к входной. Номер подается на определитель номера следующих кодовых векторов (т+\) цикла, которые подаются на кодовую книгу. Рассмотрим более подробно принцип действия классификатора.