Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса Якушев Дмитрий Владимирович

Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса
<
Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Якушев Дмитрий Владимирович. Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса : диссертация ... кандидата технических наук : 05.13.18 / Якушев Дмитрий Владимирович; [Место защиты: Ставроп. гос. ун-т].- Ставрополь, 2008.- 192 с.: ил. РГБ ОД, 61 09-5/239

Содержание к диссертации

Введение

1 Анализ методов решения обратной задачи относительно формы голосового источника на основе обратной фильтрации с помощью модели линейного предсказания 18

1.1 Основные определения и постановка обратной задачи для голосового источника 19

1.1.1 Анатомические и физические детали образования вокализованной речи 19

1.1.2 Постановка обратной задачи для голосового источника 21

1.2 Обзор параметрических моделей голосового источника 23

1.2.1 Модели объемной скорости воздушного потока через голосовую щель и ее первой производной : 24

1.3 Аэродинамическая модель голосовой щели 26

1.3.1 Математическая модель площади голосовой щели 29

1.4 Анализ технологии обратной фильтрации в исследовании голосового источника с помощью модели линейного предсказания 30

1.4.1 Процедура обратной фильтрации 32

1.4.2 Анализ речевых сигналов с помощью модели линейного предсказания 35

1.4.3 Методы оценивания коэффициентов модели линейного предсказания .' 37

1.4.4 Сопоставление различных алгоритмов обратной фильтрации 42

1.5 Анализ методов оценки параметров голосового источника на основе обратной фильтрации с помощью модели линейного предсказания 46

1.5.1 Результаты оценивания параметров голосовой щели с помощью вариационного метода, основные недостатки 46

1.5.2 Результаты оценивания параметров голосовой щели с помощью метода среднеквадратической аппроксимации, основные недостатки 48

1.6 Достоинства и недостатки статистического моделирования в решении обратной задачи для голосового источника. Постановка задачи исследования 51

1.7 Выводы 55

2 Анализ этапов процедуры реконструкции математической модели динамической системы по порождаемому временному ряду 58

2.1 Процедура реконструкции математической модели динамической системы по порождаемому временному ряду 59

2.1.1 Схема моделирования по временным рядам. Постановка задачи и этапы реконструкции 62

2.1.2 Восстановление компонент векторов состояния модели исследуемой динамической системы 64

2.1.3 Реконструкция математической модели исследуемой динамической системы - синтез моделей 68

2.1.4 Проверка реконструированной модели на адекватность исследуемому объекту 71

2.2 Пример оценки параметра дискретного отображения по хаотическим временным рядам с шумом 72

2.2.1 Оценка параметров дискретного отображения с кубической нелинейностью в условиях отсутствия шума 74

2.2.2 Оценка параметров дискретного отображения с кубической нелинейностью в условиях динамического шума 75

2.3 Увеличение временного окна реконструкции математической модели хаотической динамической системы с помощью дробно — рационального интерполирования 78

2.3.1 Реконструкция эталонной хаотической системы с помощью алгебраического многочлена 80

2.3.2 Реконструкция эталонной хаотической системы с помощью дробно -рационального интерполирования 82

3

2.4 Примеры прогнозирования хаотических систем 83

2.4.1 Методы прогнозирования дискретных отображений по хаотическим временным рядам 84

2.4.2 Методы прогнозирования автоколебательных систем 87

2.5 Выводы 88

3 Исследование решения обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса 90

3.1 Разработка процедуры реконструкции математической модели речевого процесса по акустическим параметрам речевого сигнала 91

3.1.1 Постановка обратной задачи речевой акустики 93

3.1.2 Оценка коэффициентов реконструированной модели речевого процесса 95

3.2 Реализация технологии обратной фильтрации с помощью процедуры реконструкции математической модели речевого процесса по акустическим параметрам речевых сигналов 98

3.2.1 Разработка метода и алгоритма обратной фильтрации с помощью процедуры реконструкции математической модели речевого процесса по акустическим параметрам речевого сигнала 103

3.2.2 Приемы решения обратной задачи для голосового источника 104

3.3 Оценка параметров модели аэродинамического потока через голосовую щель с помощью метода наименьших квадратов 106

3.4 Разработка процедуры реконструкции математической модели голосового источника 110

3.5 Выводы 118

4 Вычислительный эксперимент с использованием реконструированных моделей речевого процесса 121

4.1 Результаты вычислительного эксперимента по оценке коэффициентов реконструированной модели речевого процесса 123

4.1.1 Результаты оценивания коэффициентов реконструированной модели речевого процесса, отражающих индивидуальные особенности речевой акустики на фиксированном интервале времени 126

4.1.2 Пример практического приложения траекторий коэффициентов реконструированной модели речевого процесса 129

4.2 Результаты вычислительного эксперимента по оценке точности восстановления объемной скорости воздушного потока через голосовую щель с помощью модели реконструкции речевого процесса по акустическим параметрам речевого сигнала 130

4.2.1 Результаты оценки точности восстановления объемной скорости воздушного потока через голосовую щель по коэффициентам модели линейного предсказания и модели реконструкции речевого процесса на материале синтезированных гласных 134

4.2.2 Пример оценки параметров голосового источника с помощью процедуры реконструкции математической модели речевого процесса на материале реальных гласных 138

4.3 Результаты численного эксперимента определения формы импульсов голосового возбуждения в речевом тракте с помощью исследования модели аэродинамического потока через голосовую щель 141

4.3.1 Результаты оценки параметров модели аэродинамического потока через голосовую щель с помощью линейного метода наименьших квадратов 143

4.3.2 Результаты оценки параметров модели аэродинамического потока через голосовую щель с помощью нелинейного метода наименьших квадратов 146

4.3.3 Пример восстановления нелинейных характеристик модели аэродинамического потока через голосовую щель на материале реальной гласной 150

4.4 Анализ величин ошибок реконструированной модели голосового источника при разной размерности пространства вложения и порядка алгебраического многочлена 152

4.4.1 Результаты вычислительного эксперимента по определению ошибок реконструированной модели голосового источника с модифицированными алгоритмами определения параметров реконструкции 154

4.4.2 Результаты применения дробно-рационального интерполирования для снижения ошибки реконструкции математической модели голосового источника 157

4.5 Пример реконструкции речевого сигнала 159

4.6 Разработка схемы анализа речевых сигналов 163

4.7 Выводы 166

Заключение 167

Литература

Введение к работе

Актуальность темы исследования. К числу основных задач речевых технологий относятся задачи распознавания речи, идентификации и, верификации диктора по голосовым данным. Решения этих задач находят широкое применение в комплексных системах защиты информации при биометрической идентификации человека. Большой вклад в развитие анализа речевых сигналов внесли специалисты: Фант, Фланаган, Маркел, Грей, Рабинер, Шафер. Среди отечественных специалистов можно выделить: В.Р. Женило, В.Я. Чучупал, А.Н. Собакин, и т.д. Исследованием условий решения речевых обратных задач для речевых технологий занимается речевая группа: В.Н. Сорокин, И.С. Макаров - лаборатории Информационных технологий передачи, анализа и защиты информации на базе Института проблем передачи информации им. А.А. Харкевича

Решением обратной задачи для голосового источника является определение формы импульсов голосового возбуждения в речевом тракте, определяемой колебаниями голосовых связок. Параметры колебаний голосовых связок являются индивидуальными и используются для практических приложений речевых технологий. Определение колебаний голосовых связок связано с реализацией технологии обратной фильтрации, которая основана на подавлении резонансов речевого тракта, в результате которого остаются импульсы голосового возбуждения.

Для реализации технологии обратной фильтрации используется модель линейного предсказания с рекурсивной структурой. Рекурсивная структура модели линейного предсказания в условиях реальной среды распространения речевого сигнала создает эффект накапливания ошибок во времени и может привести к значительному смещению полученных оценок параметров голосового источника. Другим существенным недостатком статистического подхода к обработке экспериментальных данных является предположение о прямой зависимости между точностью полученных оценок параметров исследуемой системы и объемом выборки стационарного сигнала, так как речевой сигнал является нестационарным. Существующее деление системы речеобра-зования на две компоненты - голосовой источник и речевой тракт искусственно, так как на физиологическом уровне система речеобразования является неделимым целым. Следовательно, существующий математический аппарат анализа речевых сигналов неадекватен его природе.

Выявленные недостатки статистического подхода к анализу речевых сигналов позволяют сделать вывод о недостаточной изученности проблемы речеобразования. Альтернативным подходом к анализу речевых сигналов и изучению нелинейных динамических систем - голосовой источник и процесс речеобразования является использование динамического подхода, основанного на реконструкции математической модели динамической системы по порождаемому временному ряду в рамках теории детерминированного хаоса.

Реализация технологии обратной фильтрации с помощью процедуры реконструкции математической модели речевого процесса на зашумленных участках речевого сигнала позволяет существенно снизить неблагоприятное внешнее воздействие, так как уравнения движения, используемые в качестве реконструированной модели речевого процесса, нерекурсивны и исключается возможность проявления эффекта накапливания ошибок.

Цель исследования: разработка методов решения обратной задачи для голосового источника с помощью процедуры реконструкции математической модели динамической системы по порождаемому временному ряду.

' Для достижения поставленной цели решались следующие задачи исследования:

1. Разработать метод решения обратной задачи для голосового источника на основе процедуры реконструкции математической мо- дели речевого процесса. -2. Оценить форму импульсов голосового возбуждения в речевом тракте с помощью процедуры реконструкции математической модели аэродинамического потока через голосовую щель.

  1. Разработать метод анализа речевых сигналов с помощью процедуры реконструкции математической модели голосового источника по акустическим параметрам речевого сигнала.

  2. Снизить ошибки реконструкции формы импульсов голосового возбуждения в речевом тракте.

Объект исследования: динамические системы - процесс речеобра-зования и голосовой источник.

Предмет исследования: временной ряд, являющийся реализацией процесса речеобразования - речевой сигнал, либо сигналом из голосового источника — импульсы голосового возбуждения в речевом тракте.

Методы исследования. Для решения сформулированных частных научных задач использовались методы: моделирования динамических систем, анализа временных рядов и речевых сигналов, теории цифровой обработки сигналов, идентификации систем, оптимизации, математической статистики.

Достоверность полученных результатов основывается на непротиворечии с известными в литературе результатами, проведением вычислительных экспериментов, проверкой полученных моделей на адекватность исследуемому объекту.

Научная новизна результатов, полученных в работе, состоит в следующем:

  1. Разработан новый метод и алгоритм обратной фильтрации на основе процедуры реконструкции математической модели речевого процесса, позволяющий снизить неблагоприятное воздействие реальной среды распространения речевых сигналов.

  2. Получена оценка параметров модели аэродинамического потока через голосовую щель по речевому сигналу с помощью метода наименьших квадратов.

  1. Разработан новый метод анализа речевых сигналов с помощью процедуры реконструкции математической модели голосового источника по акустическому сигналу, расширяющий возможности исследования обратной задачи для голосового источника.

  2. Продемонстрирована возможность снижения ошибки реконструкции голосового источника с помощью дробно-рационального интерполирования.

Практическая значимость заключается в следующем. Разработанные методы могут быть использованы:

  1. Для идентификации и верификации диктора по голосу, распознавании пола диктора и отнесения его к определенной возрастной группе в комплексных системах с разграничением доступа к информации.

  2. В решении обратной задачи для голосового источника с помощью динамического подхода на материале зашумленных речевых сигналов.

  3. В создании программного обеспечения для детального исследования речевых сигналов в условиях реальной среды распространения, синтезе речи, корректировке медицинских диагнозов.

Положення, выносимые на защиту:

  1. Метод и алгоритм анализа речевых сигналов с помощью процедуры реконструкции математической модели речевого процесса по акустическому сигналу.

  2. Метод реконструкции математической модели аэродинамического потока через голосовую щель по речевому сигналу с помощью метода наименьших квадратов.

  3. Метод анализа речевых сигналов с помощью процедуры реконструкции математической модели голосового источника по акустическим параметрам речевого сигнала.

  4. Снижение величины ошибки реконструкции математической модели голосового источника с помощью дробно - рационального интерполирования.

Апробация работы. Результаты исследований по теме диссертационной работы отражены в 18 публикациях. Из них 2 в журналах, рекомендованных ВАК.

Основные результаты диссертационного исследования были использованы в разработках систем контроля и управления доступа ЗАО «Стилсофт», внедрены в учебный процесс Ставропольского государственного университета. Работа поддержана грантом РФФИ № 06-01-00020 — «Структурирование выявления несоответствий и прогнозирования эволюционных дискретных процессов и систем при наличии долговременных корреляций».

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений.

Аэродинамическая модель голосовой щели

Получение физиологически правдоподобных оценок параметров колебаний голосовых связок, определяющих форму голосового источника, порождающего импульсы голосового возбуждения в речевом тракте, необходимо в речевых технологиях, в системах идентификации и верификации диктора, синтезе речи, медицинской диагностике [1, 2, 3, 4, 5, 6, 7, 8, 9].

В настоящее время систему речеобразования принято делить на две компоненты. Это голосовой источник и речевой тракт [1, 3] . Такое деление весьма искусственно, так как на физиологическом уровне она представляет собой неделимое целое. Однако такой подход значительно облегчает задачу анализа речевых сигналов. Предполагается, что система «голосовой источник — речевой тракт» линейна [1, 3, 5]. В этом случае формирование импульсов голосового возбуждения происходит независимо от акустических характеристик речевого тракта. И амплитудно - частотная характеристика анализируемого речевого сигнала пропорциональна произведению передаточных функций голосового источника и речевого тракта. В общем случае, предположение о линейности системы речеобразования спорно, в силу сложности речевого процесса.

Под обратной задачей для голосового источника будем понимать определение формы голосового источника по измеренному акустическому сигналу на основе технологии обратной фильтрации [4].

В данной главе представлены основные определения, постановка задачи исследований, методы решения обратной задачи для голосового источника с помощью различных моделей, технология обратной фильтрации с помощью модели линейного предсказания, рассмотрены основные недостатки данного подхода.. Основные определения и постановка обратной задачи для голосового источника

Даже краткое описание строения системы речеобразования и возбуждения звуков полезно для последующего объяснения моделей, используемых в анализе речевых сигналов. Ниже изложены основные детали образования вокализованной речи и представлена постановка задачи исследований.

С точки зрения анатомии источник образования вокализованных звуков, составляющих речь, расположен в гортани [2, 10]. Она расположена между глоткой и трахеей и проводит воздух в трахею, а так же выводит из нее. На рис. 1.1 представлена топография входа в гортань.

Рис. 1.1. Вход в гортань. 1 - срединная язычно-надгортанная складка; 2 -надгортанник; 3 - надгортанниковый бугорок; 4 - голосовая щель; 5 -грушевидный карман; 6 - задняя стенка глотки; 7 - межчерпал овидная вырезка; 8 - рожковидный бугорок; 9 - клиновидный бугорок; 10 - голосовая складка; 11 - преддверная складка; 12 - черпалонадгортанная складка; 13 - латеральная язычно-надгортанная складка (из [10])

Вход в гортань ограничен спереди надгортанником, латерально -черпалонадгортанными складками и сзади - межчерпаловидной вырезкой [10]. За входом в гортань расположена полость гортани, имеющая три отдела. Это преддверие гортани - пространство от входа в гортань до щели преддверия; средний отдел гортани - голосовой аппарат, лежит между щелью преддверия и голосовой щелью; нижний отдел гортани расположен ниже голосовых связок [10]. На рис. 1.2 представлена топография полости гортани.

Под голосовой щелью будем понимать проход между голосовыми связками, самое узкое место гортани. В голосовой щели различают межперепончатую часть, ограниченную голосовыми связками, и более широкую межхрящевую часть, расположенную между черпаловидными хрящами [10]. На боковой поверхности голосового аппарата расположен желудочек гортани - углубление на слизистой оболочке, располагающееся вдоль внутренней поверхности щитовидного хряща и заканчивающееся мешочком гортани. Межсвязочное пространство соответствует положению ложных и истинных голосовых связок [10]. Между ложными и истинными связками на боковых поверхностях гортани имеются карманы Морганьи, направленные своим дном вверх [10]. Слизистая оболочка карманов снабжена большим количеством желез, вырабатывающих слизь для смазывания голосовых связок [10].

Схема речеобразующей системы (из [1]) Вокализованная речь образуется проталкиванием воздуха через голосовую щель. При этом голосовые связки периодически напрягаются и расслабляются, образуя квазипериодические импульсы потока воздуха, которые являются импульсами голосового возбуждения в речевом тракте.

С точки зрения физики этот процесс можно описать следующим образом. Голосовые связки препятствуют прохождению воздушного потока из легких в речевой тракт. Когда давление в легких нарастает, воздушный поток проходит между голосовыми связками через голосовую щель. Давление в голосовой щели падает по мере нарастания воздушного потока — эффект Бернулли. Вследствие натяжения голосовых связок и падения давления в голосовой щели связки смыкаются, вновь препятствуя прохождению воздушного потока через голосовую щель. В результате давление повышается до уровня размыкания голосовых связок. Давление в голосовой щели снова падает. Таким образом, возникают условия, благоприятствующие вибрации голосовых связок и формированию импульсов голосового возбуждения в речевом тракте.

Восстановление компонент векторов состояния модели исследуемой динамической системы

Примером другого способа измерения площади голосовой щели является метод скоростной киносъемки [3, 16].

Объемную скорость измеряют с помощью метода безотражательной трубы [3, 17], реализация которого весьма трудоемка.

Общей чертой представленных методов является сложность их практической реализации, когда исходными данными являются отсчеты речевого сигнала и по этим отсчетам требуется оценить параметры голосового источника.

Возможностью обойти существующие трудности обладает технология обратной фильтрации [3, 4]. К настоящему моменту этой технологии посвящено множество работ [18 - 28]. Так же множество работ посвящено сопряженным вопросам анализа речевых сигналов и голосового источника, физиологическим и физическим аспектам [29 — 45]. Сущность данного метода состоит в подавлении резонансов речевого тракта, в результате которого остаются импульсы голосового возбуждения. Интегрируя полученные импульсы, переходим к волнам объемной скорости. В отличие от вышеперечисленных методов, метод обратной фильтрации является косвенным и характеризуется погрешностью оценки импульсов голосового возбуждения. Погрешность возрастает с зашумленностью речевого сигнала. Легко проверить, что после обратной фильтрации, полученный сигнал - остаток, интерпретируемый как импульсы голосового возбуждения, дает разборчивую речь, что свидетельствует об эффекте остаточных формантных колебаний и, следовательно, искажении оцененных импульсов голосового возбуждения относительно истинных импульсов возбуждения. Тем не менее, технология обратной фильтрации востребована в анализе речевых сигналов, в силу своей доступности.

Таким образом, модели производной от объемной скорости удобны тем, что могут использоваться для аппроксимации сигнала — остатка, полученного непосредственно после обратной фильтрации [4, 11, 46 — 54]. Представляет интерес LF-модель [55, 56]. Недостатком такого подхода является недопустимая величина ошибок аппроксимации и дисперсии полученных оценок параметров голосового источника на некоторых сегментах анализируемых речевых сигналов и голосовых данных некоторых дикторов [4, 46, 50, 52].

В ряде работ были осуществлены попытки аппроксимации объемной скорости и ее первой производной степенными [57 — 59] и тригонометрическими полиномами [60, 61]. В других работах использовалось решение системы дифференциальных уравнений [62, 63]. Недостаток таких моделей - это невозможность физической интерпретации входящих в данные модели параметры.

В ряде работ результаты обратной фильтрации аппроксимировались параметрическими моделями площади голосовой щели [64 — 67]. Такой подход выгодно отличается от параметрических моделей объемной скорости и ее производной физиологической интерпретируемостью и физической адекватностью своих параметров. А так же простотой программной реализации.

В соответствии с линейной теорией речеобразования, когда связь между голосовым источником и речевым трактом предполагается линейной и, следовательно, постулируется независимость источника возбуждения и акустики речевого тракта. Речевой сигнал в амплитудно-частотной области будет равен произведению передаточной функции речевого тракта на спектр сигнала возбуждения. Соответствующее z-преобразование этого произведения имеет вид [1]

Предположим, что передаточная функция речевого тракта для вокализованной речи имеет только полюсы. Это предположение следует из того, что мнимая часть комплексной частоты, на которой передаточная функция имеет локальный максимум (полюс) пропорциональна резонансной (формантной) частоте, а действительная часть ее ширине. Таким образом, будем понимать под полюсом оценку соответствующей резонансной (формантной) частоты и ее ширины. Из теории речеобразования речевой тракт резонирует, возбуждаясь импульсами от голосового источника. Следовательно, мнимые части полюсов соответствуют формантным частотам речевого тракта. Так как передаточная функция речевого тракта имеет только полюсы, то она может быть записана в виде дроби. При этом в числитель без ограничения общности можно положить равным единице, в общем случае некоторой константе, а знаменатель можно положить равным некоторому полиному, степень которого будет равна количеству полюсов речевого тракта, а нули полинома будут совпадать с полюсами речевого тракта. В соответствии с приведенными рассуждениями представим аппроксимацию передаточной функции речевого тракта следующим образом [4, 18]

Оценка коэффициентов реконструированной модели речевого процесса

Основным достоинством процедуры реконструкции математической модели динамической системы по порождаемому временному ряду является относительная простота оценки параметров с помощью линейного метода наименьших квадратов. И возможность варьировать размерность и порядок модели (3.3) для достижения наилучших результатов реконструкции речевого сигнала по имеющемуся, в отличие от повышения порядка модели линейного предсказания, имеющего свои пределы. Чтобы не повышать порядка используемого алгебраического многочлена и размерности, можно использовать дробно - рациональное интерполирование, что позволяет добиться существенного улучшения результатов реконструкции математической модели речевого процесса.

Непосредственное моделирование речевого процесса - это весьма проблематичная процедура. Полученные результаты могут оказаться непригодными для дальнейшего практического применения. Основная причина неуспешного моделирования по речевому сигналу заключается в его сложной структуре. Рассмотрим структуру речевого сигнала с позиций динамического подхода к анализу экспериментальных данных.

По экспериментальным данным, роль которых у нас играют отсчеты оцифрованного речевого сигнала, восстановим аттрактор, то есть притягивающее множество, имеющее всюду плотную траекторию решения реконструированных уравнений движения (3.3), то есть уравнений моделирующих развитие звуковой волны во времени. Векторы состояния динамической системы - речевого процесса в каждый момент времени состоят из трех компонент. Одна из которых - это отсчеты сегмента анализируемого речевого сигнала. И две оставшихся компоненты — это отсчеты сигналов, полученные с помощью методов последовательного дифференцирования или интегрирования по отсчетам исходного речевого сигнала. Таким образом, размерность пространства вложения D согласно модели (3.3) равна трем. Как отмечалось выше, в случае, если D не удовлетворяет условию теоремы Мане (2.5), что негативно отражается на результатах реконструкции, размерность пространства вложения D увеличивается. Такой подход позволяет избежать проблемы оценивания размерности аттрактора, так как полученные результаты оценки размерности аттрактора исследуемой динамической системы являются косвенными и по сложным речевым сигналам проблематично реализовать алгоритмы оценки аттрактора и получить корректные результаты.

На рис. 3.3 представлено 500 отсчетов речевого сигнала для фонемы /а/, с частотой дискретизации равной 8000 Гц. Проекции полученных фазовых портретов динамической системы - речевой процесс на двумерную плоскость (xitx7) для методов последовательного дифференцирования и интегрирования

Проекция фазового портрета динамической системы - речевой процесс на плоскость (xitx2), с компонентами векторов состояния, полученными с помощью метода последовательного интегрирования для речевого сигнала, представленного нарис. 3.3

Как видно из рис. 3.4 и рис. 3.5 структура речевого сигнала отличается сложностью. Для фазовых портретов, полученных с помощью различных метод восстановления компонент векторов состояния модели исследуемой динамической системы, характерным является наличие точек самопересечения фазовой траектории и ее изрезанность. Аппроксимация такого сигнала с помощью синтеза моделей далеко не всегда будет успешной, а, следовательно, результаты такой аппроксимации будут непригодны для практических приложений.

Рассмотрим структуру сигнала из голосового источника. Для получения импульсов голосового возбуждения в речевом тракте воспользуемся технологией обратной фильтрации с помощью линейного предсказания. Для оценки коэффициентов модели линейного предсказания воспользуемся ковариационным методом, порядок модели линейного предсказания равен 10. На практике, в случае получения оценок коэффициентов модели линейного предсказания по более чем 200 отсчетам оцифрованного речевого сигнала с частотой дискретизации 8000 Гц используется больший порядок. Но для рассматриваемого случая величина порядка модели линейного предсказания не играет определяющей роли. Для предыскажения речевого сигнала можно воспользоваться нерекурсивным фильтром первого порядка (3.8).

По полученным отсчетам сигнала - остатка, интерпретируемого как первая производная объемной скорости воздушного потока через голосовую щель, восстановим аттрактор динамической системы - голосовой источник. Для этого воспользуемся методами последовательно дифференцирования и интегрирования. На рис. 3.6, рис. 3.7 и рис. 3.8 представлены результаты -сигнал из голосового источника и проекции полученных фазовых портретов на двумерную плоскость (е,,е2).

Из представленных результатов реконструкции аттракторов динамической системы - речевой процесс и динамической системы - голосовой источник с помощью различных методов восстановления компонент векторов состояния модели исследуемой динамической системы следует преимущество метода последовательного интегрирования для реконструкции аттрактора динамической системы - голосовой источник. Полученная фазовая траектория, представленная на рис. 3.8, имеет минимум самопересечений и отличается гладкостью.

Таким образом, возможности аппроксимации по сигналу из голосового источника имеют преимущество по сравнению с аппроксимацией непосредственно речевого сигнала. А метод последовательного интегрирования предпочтителен в реконструкции аттрактора динамической системы — голосовой источник по сравнению с методом последовательного дифференцирования.

Для моделирования формы импульсов голосового возбуждения в речевом тракте воспользуемся процедурой реконструкции математической модели динамической системы - голосовой источник по импульсам из голосового источника. Для восстановления компонент векторов состояния модели динамической системы - голосовой источник воспользуемся методом последовательного интегрирования. Порядок модели примем равным трем. Размерность пространства вложения D = 3. Повышение порядка модели способствует уменьшению погрешности аппроксимации. Реконструируемая модель имеет вид

Пример практического приложения траекторий коэффициентов реконструированной модели речевого процесса

Из информации представленной в таблице 4.7, таблице 4.8, таблице 4.9 и таблице 4.10 следует зависимость значений оцененных коэффициентов от динамики исследуемого сигнала. Они не являются постоянными.

Можно сделать вывод о несовершенстве модели аэродинамического потока через голосовую щель, не отображающей всей динамики воздушного потока через голосовую щель. Поэтому форма импульсов, оцененных с помощью преобразования (4.10) вне зависимости от метода оценки коэффициентов дает значительное смещение по . сравнению с эталонами, представленными на рис. 4.11 и рис. 4.14.

Эксперимент показал недостаточность структуры модели аэродинамического потока через голосовую щель, предполагающую постоянное значение параметра ширины голосовых связок И. Так как этот параметр не может быть постоянным и его изменение связано с деформацией поверхности голосовых связок во время колебаний. Предварительно оценив эту нелинейность можно уточнить вычисленные значения импульсов голосового возбуждения в речевом тракте.

Используя преобразование (4.10) было получено формульное выражение для коэффициента h(t). Значения h{t) были вычислены для каждого значения производной объемной скорости и объемной скорости из обратной фильтрации, площади голосовой щели, полученной с помощью рекурсивной формулы (4.7). Вычисленные значения h{t) подставлялись в преобразование для первой производной объемной скорости (4.10). Остальные значения коэффициентов были фиксированными.

В вычислительном эксперименте использовался сегмент фонемы /а/ длиной 25 мс с частотой дискретизации 22050 Гц, длина сегмента была выбрана произвольно. Для обратной фильтрации использовалась модель линейного предсказания с порядком равным 30. Речевой сигнал не фильтровался во избежание искажений вносимых фильтрацией. В качестве приближения к площади голосовой щели использовалась параметрическая модель (1.14) для скрипучего типа голоса с а =2, /?=1. На рис. 4,17, рис. 4.18 и рис. 4.19 представлен результат вычислительного эксперимента. коэффициентов преобразования (4.10) нелинейной характеристикой, представленной на рис. 4.19. Такой подход позволяет без искажений пользоваться моделью аэродинамического потока через голосовую щель (4.9). Что значительно влияет на точность полученных. результатов и расширяет возможности исследования обратной задачи для голосового источника.

Анализ величин ошибок реконструированной модели голосового источника при разной размерности пространства вложения и порядка алгебраического многочлена Моделирование формы импульсов голосового возбуждения в речевом тракте имеет прямое отношение к решению обратной задачи для голосового источника. При наличии соответствующих доработок в алгоритмах для практических задач реконструированная модель может быть использована для сжатия речи, синтеза речи, идентификации и верификации диктора по голосовым данным, диагностике заболеваний гортани.

Для моделирования сигнала голосового источника была использована процедура реконструкции математической модели голосового источника. Применение процедуры реконструкции к сигналу из голосового источника предполагает определение параметров реконструкции. Это размерность пространства вложения D, временная задержка г для реконструкции исходного аттрактора, размерность исходного аттрактора d. Знание параметров реконструкции позволяет задать отображение A.D:A AR, определяющее вложение исходного аттрактора А в его реконструкцию AR.

На практике вычисление параметров реконструкции связано с рядом вычислительных трудностей, которые преодолимы, но не дают гарантированно несмещенные оценки параметров реконструкции. Поэтому при моделировании экспериментальных сигналов рассматриваются возможные модификации алгоритмов вычисления параметров реконструкции исходного аттрактора.

Для определения размерности пространства вложения D исходного аттрактора голосового источника, был использован подход наращивания размерности от двух к трем. Можно отметить, что неограниченное наращивание размерности D может отрицательно сказаться на результатах реконструкции исследуемой динамической системы.

В определении размерности d исходного аттрактора А голосового источника не было необходимости. Так как последовательное наращивание размерности D позволяет выполнить условие теоремы Мане 2М+1 без вычисления размерности исходного аттрактора d.

Метод временной задержки для восстановления компонент векторов состояния модели исследуемой динамической системы, определяющих реконструированный аттрактор, был модифицирован следующей процедурой определения компонент векторов состояния. В качестве сигнала голосового источника рассматривался временной ряд y(t,)- оцифрованный сегмент оценки импульсов-голосового возбуждения в речевом тракте по результатам обратной фильтрации. Компоненты векторов состояния вычислялись с помощью следующих представлений xD_k{tl+At) = AtxD_k_l(tl) + xD_k{tl),k = D-l,D-2,...D-D. (4.12) Здесь х0 (t,) = y(t,). Для начальных значений компонент х, (/0), х2 (tQ), х, (/0) было задано значение, равное 0.1, At = 0.01. Таким образом, процедура определения временной задержки т была заменена более простым представлением (4.12). Так как нет необходимости предварительно определять значение т.

В качестве нелинейности, аппроксимирующей сигнал голосового источника, использовались многочлены размерности D с порядками от двух до пяти. Ошибки sDP реконструированной модели голосового источника с различными параметрами реконструкции, в качестве которых рассматривалась размерность D и порядок алгебраического многочлена Р, определялись с помощью представления

Похожие диссертации на Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса