Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Перервенко Юлия Сергеевна

Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния
<
Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Перервенко Юлия Сергеевна. Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния : диссертация ... кандидата технических наук : 05.11.17 / Перервенко Юлия Сергеевна; [Место защиты: Юж. федер. ун-т].- Таганрог, 2009.- 175 с.: ил. РГБ ОД, 61 09-5/3032

Содержание к диссертации

Введение

1 Обзор литературных источников 10

1.1 Голосовые анализаторы эмоциональных реакций 10

1.2 Физиологические нелинейности речевого тракта 20

1.3 Методы нелинейной динамики применительно к анализу речевых сигналов .. 25

1.4 Цели и задачи диссертационной работы 29

2 Теоретические методы нелинейной динамики применительно к анализу речи 32

2.1 Исследование речи на хаотичность и стационарность 32

2.2 Графический анализ эмоциональной речи методами нелинейной динамики 47

2.3 Вычисление инвариантов нелинейной динамики 75

2.4 Выводы 96

3 Экспериментальные исследования речи человека оператора в условиях профессиональной деятельности 100

3.1 Акустические характеристики рабочего помещения 101

3.2 Описание системы экспериментального исследования речи человека-оператора в реальных условиях 108

3.3 Выводы по эксперименту 120

4 Принципы построения системы анализа речевого сигнала 121

4.1 Обобщенная блок-схема системы анализа речевого сигнала 121

4.2 Алгоритм обработки речевого сигнала 124

5.1 Описание программного обеспечения 140

5.2 Выводы по главе 4 153

заключение 155

список литературы 158

Введение к работе

Труд человека в системах управления техникой (деятельность человека-оператора) связан с периодическим, иногда довольно длительным и интенсивным воздействием (или ожиданием воздействия) экстремальных значений профессиональных, социальных, экологических факторов, которое сопровождается негативными эмоциями, перенапряжением физических и психических функций, деструкцией деятельности. Наиболее характерным психическим состоянием, развивающимся под влиянием указанных факторов у человека-оператора, является психологический стресс. Развитие стресса в экстремальных условиях операторской деятельности может быть связано также с возможностью, ожиданием, угрозой воздействия на человека оператора разнообразных раздражителей, физико-химической, психологической (личностной), организационной и, прежде всего, профессиональной природы [24].

Анализ состояния человека в процессе его трудовой деятельности предполагает оперативное получение информации [101]. Для мониторинга психофизиологического состояния оператора существует множество способов [102-110], как правило, они заключаются в замере физиологических показателей (ЧСС, кровяного пульсонаполнения, КГР и т.д.), однако все эти методы нуждаются в установке контактных датчиков.

В связи с этим создание системы непрерывного слежения за эмоциональным состоянием человека-оператора, использующей в качестве диагностического критерия динамические изменения в структуре его речевых сигналов, является наиболее перспективным.

Акустическая информация, используемая при речевой коммуникации, характеризуется двойственной природой: с одной стороны, она материальна, так как распространяется в форме звуковых волн, с другой стороны, она является инструментом, с помощью которого передаются и понимаются мысли партнерами по коммуникации.

Речевые знаки обладают исключительной силой выражения. Они могут адекватно передавать даже сложнейшие нюансы мышления при условии, что они правильно и хорошо сформулированы и слушатель обладает способностью их воспринимать [95-100]. Эта форма передачи внутренних состояний мыслительного сознания одного партнера другому называется рациональной функцией речи. Однако существует еще одна функция речи -эмоциональная. Ее изучению частично посвящена данная диссертация.

Значительный прорыв в исследовании стохастических и детерминистских нелинейных временных рядов и их моделировании был достигнут за последние годы. В настоящее время обработка речевых сигналов методами нелинейной динамики и последующий анализ нелинейных характеристик приобретает все большее значение в области речевой акустики. В данной диссертации ставится вопрос о возможности нахождения классификационных признаков эмоций с помощью методов нелинейной динамики. Окружающий нас мир полон нелинейных явлений и процессов, правильное представление о которых немыслимо без понимания возможности хаоса, а так же связанных с этим принципиальных ограничений на предсказуемость поведения сложных систем. Одно из направлений применения методов нелинейной динамики связано с проблемой обработки сигналов. За последние годы были предложены методики, позволяющие выяснить, какого типа системой был произведен сигнал, а так же получить информацию о ее свойствах и характеристиках. Таким образом, аппарат нелинейной динамики является инструментом исследования, позволяющим сделать заключение или предположение о структуре объекта, сконструировать его динамическую модель и т.д. Разработку методов и алгоритмов анализа сигналов можно считать важным направлением нелинейной динамики, непосредственно связанным с возможными приложениями.

Большой вклад в развитие речевой акустики внесли ученые Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Р.К. Потапова, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров, С.Л. Коваль, В.Г. Михайлов, В.П. Бондаренко, Л.Н. Балацкая, Е.Л. Чойнзонов и др. Однако, необходимо отметить, что до сих пор не установлена связь между параметрами анатомии речеобразующей системы, ее динамикой и параметрами голоса.

Основы исследования динамических систем с позиций детерминированного хаоса были заложены Ляпуновым A.M., Колмогоровым А.Н., Пригожиным И.Р., Анищенко B.C., Ж.А. Пуанкаре и др. Изучение речевых сигналов с помощью методов нелинейной динамики проводились многими исследователями и организациями. Наибольший вклад в теорию анализа одномерных временных рядов внесли Ф. Такенс, А. Вольф, П. Грассберг, И. Прокаччиа, A.M. Фрайзер, Н.Х. Паккард, Д.С. Брумхэд, Г.П. Кинг, А. Реньи. Анализ речевых сигналов методами нелинейной динамики проведен в работах: «Нелинейный анализ речи как перспектива синтеза речи», Майкл Бэнбрук, 1996; «Патологический тремор: Детерминистский хаос или нелинейный стохастический осциллятор?» Дж. Тиммер, С. Хойслер, М. Лаук, С.-Х. Люкинг, Американский институт физики, 2000; «Нелинейный анализ и синтез речи» Х.-Н.Л. Теодореску, Ф. Григорас, В. Апопей, 2001; «Идентификация нелинейных волновых моделей для речевого анализа и синтеза» Г. Кубин, К. Лайнсцек, Е. Ранк, Университет Калифорнии, 2005 и др.

Разработаны множество приборов для анализа речи, например, анализатор эмоциональной речи, измеритель интенсивности речевых высказываний и др. В том числе в ЗАО «ОКБ «Ритм» и на кафедре электрогидроакустической и медицинской техники ТТИ ЮФУ в течение последних лет проводятся совместные исследования по выявлению возможности анализа психофизиологического состояния человека-оператора (на примере диспетчеров Северокавказской железной дороги (СКЖД)) с помощью его речи (Хроматиди А.Ф., 2005 г). В рамках этих работ были получены новые научные и практические результаты, которые легли в основу данной диссертации.

Диссертация состоит из 4 глав, введения, заключения, библиографического списка и приложений.

В первой главе был проведен обзор литературы по истории создания устройств для анализа голоса. Рассмотрены современные системы для анализа голоса, принципы, положенные в основу подобных систем. Рассмотрены физиологические и акустические причины нелинейностей, возникающих в речевом аппарате человека. Показано, что речевой тракт можно рассматривать как нелинейную диссипативную систему и применить для его анализа методы нелинейной динамики. Проанализированы работы по нелинейной динамике применительно к анализу речевого сигнала (научные статьи, диссертации). Выявлены достоинства нелинейного анализа и возможные перспективы.

Во второй главе рассмотрены теоретические основы методов нелинейной динамики применительно к анализу речевых сигналов. Исследован речевой сигнал на «хаотичность» с помощью следующих методов нелинейной динамики: построение рекуррентных графиков, вычисление корреляционной размерности, построение отображений Пуанкаре, расчет характеристических показателей Ляпунова, энтропии второго порядка. Рассмотрены теоретические основы фазо-пространственной реконструкции сигнала. Обоснован выбор оптимального критерия для реконструкции траекторий динамической системы из временного ряда, характеризующего речевой сигнал. Рассмотрено влияние эмоционального состояния человека на геометрию аттрактора. Построено отображение Пуанкаре и рекуррентные графики для временных рядов фонем для разных эмоциональных состояний. Вычислены следующие инварианты нелинейной динамики для временных рядов: характеристические показатели Ляпунова и корреляционная размерность. Детально рассмотрены метод корреляционных интегралов, методы построения фазовых портретов и выбор оптимальных параметров (внедренная размерность (размерность внедренного пространства), временная задержка). Изучено изменение рассчитанных инвариантов нелинейной динамики для полярных эмоциональных состояний. Проведена статистическая обработка результатов вычислений. Рассмотрены источники ошибок при оценке.

Третья глава содержит экспериментальную часть данной диссертации. Она включает в себя результаты исследований речи диспетчеров СКЖД полностью в производственных условиях и их последующий анализ с выдачей рекомендаций по распознаванию эмоциональных состояний человека. Рассмотрены акустические условия записи речи человека-оператора в производственных условиях рассчитано время реверберации и акустическое отношение, сделан вывод о том, что разборчивость речи находится в. допустимых пределах для данного типа помещения. Анализ полученных экспериментальных данных осуществлялся с помощью методов нелинейной динамики по методике, предложенной и обоснованной во второй главе.

В четвертой главе показана возможность практического использования методов анализа речи для определения психофизиологического состояния человека-оператора. Предложены принципы построения системы для анализа речевого сигнала и распознавания психофизиологического состояния. В частности, предложена блок-схема системы обработки и анализа речи с помощью методик, разработанных в главе 2 и экспериментально подтвержденных в главе 3. Разработан алгоритм обработки речевого сигнала, включающий запись речи, фильтрацию, удаление шумовой компоненты методом спектрального вычитания, выделение фонем, обработка сигналов методами нелинейной динамики для получения количественного и графического анализа психофизиологического состояния человека-оператора (корреляционная размерность, максимальный характеристический показатель Ляпунова, энтропия второго порядка, размерность внедренного пространства, отображение Пуанкаре, рекуррентные графики, фазовые портреты). Осуществлена программная реализация блока обработки речевого сигнала методами нелинейной динамики.

Библиографический список данной диссертации состоит из 113 наименований.

Приложения представляют собой справки и акты о внедрении основных результатов диссертационной работы.

Научная новизна диссертационной работы

Научная новизна проведенных исследований заключается в рассмотрении как теоретически, так и экспериментально, одномерного продукта системы речевого тракта человека — речевого сигнала - при определенных эмоциональных состояниях с применением аппарата нелинейной динамики.

В диссертации защищаются следующие научные положения. 

1. В известных методиках анализа речи отсутствует учет эмоциональной составляющей, в связи с чем количественная оценка психофизиологического состояния человека-оператора по речевому сигналу является актуальной научно-технической задачей, решение которой с применением методов нелинейной динамики имеет существенное значение для создания медицинской техники профилактического и реабилитационного назначения.

2. Критерии выделения участков речи, пригодных для анализа методами нелинейной динамики, позволяющие провести предварительный анализ сигнала на хаотичность.

3. Инварианты нелинейной динамики речи, впервые предложенные в качестве визуальных и количественных оценок психофизиологического состояния человека-оператора.

4. Принципы построения системы аудиоанализа психофизиологического состояния человека-оператора в условиях профессиональной деятельности.

Наиболее существенные новые научные результаты

1. Рассчитаны инварианты нелинейной динамики эмоциональной речи, ранее не применявшиеся для анализа психофизиологического состояния человека-оператора.

2. Предложена оригинальная методика анализа речи методами нелинейной динамики, позволяющая получить количественную и качественную оценку эмоциональной речи.

3. Разработаны принципы построения системы анализа речи человека-оператора в условиях профессиональной деятельности, позволяющей с точностью до 72% (по экспертной оценке) определить его психофизиологическое состояние.  

Методы нелинейной динамики применительно к анализу речевых сигналов

Методы обработки сигналов методами нелинейной динамики нашли свое применение во многих сферах науки и техники. Во многих научных статьях и трудах они используются для анализа временных рядов.

Многие исследователи предполагали, что достижения в нелинейной динамике, особенно в разработках инструментов анализа хаотичности, могут быть применены в анализе речевых сигналов в области моделирования, кодирования или компрессии [26, 28, 30, 31, 37, 60, 61]. Неоднократно сообщалось об анализе сложных речевых сигналов на размерность [26, 30, 31, 37, 61]. Было показано, что профили энтропии речевого сигнала дают более полное описание его структуры по сравнению со спектром, потому что энтропия инвариантна относительно большого класса нелинейных искажений сигнала [62].

В [14] Дж. Тиммер, С. Хойслер, М. Лаук, С.-Х. Люкинг (Американский институт физики) исследовали проявление апериодичной нелинейной осцилляции в патологическом треморе. Ставился вопрос, является ли это поведение следствием детерминистской хаотичной динамики или связано с нелинейной стохастической динамикой. Для анализа временных рядов регистрации тремора были применены различные линейные и нелинейные методы анализ. Результаты исследования показали, что рассматриваемый тип патологического тремора является нелинейным стохастическим процессом второго порядка.

В статье [15] авторов, Ф. Григорас, Х.-Н. Л. Теодореску, В. Апопей отражены последние разработки в методах нелинейной динамики применительно к речевому сигналу и нечеткого моделирования речеобразования. Конечной целью исследования было рассмотреть совместно анализ речи и ее синтез, чтобы лучше понять процессы, лежащие в основе речеобразования и выявить специфические приложения.

Были применены методы анализа динамики нелинейных систем, чтобы исследовать некоторые характеристики речеобразования. Рассмотрены физиологические обоснования фонетической системы речеобразования как меняющейся во времени нелинейной системы.

Для основного анализа речевой сигнал разлагают на две части: маломерную почти линейную и высоко-размерную нелинейную часть, соответственно. Для последней были рассчитаны максимальные характеристические показатели Ляпунова, фрактальная размерность (емкость, корреляция и информативность) [15].

Более чем 10 лет назад была впервые рассмотрена модель речеобразовательного процесса как нелинейного осциллятора. С тех пор были начаты многочисленные разработки по превращению нелинейной волновой модели в стандартный инструмент моделирования для речевых технологий. В работе Г. Кубина, К. Лайнсцеки, Е. Ранка [16] рассматривается и сравнивается несколько подобных попыток с акцентом на адаптивной модели идентификации данных и подходе к решению проблемы ассоциативного автоматического обучения.

Работа включает в себя методы Базиена для регуляризации оценки параметров (включая сокращение посторонних параметров) и методы, основанные на анзацных библиотеках (выбор структуры модели). Все эти идентификационные методы нуждаются в дополнении сведениями из речевой акустики для реализации практического моделирования.

Идентификация нелинейной волновой модели основана на теореме Такенса для восстановления стационарного речевого сигнала и требует — помимо адекватного выбора параметров внедрения, тщательного моделирования нелинейной функции, характеризующей динамику траекторий сигнала во внедренном пространстве. Для волновой модели, основанной на задержке координат внедрения, должны быть учтены некоторые формы регуляции нелинейной моделирующей функции, используемые для осциллятора.

Число гласных звуков, которое может быть стабильно ре-синтезировано с помощью такой модели, существенно увеличивается, когда модель дополняется обратным фильтром. Гласные со сложной структурой траекторий часто могут быть стабильно восстановлены из полного речевого сигнала, используя высокую размерность, специфические параметры вложения или специфическую структуру нелинейной моделирующей функции. С применением простого обратного фильтрования, используя линейный прогноз, фильтр нижних частот и обучаемую сеть Базиена, более чем половина гласных звуков используемой базы были стабильно восстановлены, используя низко-размерное пространство вложения, так как незамкнутый контур был достигнут для всех гласных [16].

В диссертации [112] Майкла Бэнбрука рассматривается использование фазо-пространственных реконструкций временного ряда для речевого сигнала, что показывает, по крайней мере в теории, что возможно определить некоторое число инвариантных геометрических значений для основной системы, которое дает более полное понимание динамики речи и как следствие, форму, на которой можно построить любую модель. На этом основаны многие нелинейные динамические инструменты анализа, которые применяются к базе данных, состоящей из гласных, чтобы извлечь основные инвариантные геометрические свойства. Затем результаты этого анализа были применены, учитывая идеи нелинейной динамики, к проблеме речевого синтеза, описаны и предложены новые методы синтеза.

Для анализа использовались следующие инструменты: вложение с временной . задержкой, сингулярное разложение, корреляционная размерность, характеристические показатели Ляпунова и прогнозирование поведения системы на короткий промежуток времени. Хотя об этих инструментах было написано много работ и предложены алгоритмы реализации, в настоящее время нет никаких общепринятых методов, особенно для вычисления характеристических показателей Ляпунова при наличии шума и ограниченной длины данных.

В кандидатской диссертации «Исследование психофизиологического состояния человека на основе эмоциональных признаков речи» Хроматиди А.Ф., ТРТУ, Таганрог, 2005, были рассмотрены следующие характеристики речи: габитусные (природные), процессуальные, формальные и дополнительные. Также изучены методы анализа эмоциональной речи: метод динамической спектрографии, нелинейный. Исследованы возможности моделирования речевого тракта и речевого сигнала. Получена акустическая модель речевого тракта, вычислены ее параметры. Описана математическая модель речевого тракта, полученная на основе волнового уравнения. Рассмотрены вопросы моделирования речевого сигнала. Детально изучены механизмы возбуждения акустических колебаний, рассмотрены источники акустической энергии, интенсивность звуковых колебаний, частотная фильтрация в речевом тракте. Приведено математическое описание речевого сигнала.

Графический анализ эмоциональной речи методами нелинейной динамики

Проблема фазово-пространственной реконструкции из скалярных наблюдений эволюционирующей динамической системы является центральной для задачи оценки ее динамических инвариантов. Восстановленная траектория дает ценную информацию, наглядно отображая особенности динамической системы. Рассмотрим метод фазо-пространственной реконструкции, который был предложен Паккардом [63], а затем математически обоснован Такенсом [59].

Пусть дискретная во времени динамическая система заданна сглаженным диффеоморфным отображением (дифференциальное отображение, у которого есть дифференциальная инверсия) ф-.М -» М . Здесь М - это компактное множество размерности т, каждая точка которого гомеоморфна к Rm. Движение системы задается как / (sQ), где s0 -переменная наблюдения в динамической системе. В результате имеем скалярные временные ряды x = /z( (s0)), п = 0,1,2,... Было показано [59], что есть по сути внедрение, т.е. внедренное отображение. Таким образом, асимптотические свойства оригинальной динамической системы будут такие же, как у реконструированной динамической системы, выраженной через Фщл. Это утверждение - основа для расчета динамических инвариантов временных рядов, таких как максимальный характеристический показатель Ляпунова, размерность и энтропия для временных рядов. В то время как выражение (2.6) представляет собой теоретическое обоснование фазо-пространственных реконструкций из скалярных наблюдений, в практической ситуации, где сталкиваются с временной последовательностью скалярных наблюдений, априорное знание размерности множества d, на котором развивается оригинальная динамика, отсутствует. Другая проблема - это выбор подходящей задержки между скалярными компонентами реконструируемого вектора. Теоретически можно взять последовательные значения данных, как элементы восстановленного вектора (2.6), используя предпосылку, что последовательные скалярные измерения содержат некоторую новую информацию о динамике. Однако экспериментальные данные содержат шум и т.д. Это предполагает выбор некоторых оптимальных условий для определения временной задержки. Были предложены различные методы фазо-пространственной реконструкции на основе сингулярного разложения [65], информационно-теоретического критерия [66, 67] и др. статистических [68], геометрических [69] и топологических [70] условий. Рассмотрим два подходящих хорошо обоснованных метода и применим их к фазо-пространственной реконструкции речевого сигнала.

Метод сингулярного разложения. Этот метод фазо пространственной реконструкции был предложен Брумхэдом и Кингом [65]. Дан временной ряд хг-, /=7,2,3..., обобщенная реконструкция в пространстве 7с с временной задержкой дает набор векторов где к — целочисленная временная задержка, / = 1,2,3... Метод сингулярного разложения применяется для получения внедренной размерности т, где т 1 (/ заранее известная внедренная размерность), и соответствующего базового набора траекторий. Первый шаг заключается в выборе ширины временного окна Tw = ІкТ, которое определяется временным поворотом хі, где Т - интервал дискретизации временного ряда. Этот выбор основан на эвристических аргументах. Чтобы исключить больше, чем один целый период данных в рамках временного окна, необходимо чтобы данные находились в полосе Tw l/fi, где fl — граничная частота. Нижнее и граничное значение Tw определяется как Tw (2d + \)Т, где d — это размерность пространства, в котором развивается динамическая система. Так как d не известно заранее, то можно использовать выражение Tw=\lfi. Следующий шаг - определение Td = кТ - временной задержки между последовательными входами х{. Необходимо выбрать Td так, чтобы достигнуть схождения сингулярного набора, который будет описан ниже. Выбрав к = \, располагаем временные задержки произвольно так, чтобы осуществлять выборки из временного ряда каждые 7 секунд. С другой стороны, если время выборки Т установлено априорно, то уместно установить к -1 и использовать все доступные значения в окне для анализа методом сингулярного разложения, а не пропускать любые промежуточные Т [71]. Таким образом / = — + 7. Третий шаг - непосредственно анализ по методу сингулярного разложения. Формируется матрица траекторий X где N достаточно велико. На практике ни одна из сингулярных величин (7V-/ + l)x/ траекторий матрицы не тождественна нулю, прежде всего из-за присутствия шума. Поэтому выбирается эффективный ряд, в котором число сингулярных величин выше порога уровня шума. Это дает внедренную размерность m и соответствующие сингулярные векторы нового базисного множества для реконструкции траектории. Например, на рис. 2.5 показаны нормализованные наборы сингулярных величин для матрицы X для двух речевых временных рядов, для графиков (1), (2) и (3) выбраны эффективные ряды из столбцов матрицы с номерами 8, 5 и 4, соответственно. Недостаток метода сингулярного разложения состоит в том, что он не может отличить два временных ряда, имеющих одинаковую структуру ковариации, но разных по структуре более высокого порядка. Эффективность этого метода заключается в уменьшении шума. Если шумовой уровень или точность данных заданы априорно, то логично пренебречь подмножеством траекторий матрицы, которое соответствует сингулярным величинам, находящимся ниже шумового порога. Этот метод реконструкции также полезен в представлении фазового пространства в двумерных проекциях, потому что в идеале желательно спроектировать вложенную траекторию на то подпространство, в котором у нее есть максимальное внедрение.

Описание системы экспериментального исследования речи человека-оператора в реальных условиях

Было выполнено сравнение корреляционной размерности речевых сигналов с линейно отфильтрованным белым шумом, имеющим такую же спектральную плотность. Тестовые данные были получены, используя спектр Фурье каждого временного ряда фонемы, рандомизируя фазу и затем выполняя обратное преобразование. Была протестирована корреляционная размерность для 12 фонем с последовательностью линейно отфильтрованного белого шума, имеющего тот же самый спектр. Получены средние значения корреляционной размерности - 2,4±0,8 и 3,7±0,8, соответственно. Таким образом, имеем систематическое увеличение размерности на 1,09±0,8. Так как речевые сигналы отделялись от белого шума, то использование спектрального анализа и анализа размерности не дало никакого существенного различия между речевыми сигналами и линейно отфильтрованным белым шумом, имеющим ту же самую спектральную плотность. Так как линейно отфильтрованный белый шум может иметь конечную размерность при различимом разрешении [81], то вышеупомянутые сравнения предполагают, что низкая размерность речи может быть в значительной степени следствием общего множителя между речевыми сигналами и линейно отфильтрованным белым шумом, представляющим собой спектральные характеристики второго порядка.

Доказано [81], что случайная шумовая последовательность со спектральной плотностью l/fa, может иметь конечную корреляционную размерность при а 1. В идеале белый шум (полученный из стационарного распределения) характеризуется бесконечной размерностью. Это противоречие разрешается, учитывая, что в предыдущем случае нет никакой основной инвариантной меры [58]. Поэтому можно только говорить о конечной размерности реализации последовательности случайного шума со спектральной плотностью 1/ fa , но не некоторого основного аттрактора или инвариантной меры. Точно так же в свете полученного результата для речевых сигналов, более уместно говорить о низкой размерности речевых сигналов и соответствующих восстановленных траекториях вместо того, чтобы привязать их к гипотетическим аттракторам или инвариантной мере приблизительно стационарных анализируемых сегментов.

Различные источники ошибок могут повлиять на оценку двумя фундаментальными способами: (1) Оценка может быть смещена относительно истинного значения - систематическая ошибка. Такие ошибки имеют много причин, например, предварительное фильтрование, квантование, совокупный шум, краевые эффекты и т.д. (2) стандартное отклонение оценки от ее среднего значения. Является результатом ограниченности доступной длины данных. Два вида ошибок обычно влияют и друг на друга и их необходимо уравновесить для получения оптимальной оценки.

Предварительное фильтрование. Фонемы речевой базы данных были отфильтрованы НЧ фильтром с частотой среза 4 кГц, и оцифрованы с частотой 44,1 кГц. Было исследовано влияние свертки анализируемого сигнала с линейным инвариантом относительно времени на фрактальную размерность аттрактора. Найдено достаточное условие для проверки влияния на оценку размерности [82]: если логарифм наибольшего полярного радиуса линейного инварианта относительно времени меньше, чем наименьший характеристический показатель Ляпунова (который фактически трудно оценить), то не будет никаких изменений в оценке размерности из-за фильтрования. б) Квантизация. Вызывает объединение в кластеры точек восстановленной траектории на вершинах гиперкуба во вложенном пространстве, где ребро куба равно наименьшей значимой цифре дискретизации. Эвристически, это должно привести к систематической недооценке размерности, потому что объединение в кластеры траекторий с конечным числом точек снижает ее сложность. С точностью до первого порядка оценка среднего Д от Д может быть эффективно смоделирована как [83] где К — положительный коэффициент единичного порядка, р - половина минимума значимой величины и г = (rl-r2)z, г і и г2 — низший и высший пределы диапазона, для которого оценивается размерность. Используя 16-битовую квантизацию как в случае речевых данных, г;=27/216 и г2=210/216 при И7 = 5, мы имеем {D2-D2)ID2=-Q,\A%. Для предполагаемого среднего значения D2=\,6 для речевой базы данных получена незначительная систематическая ошибка равная 0,004. Стандартная процедура уменьшения систематической ошибки — дитеринг (сглаживание) [123]. в). Аддитивный шум. Если стандартное отклонение j аддитивного шума сопоставимо с характерным радиусом взаимодействия, используемым для того, чтобы оценить D2, то оценка D2 продолжает увеличиваться с увеличением а, приводя к переоценке и появлению приблизительной сходимости. Продемонстрировано, что такая переоценка из-за аддитивного случайного шума происходит для всех значений т [83]. где К- положительный коэффициент единичного порядка; сг — стандартное отклонение аддитивного шума; r=(r1-r2)T. Для 16-битовых данных, используя г/=27/216 и r2=210/216 и принимая т равным 6 битам по нижней границе при т-5, то есть, сг = 26, имеем (D2 -D2)/D2 =3,1%. Отсюда среднее значение D2—l,6 для речевой базы данных дает систематическую погрешность 0,10 для вышеупомянутых параметров. г) Автокорреляция. Размерности, представленные в табл. 3, оценены при помощи модифицированной корреляционной суммы где W = 10. Цель модификации (2.17) - исключить те пары точек (xf ,х ") из корреляционной суммы, которые находятся рядом в фазовом пространстве только потому, что они близки во времени. Было показано, что для определенных случаев [84] эта модификация увеличивает область масштабирования для графика функции \ogC(r,m,N) от log г. Для диапазона значений г, используемого в вычислении размерности, значение W = \0 позволяет исключить точки траектории х,- временно близкие к х (т.е. лежащие на том же самом сегменте траектории) от тех, которые считаются пространственно близкими.

Алгоритм обработки речевого сигнала

Речевой сигнал был исследован с точки зрения двух динамических инвариантов, а именно, максимального характеристического показателя Ляпунова, корреляционной размерности, в структуре детерминированной динамики. Речевой сигнал рассматривается как скалярная величина, наблюдаемая в системе голосового тракта человека. Можно связать динамические характеристики, оцененные из наблюдаемого временного ряда основной динамической системы во время устойчивого пространственного развития, через теоремы Такенса. Оценки характеристик сигнала из восстановленных речевых траекторий используются в построении нелинейных детерминированных фазово-пространственных моделей наблюдаемого временного ряда.

Использовались два оптимальных критерия, чтобы получить фазовые портреты и их 2-мерные проекции для визуального представления. Максимальные характеристические показатели Ляпунова для речевых сигналов положительны и показывают, что соседние траектории в среднем отклоняются по экспоненциальному закону, то есть, они непостоянны в локальном масштабе. Маломерная природа речевых сигналов предполагает, что для фазово-пространственного моделирования необходимо несколько фазово-пространственных переменных. Положительные значения динамической энтропии второго порядка независимо подтверждают данные, полученные из расчета максимального характеристического показателя Ляпунова. Кроме того энтропия дает оценку времени прогнозирования детерминированных фазо-пространственных моделей или нормы информационной емкости динамики.

Основные выводы, которые можно сделать из проведенного теоретического исследования эмоциональных речевых сигналов следующие: 1. Сформулированы критерии выделения «хаотичных» участков речевого сигнала: 1.1. Рекуррентный график должен содержать диагональные структуры, что свидетельствует о хаотичности процесса. 1.2. Корреляционный интеграл должен сходится при некотором значении размерности внедренного пространства т, что дает оценку размерности вложенного пространства и корреляционную размерность. 1.3. Максимальный характеристический показатель Ляпунова должен иметь положительное значение, что также свидетельствует о хаотичности процесса и расхождении траекторий по экспоненциальному закону. 1.4. Отображение Пуанкаре должно содержать равномерные или неравномерные подковообразные скопления точек. 1.5. Энтропия второго порядка должна принимать положительное значение. 2. Проведен графический анализ участков речевых сигналов для разных эмоциональных состояний: 2.1. Анализ графиков отображения Пуанкаре для разных эмоциональных состояний показал, что для разных гласных можно выявить схожее поведение для определенной эмоции, что может служить классификационным признаком эмоции. В частности, эмоциональное состояние «гнев» характеризуется скоплением точек в центре и расходящиеся ветвями подковообразной формы. Предложен классификатор. 2.2. Были реализованы следующие виды фазо-пространственной реконструкции системы из дискретного временного ряда, соответствующего речевому: по методу сингулярного разложения и в соответствии с критерием избыточности. Анализ геометрии полученных аттракторов показал, что определенная геометрия соответствует определенной эмоции, что также может служить классификационным признаком психофизиологического состояния. Выявлено, что в случае зашумленных сигналов метод сингулярного разложения дает лучшие результаты. 2.3. Анализ топологии рекуррентных графиков для разных эмоциональных состояний показал, что появление отрицательных эмоций в речевом сигнале отображается как уменьшение размера кластеров, которые образуют диагональные структуры. 2.4. Графические представления (аттракторы, отображения Пуанкаре и рекуррентные графики) могут служить визуальными признаками различных эмоциональных состояний. 3. Рассчитаны инварианты нелинейной динамики эмоциональной речи: максимальный характеристический показатель Ляпунова и корреляционная размерность: 3.1. Максимальный характеристический показатель Ляпунова может принимать значения в диапазоне 00,0139±0,0027 до 0,0813±0,0061, для эмоционального состояния «гнев» значения возрастают на (176±30)%, (54±5)%, (73±4)% для гласных звуков «у», «о», «и», соответственно. 3.2. Получены значения корреляционной размерности в диапазоне (1,2-2,5)±0,1. Корреляционная размерность для эмоционального состояния «гнев» возрастает на (20±5)% относительно состояния «спокойствие». 3.3. Максимальный характеристический показатель Ляпунова и корреляционная размерность могут служить количественной мерой эмоционального состояния, в отличие от энтропии второго порядка. 4. Проведенный качественный и количественный анализ участков речевых сигналов методами нелинейной динамики выявил характерные признаки, отличающие эмоциональное состояния «спокойствие» от отрицательных эмоций (гнев, отвращение). 5. Проведен анализ ошибок, влияющих на результаты вычислений инвариантов нелинейной динамики. 5.1. Предварительное фильтрование исследуемой речевой базы данных не влияет на оценку размерности, так как логарифм наибольшего полярного радиуса меньше, чем наименьший характеристический показатель Ляпунова. 5.2. Систематическая ошибка квантизации для исследуемой речевой базы данных составила -0,14%, что пренебрежимо мало. 5.3. Аддитивный шум для исследуемой речевой базы данных дает систематическую погрешность 3,1%, что может быть скорректировано фильтрацией. 5.4. Достаточная длина данных определяется из условия насыщения корреляционной суммы и составила 3500±500 для исследуемой речевой базы данных.

Похожие диссертации на Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния