Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Вероятностная структура информационных сигналов в системах речевого командного управления Бочаров Игорь Владимирович

Вероятностная структура информационных сигналов в системах речевого командного управления
<
Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления Вероятностная структура информационных сигналов в системах речевого командного управления
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бочаров Игорь Владимирович. Вероятностная структура информационных сигналов в системах речевого командного управления : Дис. ... канд. техн. наук : 05.13.01 СПб., 2005 170 с. РГБ ОД, 61:05-5/3130

Содержание к диссертации

Введение

1. Общая проблема анализа и распознавания речевых сигналов 10

1.1. Речевые технологии. Задачи анализа и синтеза речи 10

1.2. Особенности обмена речевой информацией 13

1.3. Структура автоматизированного распознавания речи 16

1.4. Системы речевого командного управления 18

1.5. Модели сигналов и алгоритмы распознавания речи 23

1.5.1. Модель линейного предсказания 25

1.5.2. Модель спектрального представления 27

1.5.3. Модель вейвлет-преобразования 32

1.5.4. Метод шаблонного сравнения 35

1.5.5. Алгоритмы нейронных сетей 38

1.5.6. Алгоритмы, основанные на моделях Марковских цепей 40

1.5.7. Алгоритмы нечёткой логики 42

1.5.8. Независимый компонентный анализ 44

1.6. Основные результаты главы 45

2. Вероятностная структура речевых сигналов 46

2.1. Особенности временной структуры исследуемых сигналов 46

2.2. Модель вероятностного распределения 52

2.3. Спектрально-корреляционные характеристики 59

2.4. Модель двумерного вероятностного распределения 68

2.5. Структура производных речевого сигнала 75

2.6. Характеристики типа «пересечений уровней» для речевых сигналов 83

2.7. Исследование фазовых траекторий речевых сигналов 90

2.8. Псевдофазовые траектории речевых сигналов 96

2.9. Вероятностное распределение огибающей и интенсивности сигнала 103

2.10. Основные результаты главы 107

3. Экспериментальные исследования типовых сигналов речевого командного управления 110

3.1. Временные реализации и корреляционные функции типовых сигналов 110

3.2. Одномерные и двумерные распределения 117

3.3. Фазовые портреты типовых сигналов 123

3.4. Фонемный анализ сигналов речевого управления 129

3.5. Зависимость структуры речевых сигналов от диктора 136

3.6. Основные результаты главы 141

4. Точность оценивания параметров речевых сигналов 143

4.1. Точность оценивания средней интенсивности сигнала 143

4.2. Точность оценивания среднего числа пересечений 148

4.3. Точность оценивания характеристик длительности временных интервалов 152

4.4. Основные результаты главы 156

Заключение 157

Литература 159

Приложения 167

Введение к работе

Актуальность проблемы. Задачи анализа, обработки и распознавания речи уже на протяжении нескольких десятилетий относятся к одному из основных направлений фундаментальных исследований в области информатики, искусственного интеллекта и распознавания образов. Исследования речевых сигналов, разработка систем автоматического распознавания речи и систем речевого управления - это вопросы, которыми занимаются университетские лаборатории и исследовательские центры большинства развитых стран.

За последнее двадцатилетие было предложено много разнообразных математических моделей и алгоритмов отработки речевых сигналов. Прогресс в области науки и техники, стремительное развитие вычислительной техники и новых информационных технологий позволили реализовать на практике большинство разработанных алгоритмов. Однако, несмотря на это, общая проблема речевых технологий и речевого управления далека от своего решения. Множество вопросов в области оптимальной обработки речевых сигналов до сих пор остаются открытыми. Подавляющее большинство существующих алгоритмов распознавания речи работают эффективно лишь в условиях жестких ограничений на характер обрабатываемых сигналов.

Среди систем автоматического анализа и распознавания речи можно выделить самостоятельный класс систем речевого командного управления. Для таких систем характерен ограниченный объем словаря, раздельная речь и возможности предварительной настройки на диктора. За счет таких ограничений часто удается существенно повысить эффективность обработки информационных потоков, однако даже в системах речевого командного управления вероятности правильного принятия решений существенно снижаются при изменениях эмоционального состояния диктора или каких-либо изменениях относительно априорных параметров речевого сигнала.

Основной причиной, сдерживающей развитие речевых технологий, является сложная и изменчивая структура речевых сигналов. Такие сигналы плохо подаются детальному исследованию и формализации. Эта особенность в значительной степени объясняет тот факт, что до настоящего времени, по существу, отсутствуют удобные для практики обобщения математической модели речевых сигналов. При построении математических моделей, как правило, основное внимание уделяется лишь спектральным свойствам речи. Необходимость более детальных исследований общей вероятностной структуры речевых сигналов связана с необходимостью совершенствования математических моделей, повышения эффективности существующих и разработкой новых перспективных алгоритмов обработки, анализа и автоматического распознавания речи.

Цель диссертационной работы состоит в исследовании основных статистических свойств речевых информационных потоков, построении обобщённой математической модели и анализе детальной вероятностной структуры сигналов речевого командного управления.

Основные задачи. Для достижения поставленной цели в диссертационной работе решались следующие основные задачи:

1. Исследование и общая классификация существующих моделей и алгоритмов обработки речевых информационных потоков.

2. Исследование основных вероятностных характеристик, спектрально-корреляционных свойств, одномерных и двумерных вероятностных распределений речевых сигналов.

3. Построение обобщённой вероятностной модели речевых информационных процессов.

4. Исследование тонкой вероятностной структуры речевых процессов, анализ характеристик типа "пересечений уровней", исследование фазовых и псевдофазовых портретов информационных сигналов.

5. Вероятностный анализ огибающей и мгновенной интенсивности речевых сигналов.

6. Экспериментальные исследования основных вероятностных характеристик типовых сигналов речевого командного управления.

7. Исследование потенциальной точности оценивания параметров в задачах обработки информационных сигналов речевого управления.

Методы исследования. При выполнении диссертационных исследований использовались: общие методы системного анализа, методы теории вероятностей и математической статистики, общая теория случайных процессов и теория выбросов случайных процессов, теория планирования экспериментов, методы цифровой обработки экспериментальных данных и методы математического моделирования.

Научная новизна. В процессе выполнения исследований были получены следующие новые научные результаты:

1. Результаты расчётно-экспериментальных исследований комплекса одномерных и двумерных статистических характеристик речевых информационных потоков.

2. Предложена обобщённая вероятностная модель, позволяющая исследовать фонемную структуру речевых сигналов и проводить анализ усреднённой вероятностной структуры речевых информационных потоков.

3. На основе обобщённой модели выполнены исследования производных речевого сигнала, определены совместные плотности вероятностей для речевых сигналов и их производных, вычислены основные вероятностные характеристики пересечений заданного уровня, длительностей выбросов и характеристики экстремальных значений для речевых информационных процессов.

4. Выведены аналитические выражения для обобщённых вероятностных распределений огибающей и интенсивности нестационарного негауссовского речевого сигнала.

5. Показаны возможности детальных исследований структуры речевых процессов на основе фазовых портретов и псевдофазовых портретов, определены в аналитической форме основные количественные характеристики таких представлений.

6. Получены удобные для практического применения общие результаты по оцениванию потенциальной точности измерений параметров речевых сигналов.

Практическая значимость.

В диссертационной работе предложена обобщённая вероятностная модель, позволяющая выполнять исследования речевых информационных сигналов на уровне структуры отдельных фонем и на уровне усреднённой общей структуры процессов. Полученные при этом результаты дают возможность изучения тонких, детальных характеристик выборочных функций речевых сигналов. Это, в свою очередь, позволяет полнее использовать статистические свойства информационных процессов, оптимизировать алгоритмы обработки и распознавания, совершенствовать методы вероятностного анализа сигналов речевого командного управления. Помимо систем речевого командного управления, такие результаты важны для повышения эффективности систем распознавания дикторов, систем идентификации, верификации и защиты от несанкционированного доступа.

Основные положения, выносимые на защиту:

1. Результаты экспериментальных исследований основных одномерных и двумерных статистических характеристик речевых сигналов.

2. Обобщённая вероятностная модель, отражающая фонемную структуру и усреднённую общую структуру речевых сигналов.

3. Результаты исследования детальной вероятностной структуры выборочных функций речевых сигналов, исследования характеристик типа "пересечений уровней", структуры фазовых портретов и псевдофазовых портретов информационных сигналов речевого командного управления.

4. Потенциальные точности оценивания основных вероятностных характеристик речевых сигналов.

Внедрение результатов. Результаты диссертационной работы внедрены на предприятии ООО "Мера НН" (Российское подразделение Nortel Networks согр.) при разработке голосового интерфейса (VoIP IVR) в составе системы карточной IP-телефонии, использованы при выполнении НИР по гранту Минобразования России "Проблемы теории выбросов случайных процессов" № ТОО-03.2-2694, а также по гранту Минобразования России "Проблемы обработки данных научного эксперимента" № Т02-03.3-3642. Кроме этого, результаты диссертационной работы внедрены в учебный процесс Нижегородского государственного технического университета (по кафедре информационных радиосистем), Нижегородского государственного лингвистического университета им. Н.А. Добролюбова (по кафедре математики и информатики) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (по кафедре компьютерной математики и программирования).

Внедрение результатов диссертационной работы подтверждено соответствующими актами, копии которых даны в приложениях к диссертации.

Апробация работы. Основные положения работы докладывались на следующих научно-технических конференциях и семинарах:

1. Пятая всероссийская НТК "Методы и средства измерений физических величин" Нижегородский государственный технический университет, 2000.

2. Международная НТК "Проблемы транспортных и технологических комплексов АВТО НН - 02", Нижегородский государственный технический университет, 2002.

3. Sixth International Workshop on New Approaches to Highech: Nondestructive Testing and Computer Simulations in Science and Engineering. Saint Petersburg, S.-Petersburg State Technical University. June 10-16,2002.

4. Политехнический Симпозиум "Молодые ученые - промышленности Северо-западного региона" - Компьютерные технологии и телекоммуникации, СПбГПУ, 2003.

5. Восьмая научная сессия ГУАП, 11-15 апреля 2005г.

Публикации. По результатам диссертационных исследований опубликовано 17 печатных работ, в числе которых 12 научных статей, 4 публикации тезисов докладов.

Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, списка литературы (95 наименований) и приложений. Объем основной части - 170 страниц машинописного текста, из них 75 рисунков.

Речевые технологии. Задачи анализа и синтеза речи

Задачи анализа, обработки и распознавания речи уже на протяжении нескольких десятилетий относятся к одному из основных направлений фундаментальных исследований в области информатики, искусственного интеллекта и распознавания образов. Исследование речевых сигналов, разработка систем автоматического распознавания речи — это вопросы, которыми занимаются университетские лаборатории и исследовательские центры большинства развитых стран.

Задачи анализа речи являются наиболее общими так как имеют большое число практических применений [1]. Идентификация говорящего по голосу используется при аутентификации в системах ограничения доступа. В медицине используется ряд алгоритмов для диагностики голосового тракта. При обучении языкам и установке правильной речи в логопедии нашли применение алгоритмы выяснения близости речевого фрагмента с эталонным. Целый ряд прикладных задач возник в современной криминалистике: идентификация языка говорящего в перехваченном сообщении, определение эмоционального состояния говорящего, установление наличия следов монтажа речевого фрагмента, анализ акустической обстановки на фонограмме, идентификация и диагностика технических источников звука на фонограмме.

Алгоритмы функциональных преобразований речи часто применяются в составе больших систем различного назначения. Принципы сжатия речи используются для архивирования фонограмм и при передаче речевых сигналов по линиям связи. Большая группа алгоритмов связана с реставрацией фонограмм: повышение разборчивости и текстовая расшифровка низкокачественных фонограмм речи, записанных в сложной акустической обстановке, повышение комфортности прослушивания, устранение негативного влияния посторонних помех и повышение разборчивости речи в каналах радио- и телефонной связи, установление дословного содержания низкокачественных фонограмм речи. В звукорежиссуре используются алгоритмы сжатия и растяжения речи при сопоставлении видео и звукоряда.

Синтез речи является прямо противоположной задачей распознаванию речи, однако по сути и практической реализации задача более простая, чем распознавание речи. Синтез речи используется в автоматических диалоговых системах человек-машина, прежде всего по телефонным линиям, и используется в системах автоматического информирования на вокзалах. Синтезаторы помогают плохо говорящим людям генерировать понятную и разборчивую речь для собеседника. Новой задачей, применяемой в криминалистике, является искажение голоса говорящего до неузнаваемости чтобы затем было невозможным установить личность говорящего.

Речевой сигнал имеет сложную изменчивую структуру и плохо поддаётся детальному исследованию. Это является основной причиной сдерживающей развитие речевых технологий, поэтому из всех перечисленных приложений наибольшее практическое применение получили простые и надёжные алгоритмы, дающие предсказуемый понятный результат.

На протяжении длительного времени человечество пытается решить задачу распознавания речи и, надо признать, на сегодняшний момент без явно выраженного успеха. Уже первые эксперименты по распознаванию в середине 19 века [2] показали несостоятельность простых статистических моделей речи. Особым свойством речевого сигнала является его изменчивость: два варианта одного и того же слова имеют совершенно разные статистические характеристики, и, вместе с тем, два разных слова могут иметь схожие характеристики. Такая изменчивость не позволяет разработать эффективную модель речевого сигнала и создать надёжное распознающее устройство.

Для дальнейшего развития речевых технологий особое значение имеет учёт всех составляющих информационного обмена между людьми, изучение функционирования органов чувств в процессе распознавания и ориентации, моделирование языка и речи, исследование возможностей бионического подхода к вопросам речевого управления автоматами, формализация средств ведения диалога «человек-машина», представление знаний. Таким образом, чисто технический подход к решению задачи автоматического распознавания речи постепенно переходит к лингвокибернетическому содержанию задачи [3].

Задачи анализа, обработки и распознавания речи уже на протяжении нескольких десятилетий относятся к одному из основных направлений фундаментальных исследований в области информатики, искусственного интеллекта и распознавания образов. Исследование речевых сигналов, разработка систем автоматического распознавания речи — это вопросы, которыми занимаются университетские лаборатории и исследовательские центры большинства развитых стран.

Задачи анализа речи являются наиболее общими так как имеют большое число практических применений [1]. Идентификация говорящего по голосу используется при аутентификации в системах ограничения доступа. В медицине используется ряд алгоритмов для диагностики голосового тракта. При обучении языкам и установке правильной речи в логопедии нашли применение алгоритмы выяснения близости речевого фрагмента с эталонным. Целый ряд прикладных задач возник в современной криминалистике: идентификация языка говорящего в перехваченном сообщении, определение эмоционального состояния говорящего, установление наличия следов монтажа речевого фрагмента, анализ акустической обстановки на фонограмме, идентификация и диагностика технических источников звука на фонограмме.

Алгоритмы функциональных преобразований речи часто применяются в составе больших систем различного назначения. Принципы сжатия речи используются для архивирования фонограмм и при передаче речевых сигналов по линиям связи. Большая группа алгоритмов связана с реставрацией фонограмм: повышение разборчивости и текстовая расшифровка низкокачественных фонограмм речи, записанных в сложной акустической обстановке, повышение комфортности прослушивания, устранение негативного влияния посторонних помех и повышение разборчивости речи в каналах радио- и телефонной связи, установление дословного содержания низкокачественных фонограмм речи. В звукорежиссуре используются алгоритмы сжатия и растяжения речи при сопоставлении видео и звукоряда.

Синтез речи является прямо противоположной задачей распознаванию речи, однако по сути и практической реализации задача более простая, чем распознавание речи. Синтез речи используется в автоматических диалоговых системах человек-машина, прежде всего по телефонным линиям, и используется в системах автоматического информирования на вокзалах. Синтезаторы помогают плохо говорящим людям генерировать понятную и разборчивую речь для собеседника. Новой задачей, применяемой в криминалистике, является искажение голоса говорящего до неузнаваемости чтобы затем было невозможным установить личность говорящего.

Речевой сигнал имеет сложную изменчивую структуру и плохо поддаётся детальному исследованию. Это является основной причиной сдерживающей развитие речевых технологий, поэтому из всех перечисленных приложений наибольшее практическое применение получили простые и надёжные алгоритмы, дающие предсказуемый понятный результат.

На протяжении длительного времени человечество пытается решить задачу распознавания речи и, надо признать, на сегодняшний момент без явно выраженного успеха. Уже первые эксперименты по распознаванию в середине 19 века [2] показали несостоятельность простых статистических моделей речи. Особым свойством речевого сигнала является его изменчивость: два варианта одного и того же слова имеют совершенно разные статистические характеристики, и, вместе с тем, два разных слова могут иметь схожие характеристики. Такая изменчивость не позволяет разработать эффективную модель речевого сигнала и создать надёжное распознающее устройство.

Для дальнейшего развития речевых технологий особое значение имеет учёт всех составляющих информационного обмена между людьми, изучение функционирования органов чувств в процессе распознавания и ориентации, моделирование языка и речи, исследование возможностей бионического подхода к вопросам речевого управления автоматами, формализация средств ведения диалога «человек-машина», представление знаний. Таким образом, чисто технический подход к решению задачи автоматического распознавания речи постепенно переходит к лингвокибернетическому содержанию задачи [3].

Особенности временной структуры исследуемых сигналов

Сложность временной структуры сигналов связана со сложностью механизмов их формирования. Физиологические и акустические особенности речеобразования, индивидуальные особенности дикторов, пол, возраст, изменяющаяся манера речи, скорость, диалект, интонация, дыхание - всё это оказывает существенное влияние на структуру и отдельные характеристики речевых сигналов.

Дополнительные проблемы в процесс анализа речи вносит лингвистический аспект. Наиболее важными являются при этом эффекты речевого контекста, которые приводят к сильному взаимному влиянию лингвистических уровней речи друг на друга. К таким уровням, в частности, относятся фразы, слова и фонемы: фраза состоит из слов, а слова, в свою очередь, состоят из фонем. Слова в составе фразы образуют единый неразрывный поток. Аналогично этому, фонемы сливаются в неразрывный поток при формировании слов. Таким образом, естественные речевые сигналы представляют собой сложные, непрерывно изменяющиеся во времени процессы, которые не всегда удаётся разделить на самостоятельные сегменты, удобные для автоматического распознавания [2, 10,21]. Кроме того, взаимное влияние слов во фразе и взаимосвязь фонем внутри слова приводят к дополнительным случайным изменениям речевого сигнала, зависящего от контекста.

Рассмотрим более подробно особенности временной структуры речевых сигналов. В качестве исходных данных для анализа будем использовать результаты экспериментальных исследований.

Акустический речевой сигнал обычно может рассматриваться в виде акустических колебаний, порождаемых речеобразующим механизмом или голосовым трактом человека. При регистрации таких колебаний с помощью микрофона выполняется преобразование акустических колебаний в электрические и запись речевого сигнала в виде графической зависимости изменений амплитуды сигнала во времени.

По внешнему виду приведенной на Рис. 2.1 реализации видно, что речевой сигнал представляет собой непрерывный во времени информационный процесс с явно выраженной нестационарностью по дисперсии. Для построения модели подобного процесса целесообразно рассмотреть более детально его временную структуру. С этой целью на Рис. 2.2 представлена более короткая реализация, соответствующая отрезку фразы "майское боссе" с транскрипцией по буквам.

На этой реализации уже начинает проявляться тонкая структура речевого сигнала. Здесь достаточно четко различаются фрагменты двух типов: первый - с большей амплитудой и заметной периодичностью (участки "май", "ое", "ба", "э"), второй - с малой амплитудой и шумоподобной структурой (участки звука "с"). Обращаясь к фонетике [5], фрагменты первого типа можно отнести к вокализованным звукам, а второго типа - к невокализованным шумовым. Элементарные звуки, из которых составлены слова получили название фонем [10, 5].

Анализ структуры реализации (Рис. 2.2) речевого сигнала показывает, что помимо информационных звуков типа фонем, в общем речевом потоке присутствуют соединительные сегменты между отдельными фонемными группами. Сами по себе эти переходы не несут особой информации, их появление объясняется физиологическими особенностями речеобразования у человека и невозможностью мгновенной перестройки голосового тракта. Следствием этого на приведенной реализации является пауза "с-к" в слове "майское" и резонансная пауза "е-б" между словами "майское" и "боссе". Наиболее часто такие переходные процессы наблюдаются вблизи смычковых звуков.

Рассмотрим теперь структуру реализаций отдельных фонем. На Рис. 2.3 приведена выборочная функция фонемы вокализованного звука [а] в слове "майское". Все вокализованные звуки, как правило, по своей структуре близки к квазигармоническим колебаниям. Средняя частота таких колебаний зависит от конкретного диктора и для мужского голоса находится в окрестности 100 Гц, а для женского 200 Гц. На Рис. 2.4 представлена более простая по форме фонема [д ] из слова "один".

Сравнивая структуру двух приведенных реализаций, можно заметить, что они имеют примерно одинаковую среднюю частоту и принципиально могут быть представлены в виде суммы нескольких гармонических компонент-обертонов [3]. В зависимости от конкретной фонемы состав обертонов и спектральная окраска звуков меняется. Более мягкие звуки могут быть представлены двумя-тремя обертонами, более резкие описываются тремя-четырьмя обертонами и дополнительно содержат несколько гармоник высокого порядка.

На Рис. 2.5 показан характер невокализованного звука "с" из слова "майское". На начальном участке реализации здесь видно присутствие квазигармонической составляющей от фонемы [и] в слове "майское". Это обусловлено эффектом коартикуляции [3], когда предыдущая фонема видоизменяет следующую за ней. В непрерывном речевом потоке коартикуляция существенно усложняет идентификацию отдельных фонем. Различные по структуре шумящие фонемы "подкрашиваются" разными впереди идущими вокализованными фонемами.

В целом, из рассмотрения временной структуры речевого сигнала можно заметить, что речевой информационный поток в пределах одной фразы представляет собой непрерывный во времени случайный процесс. Этот процесс состоит из взаимодействующих и видоизменяющихся элементарных речевых сегментов - фонем.

Временные реализации и корреляционные функции типовых сигналов

Одним из наиболее простых и наиболее распространенных подходов при создании речевых командных систем является подход, основанный на использовании в качестве информационных или управляющих сигналов набора речевых команд, соответствующих произносимым цифрам. Обычно за основу берутся 10 цифр от 0 до 9. Учитывая эти особенности, для проведения расчетно-экспериментальных исследований в данной работе были выбраны речевые команды такого же класса.

На первом этапе исследований для выбранного класса речевых команд %$) регистрировались их временных реализации

Структура этих реализаций, как и общая структура речевых команд, различна. Длительность отдельных реализаций T const. При регистрации речевые команды произносились профессиональным диктором, мужской голос, использовалась студийная запись, оцифровка 16 бит/44.1 КГц.

По полученным временным реализациям &(0 їє[0,Т], для всех речевых команд вычислялись корреляционные функции

При нахождении оценки R (т) корреляционной функции R$(T) учитывалось, что речевые сигналы характеризуются математическим ожиданием m =M{ (t)}=0.

На рисунках Рис. 3.1-Рис. 3.10 приведены результаты регистрации речевых команд - временные реализации сигналов %k(t), к=0,1,2,...9 и результаты вычисления корреляционных функций R к(т) для каждой из записанных 10 команд к=0,1,2,...9 при значениях cfk= R &(0)=1.

Временные реализации рассматриваемых речевых команд достаточно наглядно описывают нестационарный характер исследуемых процессов. Общий вид выборочных функций хорошо согласуется с общим описанием временной структуры речевых сигналов (глава 2). Здесь наглядно проявляются квазистационарные участки, чередование вокализованных и невокализованных звуков, различные, случайные по своему характеру длительности отдельных сегментов, различный характер изменений интенсивности отдельных фонемных групп.

Общая структура корреляционных функций отражает усредненную структуру речевых команд. Здесь наглядно проявляются колебательный характер и согласованность средней частоты заполнения функции R T) СО средней частотой колебаний речевого сигнала. При расширении спектра исследуемого сигнала, при появлении более широкополосных шумовых сегментов в сигнале (например, речевые команды «семь» и «восемь») корреляционная функция сужается и величина интервала корреляции заметно уменьшается. Для речевых команд близких по структуре к квазигармоническим сигналам (например, команда «три») корреляционная функция затухает медленнее и корреляционные зависимости сохраняются на более продолжительных временных интервалах.

В целом, можно заметить, что приведенные результаты для типовых сигналов речевого управления полностью согласуются с общими результатами главы 2 по анализу временных и корреляционных характеристик произвольных речевых процессов.

При проведении экспериментальных исследований, помимо корреляционных характеристик, для типовых сигналов речевого командного управления вычислялись одномерные и двумерные плотности вероятности. Некоторые характерные результаты таких исследований представлены в данном разделе.

На рисунках Рис. 3.11-Рис. 3.13 приведены гистограммы одномерных распределений для речевых команд. В качестве примера здесь выбраны команды «три», «четыре», «восемь». Эти команды заметно различаются по своей общей длительности, составу и последовательности вокализованных и шумовых фонем, общей частотно-временной структуре реализаций. Все это наглядно видно из выборочных функций з(0 4(0і Ы ) представленных на Рис. 3.4, Рис. 3.5 и Рис. 3.9.

Точность оценивания средней интенсивности сигнала

Предположим, что исследуется некоторый произвольный речевой сигнал ,(t) и необходимо на заданном интервале времени [t0,t0+T]=[0,T] длительностью Т оо выполнить измерения среднего значения mi=M{I(t)} интенсивности Ці) этого сигнала. Обычно, при использовании традиционного, прямого подхода к исследованию качества подобных измерений необходимо:

1. воспользоваться плотностью вероятности pi(I) процесса I(t), выбрать критерий оптимальности и выполнить синтез алгоритма оценивания параметра mf, 2. провести вероятностный анализ синтезированного алгоритма и определить основные свойства оценки т /.

Такой подход оказывается достаточно сложным и его не всегда удается реализовать на практике. Кроме того, получаемые при таком подходе результаты носят, как правило, частный характер, так как существенно зависят от конкретного вида синтезированного алгоритма (4.1).

Учитывая эти особенности, рассмотрим задачу исследования точности оценивания в несколько иной постановке: будем интересоваться не свойствами конкретного алгоритма оценивания, а рассмотрим предельно достижимую (потенциальную) точность оценивания параметра mj при временном усреднении независимо от конкретного способа нахождения оценки т /.

В общем случае, будем считать, что обработке доступна отдельная реализация %(t), te[0,T] речевого сигнала. Предположим, что в результате обработки этой реализации на интервале te[0,T] необходимо получить оценку а (I) некоторого параметра а(1) интенсивности I(t) процесса %(t).

В выборочной функции ,(t), te[0,T] конечной длительности, как известно, содержится конечное, вполне определенное количество информации о параметрах распределения р Л) процесса (t), а следовательно, и о любой функции от этих параметров. Количеством этой информации будут, в частности, определяться нижние границы дисперсий (или предельные точности) при оценивании отдельных характеристик интенсивности I(t).

Иначе говоря, если по реализации E,(t), te[0,T], фиксированной длительности Т со оценивается некоторая функция ц/(Р) от параметра /?и если JT(P) — количество информации о параметре Д содержащееся в выборке (t), то в соответствии с неравенством Рао-Крамера [89,90] при дц/ф)/др?0 независимо от выбранного способа оценивания, для дисперсии D[i// (р)] оценки ц/ (Р) справедливо Записанное условие (4.2) отражает общее свойство оценок и в данном случае дает основу для нахождения минимальных дисперсий при оценивании основных параметров интенсивности Ці) речевого сигнала (t).

Воспользуемся описанным подходом и рассмотрим задачу исследования потенциальной точности при оценивании математического ожидания mi=M{I(t)} интенсивности I(t) речевого сигнала E,(t). Будем считать, что доступная наблюдению выборочная функция (t), te[0,T] относится к квазистационарному участку случайного процесса (t). Интенсивность Ці) речевого сигнала (t) будет при этом характеризоваться экспоненциальным распределением

Плотность вероятности (4.5) позволяет определить математическое ожидание В свою очередь, из выражения (4.6) видно, что для рассматриваемой модели (4.3)-(4.5) оценивание средней интенсивности т/ принципиально не может выполняться с большей точностью, чем оценивание дисперсии т/ гауссовского распределения (4.3), т.е. D[m lT]= Dfa2 IT].

Будем считать, что для корреляционной функции R (r) речевого сигнала выполняются условия ЭТИ условия по существу являются необходимыми условиями эргодичности [70]. При их выполнении по выборочной функции (t), te[0,T] на основе известных эргодических теорем принципиально могут быть получены оценки j параметра сг/, которые обладают свойствами несмещенности, состоятельности и эффективности.

Эта формула определяет минимальную дисперсию D[m 1Т] при оценивании средней интенсивности W/ речевого сигнала E,(t) по выборочной функции ,(t), tE[to,to+TJ-[0,TJ или выборочной функции Ці), te[0,T] фиксированной длительности Т. Если интересоваться здесь относительной средней квадратической погрешностью s[mj измерений параметра /W/, то для класса несмещенных оценок m / в данном случае найдем

Для большей наглядности при записи этого выражения использовано привычное соотношение (27г) 1ткАй)э=ткА/э=1/2.

Таким образом, результаты (4.9)-{4Л1) показывают, что предельная точность оценивания параметра т/, по существу, зависит лишь от объема выборки - безразмерного параметра времени Т/Тк=ТА/э.

При детальном описании структуры выборочных функций речевых сигналов можно воспользоваться характеристиками типа «пересечений уровней» и характеристиками фазовых траекторий (глава 2). На практике использование таких характеристик обычно связано с аппаратурными измерениями среднего числа нулей N(0, Т) или среднего числа пересечений N(H,T) речевым сигналом %(t) некоторого заданного уровня Н. В результате измерений параметра N(H, Т), как известно, получается оценка N (Н,Т), на основе которой делаются выводы об истинных параметрах исследуемого процесса E,(t). При этом одним из основных является вопрос о способе получения оценки N (Н,Т) и качестве (или точности) оценивания величины N(H,T) по выборочной функции E,(t), te[t0,t0+T] конечной длительности Т оо.

Рассмотрим здесь особенности двух основных подходов к оцениванию среднего числа пересечений. В первом случае будем считать, что при обработке речевого сигнала ,(t) усреднение может выполняться по множеству реализаций. Во втором случае рассмотрим особенности оценивания при усреднении по длительности, т.е. усреднение по времени.

Предположим, что наблюдению доступно достаточно большое число m реализаций (выборочных функций) речевого сигнала E,(t). Каждая реализация (t), te[t0,t0+TJ получена при одинаковых условиях и имеет фиксированную длительность Т. Обозначим эти реализации через !)(t), 2)(t),...,m)(t), а число пересечений отдельной реализацией l)(t) некоторого заданного (фиксированного) горизонтального уровня Н— через n(i)(H,T),i=l,...,m. В подобной ситуации в качестве наиболее простой и естественной оценки N (Н,Т) среднего числа пересечений N(H,T)=M{n(H,T)} может быть принято выборочное среднее значение М (Н,Т) = ±-п"(Н,Т). (4.12) Считая здесь n(i)(H,T), i=l,...,m независимыми случайными величинами, для математического ожидания и дисперсии такой оценки можно соответственно записать м{м (н,т)} = ±мицн,т)} = м(н,т), (4.13) D{N (Hj)}=- ±D[n (H,T)] = -D[n(H,T)]. (4.14) Таким образом, независимо от вида распределения случайной величины n(i)(H,T), при условии конечности дисперсии D[n(H,T)J oo, выборочное среднее значение (4.12) с увеличением объема выборки т— оо сходится по вероятности к среднему значению N(H,T)=M{n(H,T)}. Иначе говоря, оценка N (Н, Т) является в данном случае состоятельной и несмещенной оценкой среднего числа пересечений N(H,T). При соответствующих ограничениях, налагаемых центральной предельной теоремой, оценка (4.12) для речевого сигнала %(t) будет характеризоваться асимптотически (т— оо) нормальным распределением.

Рассмотрим теперь задачу оценивания среднего числа пересечений в несколько иной постановке. Будем считать, что наблюдению доступна лишь одна реализация E,(t), te[to,to+TJ исследуемого речевого сигнала %(t). Число пересечений заданного уровня Н для этой реализации равно п(Н,Т).

Похожие диссертации на Вероятностная структура информационных сигналов в системах речевого командного управления