Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов Хейдоров, Игорь Эдуардович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хейдоров, Игорь Эдуардович. Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов : автореферат дис. ... кандидата физико-математических наук : 05.13.16.- Минск, 2000.- 20 с.: ил.

Введение к работе

]

Актуальность темы диссертации Диссертационная работа посвящена статистическому моделированию речевых сигналов в задачах распознавания изолированных слов и идентификации дикторов. Для описания временной и акустической изменчивости речевых сигналов в задачах обработки речи широко используются статистические методы на основе скрытых марковских моделей (СММ). Однако стандартные СММ используют ряд предположений относительно акустических характеристик речевых сигналов, что не позволяет описывать их с высокой точностью. Для более эффективного представления временной и акустической изменчивости речи необходимо учитывать статистические зависимости между соседними фрагментами речевых сигналов. Использование принципа авгорегрессии позволяет снять ряд ограничений, присущих стандартным скрытым марковским моделям, в том числе и предположение о независимости фрагментов речевых сигналов. В связи с этим разработка методов и алгоритмов построения авторегрессионных скрытых марковских моделей (АРСММ) является дальнейшим усовершенствованием аппарата статистического моделирования речевых сигналов и обладает актуальностью.

Связь работы с крупными научными программами и темами Диссертационная работа выполнена в рамках НИР, проводимой на факультете радиофизики и электроники и включенной в план фундаментальных исследований Республики Беларусь "Радиофизика. Электромагнитные волны в неоднородных и нелинейных средах" (Волна), и также в рамках следующих НИР: "Разработка высокоэффективных систем распознавания слитной речи", выполнявшейся в 1996-1998гт., № ГР 19963406 согласно распоряжениям Минобразования №05-8/39 от 27.02.96, №05-9/5 от 13.01.97; "Разработка методов выделения информационных признаков в сложных акустических сигналах", выполнявшейся в 1996-1998гг., № ГР 19963451 согласно приказа по БГУ №216-Дот 19.03.96; "Методы и алгоритмы распознавания речи в системах управления и коммуникации", выполнявшейся в 1998г., № ГР 19982707 согласно

приказа по БГУ К 205-Д от 13.09.98. Кроме этого, результаты, полученные по теме диссертации, были использованы при выполнении международного проекта В-95 "Теория и методы дискретных динамических систем в приложениях к задачам цифровой обработки сигналов" (1997-2000гг.) по линии Международного научно-технического центра (г.Москва).

; Цель и задачи исследования

Целью диссертационной работы является разработка авторегрессионной скрытой марковской модели, алгоритмов и программ для решения задач распознавания изолированных слов и идентификации дикторов с учетом психоакустических принципов восприятия речи.

Для достижения данной цели были поставлены и решены следующие задачи:

  1. Анализ принципов и основных процедур формирования вектора признаков речевого сигнала с учетом психоакустического подхода к восприятию речи.

  2. Разработка алгоритмов и программ для описания речевых сигналов на основе скрытых марковских моделей.

  3. Разработка авторегрессиопной скрытой марковской модели для решения задач дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам.

  4. Разработка эффективных процедур и алгоритмов оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карг Кохонена и адаптивного фильтра Калмана.

5. Экспериментальное определение характеристик системы
распознавания изолированных слов и идентификации дикторов по
ключевым словам на основе авторефессионных скрытых марковских
моделей.

Объект и предмет исследования Объектом исследования, выполненного в диссертации, являются статистические методы распознавания речи и идентификации дикторов. Предмет исследования - авторегрессионная скрытая марковская модель.

з Методология и методы проведенного исследования В основе исследования лежит методология скрытых марковских моделей, . усовершенствованная применительно к решаемым в диссертации задачам распознавания речи и идентификации дикторов.

Научная новизна и значимость полученнных результатов

  1. Экспериментально исследованы характеристики мел-кепстральньгх векторов признаков для систем распознавания изолированных слов и идентификации дикторов на основе анализа алгоритмов формирования вектора признаков речевого сигнала и психоакустического подхода.

  2. Впервые разработана авторегрессионная скрытая марковская модель для задачи идентификации дикторов по ключевым словам. С использованием разработанных программных средств исследованы статистические зависимости между векторами признаков речевого сигнала и определены параметры авторегрессионной скрытой марковской модели.

  3. Разработана эффективная процедура оценки параметров авторегрессионной скрытой марковской модели с использованием ЕМ- алгоритма. Впервые разработана процедура начальной оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана.

  4. Разработана структура и базовый интерфейс систем распознавания изолированных слов и идентификации дикторов на основе авторегрессионной скрытой марковской модели для многозадачных приложений.

  5. Исследованы характеристики разработанных систем дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели и экспериментально определены оптимальные параметры модели.

Практическая значимость полученных результатов Разработанные физико-математические модели, алгоритмы и программы могут быть использованы при разработке систем распознавания речи и идентификации дикторов. Разработана

компьютерная модель- системы дикторозависимого распознавания изолированных слови идентификации дикторов на основе АРСММ.

Основные положения, выносимые на защиту На защиту выносятся:

1. Алгоритм формирования вектора признаков речевого сигнала на
основе психоакустических принципов, позволяющий уменьшить

изменчивость акустических харатеристик.

  1. Авторегрессионная скрытая марковская модель для задач дикторозависимого распознавания изолированных ' слов и идентификации дикторов по ключевым словам, отличающаяся от известных статистическим описанием связей между акустическими векторами признаков.

  2. Оценка параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана, которая, в отличие от известных, позволяет в значительной степени уменьшить требуемый объем обучающих данных.

  3. Компьютерная модель системы дикторозависимого распознавания изолированных слов и системы идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели.

Личный вклад соискателя

Автор разрабатывал представленные в диссертации физико-математические модели, алгоритмы и программы. Вклад соавторов связан с помощью в разработке алгоритмов и программных реализаций, а также с обсуждением полученных результатов. Апробация результатов диссертации

Основные результаты работы докладывались:

на международной конференции "EUROSPEECH'99" (September 5-9, 1999, Budapest, Hungary); на международном семинаре "Models and analysis of vocal emissions for biomedical applications" (September 1-3, University of Firenze, Italy); на генеральной ассамблее "The XXVIth General Assembly of the International Union of Radio Science (URSI)" (August 14-21, 1999, University of Toronto, Ontario, Canada); на международном семинаре "The IEEE International

Workshop on Intelligent Signal Processing" (September 4-7, 1999, Budapest, Hungary); на международном симпозиуме "Symposium AeroSence SPIE-99" (April 8-12, 1999, Florida, USA); "2nd MACS International Conference on: Circuits, Systems and Computers" (October 26-29, 1998, Piraeus, Greece); на международной конференции "XI European Signal Processing Conference EUSIPCO 98" (September 8-11, 1998, Rhodes, Greece); на международной конференции "13th International Conference on Digital Signal Processing" (July 2-4, 1997, Santorini, Greece); на международной конференции "Компьютерный анализ данных и моделирование" CD AM, (4-8 сентября, 1995, Минск); на 18-ом международном симпозиуме студентов и молодых ученых (April 29-30, ZielonaGura, 1996).

Опубликованность результатов

По теме диссертации опубликовано всего 18 научных работ, в том числе 1 статья в научном журнале, 4 статьи в сборниках научных трудов и 13 докладов в грудах международных конференций. Общее число страниц опубликованных материалов - 101.

Структура и объем диссертации.

Диссертация состоит из введения, общей характеристики работы, четырех глав, заключения, списка использованных литературных источников и приложения. Общий объем диссертации составляет 98 страниц. Диссертация содержит 22 рисунка на 15 страницах и б таблиц на 3 страницах. Список литературы включает 91 наименование.

Похожие диссертации на Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов