Введение к работе
]
Актуальность темы диссертации Диссертационная работа посвящена статистическому моделированию речевых сигналов в задачах распознавания изолированных слов и идентификации дикторов. Для описания временной и акустической изменчивости речевых сигналов в задачах обработки речи широко используются статистические методы на основе скрытых марковских моделей (СММ). Однако стандартные СММ используют ряд предположений относительно акустических характеристик речевых сигналов, что не позволяет описывать их с высокой точностью. Для более эффективного представления временной и акустической изменчивости речи необходимо учитывать статистические зависимости между соседними фрагментами речевых сигналов. Использование принципа авгорегрессии позволяет снять ряд ограничений, присущих стандартным скрытым марковским моделям, в том числе и предположение о независимости фрагментов речевых сигналов. В связи с этим разработка методов и алгоритмов построения авторегрессионных скрытых марковских моделей (АРСММ) является дальнейшим усовершенствованием аппарата статистического моделирования речевых сигналов и обладает актуальностью.
Связь работы с крупными научными программами и темами Диссертационная работа выполнена в рамках НИР, проводимой на факультете радиофизики и электроники и включенной в план фундаментальных исследований Республики Беларусь "Радиофизика. Электромагнитные волны в неоднородных и нелинейных средах" (Волна), и также в рамках следующих НИР: "Разработка высокоэффективных систем распознавания слитной речи", выполнявшейся в 1996-1998гт., № ГР 19963406 согласно распоряжениям Минобразования №05-8/39 от 27.02.96, №05-9/5 от 13.01.97; "Разработка методов выделения информационных признаков в сложных акустических сигналах", выполнявшейся в 1996-1998гг., № ГР 19963451 согласно приказа по БГУ №216-Дот 19.03.96; "Методы и алгоритмы распознавания речи в системах управления и коммуникации", выполнявшейся в 1998г., № ГР 19982707 согласно
приказа по БГУ К 205-Д от 13.09.98. Кроме этого, результаты, полученные по теме диссертации, были использованы при выполнении международного проекта В-95 "Теория и методы дискретных динамических систем в приложениях к задачам цифровой обработки сигналов" (1997-2000гг.) по линии Международного научно-технического центра (г.Москва).
; Цель и задачи исследования
Целью диссертационной работы является разработка авторегрессионной скрытой марковской модели, алгоритмов и программ для решения задач распознавания изолированных слов и идентификации дикторов с учетом психоакустических принципов восприятия речи.
Для достижения данной цели были поставлены и решены следующие задачи:
-
Анализ принципов и основных процедур формирования вектора признаков речевого сигнала с учетом психоакустического подхода к восприятию речи.
-
Разработка алгоритмов и программ для описания речевых сигналов на основе скрытых марковских моделей.
-
Разработка авторегрессиопной скрытой марковской модели для решения задач дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам.
-
Разработка эффективных процедур и алгоритмов оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карг Кохонена и адаптивного фильтра Калмана.
5. Экспериментальное определение характеристик системы
распознавания изолированных слов и идентификации дикторов по
ключевым словам на основе авторефессионных скрытых марковских
моделей.
Объект и предмет исследования Объектом исследования, выполненного в диссертации, являются статистические методы распознавания речи и идентификации дикторов. Предмет исследования - авторегрессионная скрытая марковская модель.
з Методология и методы проведенного исследования В основе исследования лежит методология скрытых марковских моделей, . усовершенствованная применительно к решаемым в диссертации задачам распознавания речи и идентификации дикторов.
Научная новизна и значимость полученнных результатов
-
Экспериментально исследованы характеристики мел-кепстральньгх векторов признаков для систем распознавания изолированных слов и идентификации дикторов на основе анализа алгоритмов формирования вектора признаков речевого сигнала и психоакустического подхода.
-
Впервые разработана авторегрессионная скрытая марковская модель для задачи идентификации дикторов по ключевым словам. С использованием разработанных программных средств исследованы статистические зависимости между векторами признаков речевого сигнала и определены параметры авторегрессионной скрытой марковской модели.
-
Разработана эффективная процедура оценки параметров авторегрессионной скрытой марковской модели с использованием ЕМ- алгоритма. Впервые разработана процедура начальной оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана.
-
Разработана структура и базовый интерфейс систем распознавания изолированных слов и идентификации дикторов на основе авторегрессионной скрытой марковской модели для многозадачных приложений.
-
Исследованы характеристики разработанных систем дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели и экспериментально определены оптимальные параметры модели.
Практическая значимость полученных результатов Разработанные физико-математические модели, алгоритмы и программы могут быть использованы при разработке систем распознавания речи и идентификации дикторов. Разработана
компьютерная модель- системы дикторозависимого распознавания изолированных слови идентификации дикторов на основе АРСММ.
Основные положения, выносимые на защиту На защиту выносятся:
1. Алгоритм формирования вектора признаков речевого сигнала на
основе психоакустических принципов, позволяющий уменьшить
изменчивость акустических харатеристик.
-
Авторегрессионная скрытая марковская модель для задач дикторозависимого распознавания изолированных ' слов и идентификации дикторов по ключевым словам, отличающаяся от известных статистическим описанием связей между акустическими векторами признаков.
-
Оценка параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана, которая, в отличие от известных, позволяет в значительной степени уменьшить требуемый объем обучающих данных.
-
Компьютерная модель системы дикторозависимого распознавания изолированных слов и системы идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели.
Личный вклад соискателя
Автор разрабатывал представленные в диссертации физико-математические модели, алгоритмы и программы. Вклад соавторов связан с помощью в разработке алгоритмов и программных реализаций, а также с обсуждением полученных результатов. Апробация результатов диссертации
Основные результаты работы докладывались:
на международной конференции "EUROSPEECH'99" (September 5-9, 1999, Budapest, Hungary); на международном семинаре "Models and analysis of vocal emissions for biomedical applications" (September 1-3, University of Firenze, Italy); на генеральной ассамблее "The XXVIth General Assembly of the International Union of Radio Science (URSI)" (August 14-21, 1999, University of Toronto, Ontario, Canada); на международном семинаре "The IEEE International
Workshop on Intelligent Signal Processing" (September 4-7, 1999, Budapest, Hungary); на международном симпозиуме "Symposium AeroSence SPIE-99" (April 8-12, 1999, Florida, USA); "2nd MACS International Conference on: Circuits, Systems and Computers" (October 26-29, 1998, Piraeus, Greece); на международной конференции "XI European Signal Processing Conference EUSIPCO 98" (September 8-11, 1998, Rhodes, Greece); на международной конференции "13th International Conference on Digital Signal Processing" (July 2-4, 1997, Santorini, Greece); на международной конференции "Компьютерный анализ данных и моделирование" CD AM, (4-8 сентября, 1995, Минск); на 18-ом международном симпозиуме студентов и молодых ученых (April 29-30, ZielonaGura, 1996).
Опубликованность результатов
По теме диссертации опубликовано всего 18 научных работ, в том числе 1 статья в научном журнале, 4 статьи в сборниках научных трудов и 13 докладов в грудах международных конференций. Общее число страниц опубликованных материалов - 101.
Структура и объем диссертации.
Диссертация состоит из введения, общей характеристики работы, четырех глав, заключения, списка использованных литературных источников и приложения. Общий объем диссертации составляет 98 страниц. Диссертация содержит 22 рисунка на 15 страницах и б таблиц на 3 страницах. Список литературы включает 91 наименование.