Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала Серов, Александр Анатольевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Серов, Александр Анатольевич. Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала : диссертация ... кандидата технических наук : 05.13.13.- Москва, 2000.- 121 с.: ил. РГБ ОД, 61 01-5/1217-4

Введение к работе

Объектом исследования является программный комплекс исследования алгоритмов обработки и распознавания речи.

Предметом исследования являются стохастические свойства кепст-ральных коэффициентов, представляющих фонемы русского языка, методы таксономии речи, методы применения СММ в задачах распознавания речи, методы оценки стартовых параметров СММ для изолированных слов.

Актуальность работы. В последние несколько лет сильно возрос интерес к приложениям распознавания речи. Во многом это связано со значительным повышением производительности вычислительной техники, предлагаемой сейчас по относительно низким ценам.

Производительность современных компьютеров, даже персонального класса, позволяет в режиме реального времени проводить сложную математическую обработку сигналов с достаточно широким спектром, хранить в оперативной памяти и обрабатывать большие объемы информации. Именно недостаток производительности сдерживал развитие приложений распознавания речи в предыдущие годы, ведь большинство алгоритмов и методов, применяемых в этой области, требуют больших вычислительных ресурсов для работы в реальном времени.

Самыми перспективными системами распознавания на сегодняшний день являются системы, использующие теорию Скрытого Марковского Моделирования (СММ) или Нейронные Сети (НС). Обе эти технологии реализуют т.н. вероятностное распознавание в отличие от технологий, реализующих точное распознавание, которые обычно используют методы динамического программирования.

Перспективность вероятностных методов распознавания связана с тем, что только они способны решать задачи распознавания слитной речи и только на их основе можно строить дикторонезависимые системы распознавания, к которым сейчас проявляется наивысший интерес.

Несмотря на то, что в целом теория СММ хорошо разработана, в ней еще существуют недостаточно формализованные области. Одной из них является задача таксономии речи на минимальные речевые единицы, которыми являются фонемы. Решение этой задачи необходимо при создании самообучающихся систем распознавания слитной речи.

Основные трудности возникали в связи с отсутствием удовлетворительного решения задачи оценки стартовых параметров СММ. Обычно она решается эмпирически или ее решение жестко привязывается к реализации. На настоящий момент существует несколько широко применяемых методов оценки стартовых параметров СММ для задач распознавания команд, но все они не учитывают фонематический состав речевых единиц и соответственно пригодны только для задач распознавания команд.

Таким образом, решение задачи оценки стартовых параметров СММ, которое основано на фонематической таксономии речи, представляется актуальным и необходимым для развития теории и практики автоматического распознавания речи.

Цель диссертационной работы. Разработка теоретических предпосылок и реализация метода оценки стартовых параметров СММ, основанного на фонематической таксономии речи, прецставлеьной в признаковом пространстве кепстральных коэффициентов, и пригодного для систем распознавания команд и слитной речи.

В соответствии с поставленной целью:

проведен анализ и исследование применяемых методов и алгоритмов в области распознавания речи в России и за рубежом;

разработана концепция построения системы распознавания речи на основе фонематической таксономии и СММ, выявлены ее компоненты;

проведен статистический анализ наборов кепстральных коэффициентов представляющих фонемы русского языка;

обосновано применение дистанции Махаланобиса в качестве метрики для наборов кепстральных коэффициентов;

разработан и реализован алгоритм фонематической таксономии речи на основе кластерного анализа с применением дистанции Махаланобиса.

Разработан и реализован алгоритм оценки стартовых параметров СММ, основанный на фонематической таксономии речи;

осуществлена программная реализация предлагаемых алгоритмов и технологии построения систем распознавания речи;

проведено тестирование системы распознавания и сравнение предлагаемых алгоритмов с применяемыми в настоящее время.

Методы исследования. При разработке теоретического аппарата а работе использованы: теория распознавания образов, теории речеобразования и физиологии восприятия речи, теория скрытого Марковского моделирования, теория математической статистики, теория возмущений, методы математической статистики и методы динамического программирования. Научная новизна. В диссертации поставлена и решена актуальная задача развития и практического применения методов и алгоритмов для создания систем автоматического распознавания речи.

В рамках решения этой задачи получены следующие результаты:

  1. Произведен статистический анализ наборов кепстральных параметров для всех фонем русского языка. Результаты этого анализа позволят упростить процесс создания систем распознавания русской речи.

  2. Разработан и практически реализован алгоритм фонематической таксономии изолированных (в смысле значительных пауз) речевых единиц.

  3. Разработан метод и практически применен алгоритм оценки стартовых параметров СММ изолированных слов, основанный на фонематической таксономии.

  4. Исследована возможность применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показана состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи.

Достоверность предложенных теоретических положений доказана построением и реализацией алгоритмов на их основе; подтверждена экспериментальными результатами, включая сопоставительные сравнения с известными методами оценки стартовых параметров СММ; применением предложенных теоретических положений к системам распознавания речи. Практическая ценность результатов работы состоит в том, что предложенные теоретические подходы реализованы в виде алгоритмов, на основе которых создана программная система распознавания речи, способная выполнять свои функции без итеративного процесса обучения СММ основываясь, только на оценках стартовых параметров полученных из анализа нескольких экземпляров слов. Кроме того, в процессе тестирования фонематической таксономии была создана база данных параметров Гаусовских смесей для фонем русского языка, которую можно применять при построении систем распознавания слитной речи.

Апробация работы. Основные положения работы докладывались на Научно-технической конференции студентов, аспирантов и молодых специалистов МГИЭМ 1997г. и в 2000г.

Публикации. По теме диссертации опубликованы в печати 4 работы. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Список литературы включает 86 наименований.