Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи Кипяткова, Ирина Сергеевна

Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи
<
Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кипяткова, Ирина Сергеевна. Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи : диссертация ... кандидата технических наук : 05.13.11 / Кипяткова Ирина Сергеевна; [Место защиты: С.-Петерб. ин-т информатики и автоматизации РАН].- Санкт-Петербург, 2011.- 136 с.: ил. РГБ ОД, 61 11-5/3247

Введение к работе

Актуальность темы диссертации. Большинство современных систем автоматического распознавания речи способны эффективно анализировать только изолированно произнесенные слова или прочитанные фразы. Распознавание разговорной речи затрудняется ее вариативностью: различные дикторы могут произносить одно и то же слово по-разному, кроме того, произношение одного и того же диктора может меняться в зависимости от контекста и темпа речи. Поэтому при разработке систем распознавания разговорной речи важно учитывать вариативность произношения слов.

Для функционирования системы автоматического распознавания речи необходим словарь слов с их орфографическим и фонематическим представлением, который создается, как правило, с использованием канонических фонетических правил транскрибирования для определенного языка. Для разговорного стиля речи характерны явления ассимиляции (объединения звуков), а также редуцирования (сокращения длительности определенных звуков вплоть до полного исчезновения), причем эти явления могут возникать как внутри слова, так и на стыках слов. Это приводит к значительному снижению точности автоматического распознавания речи. Для учета явлений фонетической редукции и ассимиляции необходимо расширить словарь системы распознавания путем добавления альтернативных вариантов произношения слов к базовым. То есть для каждого слова в словаре должны содержаться транскрипции, которые описывают потенциально возможную вариативность произношения слов, характерную для разговорной речи.

Альтернативные транскрипции могут быть созданы экспертным путем, однако это является трудоемким процессом и, кроме того, при создании новой системы с другим словарем придется создавать транскрипции заново. Для решения указанных проблем в работе предложен метод автоматической генерации альтернативных транскрипций на основе применения разработанных правил, учитывающих явления редукции и ассимиляции звуков русской речи.

Следующим этапом после распознавания слов является генерация грамматически правильных и осмысленных гипотез произнесенной фразы с помощью некоторой модели языка. Одним из подходов к построению языковых моделей являются статистические я-граммы, которые оценивают вероятность появления слова в зависимости от последовательности из п произнесенных до этого слов. Существующие модели в большинстве исследований бьши апробированы на английском языке и, как следствие, не отвечают специфике русского языка, для которого характерен практически свободный порядок слов в предложениях и наличие большого количества словоформ в каждой лексеме. Для того чтобы учесть дальнодействующие связи между словами во фразе, в работе предложен метод построения модифицированной языковой модели, при создании которой производится одновременно синтаксический и статистический анализ обучающих текстовых данных.

Экспертный анализ обучающих акустических, фонетических, текстовых данных при создании систем распознавания речи - трудоемкий процесс,

значительно препятствующий внедрению речевых технологий, поэтому разработка математического и программного обеспечения, направленного на автоматизацию способов создания фонетико-языковых моделей русской разговорной речи, приобретает особую актуальность.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов, алгоритмов и программных средств акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка для повышения точности распознавания разговорной русской речи. Для достижения поставленной цели в работе решены следующие задачи:

  1. Анализ современных методов и подходов к фонетико-языковому моделированию разговорной речи.

  2. Разработка методов и алгоритмов для создания множественных транскрипций, учитывающих различные варианты возможного произнесения одного и того же слова в разговорной речи, и коррекция транскрипций по обучающему корпусу.

  3. Разработка методов и программных средств статистического и синтаксического анализа обучающих текстовых корпусов для создания эффективной стохастической модели русского языка.

  4. Разработка программных средств и количественное оценивание качества автоматического распознавания разговорной русской речи со сверхбольшим словарем.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории информации, теории множеств, статистического анализа, автоматического анализа текста. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Положения, выносимые на защиту:

  1. Комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций словаря распознавания.

  2. Метод создания синтаксическо-статистической модели русского языка системы автоматического распознавания речи.

  3. Комплекс программных средств для системы распознавания русской речи со сверхбольшим словарем.

Научная новизна работы состоит в следующем:

  1. Разработан комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания разговорной русской речи, отличающийся объединением методов, основанных на знаниях и данных, полученных при анализе речевых корпусов.

  2. Разработан метод построения стохастической модели русского языка системы автоматического распознавания речи, отличающийся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющий учесть дальнодействующие грамматические связи между словами во фразе.

3. Создан комплекс программных средств по обработке разговорной русской речи, отличающийся применением разработанных методов фонетико-языкового моделирования и возможностью оперативного обновления моделей при разработке систем автоматического распознавания русской речи со сверхбольшим словарем.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели, алгоритмы и программные средства для фонетико-языкового моделирования направлены на решение проблемы повышения точности автоматического распознавания разговорной русской речи и сокращение объема экспертной работы на этапе обучения систем распознавания. Метод фонематического транскрибирования, реализованный в комплексе программных средств, позволяет создавать как базовые фонематические транскрипции для списка независимых слов, так и альтернативные транскрипции слов, которые учитывают различные варианты возможного произнесения одного и того же слова в разговорной речи, и позволяет моделировать вариативность произношения слов в разговорной речи. Предложенный метод позволяет создавать и обучать посредством речевого корпуса акустико-фонетические модели речевых единиц. Предложенная в работе модель языка создается за счет объединения результатов статистического и синтаксического анализа текстов. Использование дополнительного синтаксического анализа обучающего корпуса при создании модели языка позволяет учесть дальнодействующие грамматические связи между словами в предложении и тем самым расширить модель языка. Модель позволяет увеличить точность распознавания русской речи, сохранив при этом приемлемую скорость распознавания.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НИР Министерства образования и науки РФ «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг. и «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК№П2579, 2009-2011 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России»; грант РФФИ № 08-08-00128-а «Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной русской речи»; гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых № 26-05/051 «Разработка программного модуля преобразования "буква-фонема" для системы стенографирования разговорной русской речи» 2009 г. и «Разработка

программного модуля языкового моделирования системы стенографирования разговорной русской речи» 2010 г.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции «Речь и Компьютер» SPECOM (Санкт-Петербург, 2009), Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» OSTIS-2011 (Минск, 2011), Международной филологической конференции (Санкт-Петербург, 2008, 2009, 2011), междисциплинарном семинаре «Анализ разговорной русской речи» (2007, 2008, 2010), Международной научно-практической конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2008 (Кацивели, Украина, 2008); Международной конференции «Региональная информатика» (Санкт-Петербург, 2010).

Публикации. По материалам диссертации опубликованы 22 печатные работы, включая 3 публикации в научных журналах, рекомендованных ВАК («Известия вузов. Приборостроение» и «Информационно-управляющие системы»), получены 4 свидетельства о регистрации программ и базы данных в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 136 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (124 наименования), 20 таблиц, 26 рисунков, одно приложение с копиями актов внедрения.

Похожие диссертации на Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи