Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода Савченко Людмила Васильевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Савченко Людмила Васильевна. Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода: диссертация ... кандидата Технических наук: 05.13.01 / Савченко Людмила Васильевна;[Место защиты: ФГБОУ ВО Воронежский государственный технический университет], 2017.- 176 с.

Введение к работе

Актуальность темы. В последнее время появляется все большее число интеллектуальных информационных и технических систем, которые непрерывно осуществляют анализ состояния сложных прикладных объектов и используют полученную информацию для последующего управления этими объектами. При этом нередко необходимо обеспечить интеллектуализацию принятия решений с возможностью внесения корректировок в автоматически принимаемые решения. В этих случаях речевое взаимодействие позволяет использовать дополнительный канал управления в сложных ситуациях, когда руки и ноги оператора заняты, а зрение перегружено. В частности, с помощью голоса можно осуществить резервное управление бортовым оборудованием, измерительными системами и индикаторами, а также производить запрос навигационных или иных данных, предупреждать о возникших аварийных ситуациях.

Основной проблемой построения голосового интерфейса в таких системах становится обеспечение максимальной точности и вычислительной эффективности принятия решений при обработке речевой информации. Для этого могут применяться традиционные технологии трансформации речи в текст (диктовки), в которых на первом этапе с помощью фонемной сегментации в речевом сигнале выделяются квазистационарные однородные участки (с неизменяющимися спектральными характеристиками) – минимальные речевые единицы (МРЕ). Для каждой МРЕ вычисляются некоторые признаки, например, кеп-стральные коэффициенты (MFCC, Mel Frequency Cepstral Coefficients). На втором этапе на основе аппарата скрытых марковских моделей (СММ) выполняется динамическое выравнивание по темпу речи полученной последовательности признаков МРЕ и транскрипций слов из словаря. Существенный вклад в развитие такого подхода внесли зарубежные специалисты Baum L., Benesty J., Baker J., Gray A., Hinton G., Jurafsky D., Markel J., Mohri M., Rabiner L., Reddy D. и др. Большой вклад в развитие методов и моделей распознавания русской речи внесли советские и российские ученые Винцюк Т.К., Галунов В.И., Загоруйко Н.Г., Карпов А.А., Лобанов Б.М., Мясников Л.Л., Потапова Р.К., Ронжин А.Л., Сорокин В.Н., Трунин-Донской В.Н., Харламов А.А., Шелепов В.Ю. и др.

Как известно, точность таких технологий трансформации речи в текст сильно варьируется при наличии разнообразных акустических помех, акцента, дефектов речи, изменении физического и эмоционального состояния пользователя. Проблема точности обостряется для автономных технических и информационных систем, рассчитанных на реализацию на малопроизводительном оборудовании. В таких системах передача речевых сигналов на удаленные вычислители зачастую невозможна или недопустима, например, в связи с повышенными требованиями к безопасности. С этой точки зрения несомненный интерес представляет применение теоретико-информационного подхода для по-фонемного распознавания речи, в рамках которого для принятия решений при распознавании МРЕ используется принцип минимума относительной энтропии (рассогласования Кульбака-Лейблера). Как известно, такой подход позволяет значительно снизить как затраты на хранение фонетической базы данных

(ФБД), так и вычислительную сложность алгоритмов обработки речевых сигналов с помощью адаптивной реализации в виде метода обеляющего фильтра.

В алгоритмах пофонемной обработки речевой информации каждый звук описывается собственной акустической моделью, при этом степень сходства различных звуков зачастую не учитывается. В результате для практической реализации модели близких по звучанию звуков нередко требуется объединить в один кластер. Такой подход приводит к значительному сокращению количества различимых звуков в ФБД и, как следствие, к увеличению числа альтернативных решений на выходе алгоритма распознавания. Решению указанной актуальной задачи повышения эффективности распознавания речи в автономных информационных и технических системах на основе применения системного подхода с представлением фонемы как нечеткого множества центров кластеров всех МРЕ, и посвящена настоящая диссертация.

Цель работы заключается в повышении эффективности принятия решений и обработки речевой информации в голосовом интерфейсе информационных и технических систем на основе теории нечетких множеств и асимптотических свойств информационного рассогласования Кульбака-Лейблера. Для достижения этой цели решались следующие задачи:

  1. Систематизировать методы реализации голосового интерфейса в автономных информационных и технических системах, функционирующих на малопроизводительном оборудовании.

  2. Провести анализ применимости системного подхода для повышения точности алгоритмов пофонемного распознавания речи на основе асимптотических свойств рассогласования Кульбака-Лейблера.

  3. Разработать эффективный алгоритм принятия решений в автономных системах обработки речевой информации на основе представления фонемы как нечеткого множества минимальных речевых единиц.

  4. Исследовать применимость разработанных алгоритмов в задаче оценки эффективности постановки произношения для информационных систем обучения речи.

  5. Выполнить программную реализацию предложенных алгоритмов в информационной системе интеллектуальной поддержки принятия решений для обработки речевой информации.

  6. Провести экспериментальные исследования эффективности разработанных алгоритмов в задачах распознавания устной речи.

Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории нечетких множеств, теории вероятностей и математической статистики, теории распознавания образов.

Тематика работы соответствует следующим пунктам паспорта специальности 05.13.01: п. 3 «Разработка критериев и моделей описания и оценки эффективности решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации», п.4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации», п.5 «Разработка специального математиче-

ского и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации».

Научная новизна работы состоит в следующем:

  1. На основе системного подхода и асимптотических свойств рассогласования Кульбака-Лейблера предложен новый метод нечеткого фонетического кодирования (НФК) для распознавания фонем, в котором, в отличие от известных методов обработки речевой информации, используется модель фонемы как нечеткого множества эталонных минимальных речевых единиц.

  2. Разработан новый вычислительно эффективный алгоритм принятия решений в автономных системах обработки речевой информации, в котором, в отличие от известных методов, для классификации гласных звуков применяется метод нечеткого кодирования, а степень принадлежности речевого сигнала к эталонному слову определяется по результатам классификации типов минимальных речевых единиц, выделенных с помощью фонемной сегментации.

  3. Предложен новый алгоритм оценки эффективности постановки произношения в информационных системах обучения речи, в котором на первом этапе проверяется стабильность произношения эталонных звуков, а на втором, в отличие от известных методов, оценивается точность распознавания на основе модификации метода нечеткого фонетического кодирования.

Практическая значимость обусловлена применимостью предложенных алгоритмов для повышения точности, вычислительной эффективности и затрат памяти в существующих автономных информационных и технических системах с голосовым управлением робототехникой широкого назначения («Умное здание», управление транспортным средством и т.п.). Разработанная на основе метода нечеткого фонетического кодирования информационная система может быть использована в качестве прототипа систем голосового управления персональным компьютером и систем постановки произношения, а также путем интеллектуализации существующих информационных и технических систем с помощью включения в них новых голосовых интерфейсов.

Реализация и внедрение результатов работы. Разработанный метод нечеткого фонетического кодирования был использован в ходе выполнения Государственного контракта № 07.514.11.4137 с министерством образования и науки в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (2012-2013 гг.), исполнитель – ЗАО «ИстраСофт» (г. Москва). Соискатель является одним из исполнителей гранта президента РФ для молодых ученых – докторов наук № МД-306.2017.9. Результаты диссертации внедрены в учебный процесс Нижегородского государственного лингвистического университета в рамках дисциплины «Новые речевые технологии».

Апробация работы. Достоверность результатов диссертации подтверждается строгостью математических постановок, анализом современного состояния исследований в области распознавания речи, а также исчерпывающим описанием проведенных экспериментальных исследований. Результаты работы представлялись на международных и всероссийских конференциях Nonlinear

Speech Processing (Монс, Бельгия, 2013 г.), Rough Sets and Current Trends in Computing (Мадрид, Испания, 2014 г.), «Информационные системы и технологии» (Н. Новгород, 2013-2017 гг.), «Будущее технической науки» (Н. Новгород, 2014 г.) «Нейроинформатика» (Москва, 2013 г.), «Нелинейная динамика в когнитивных исследованиях» (Н. Новгород, 2013, 2015 г.), «Управление большими системами» (Арзамас, 2014 г.).

Публикации. Основные результаты диссертации опубликованы в 21 работе автора, в том числе 7 - в журналах из Перечня ВАК РФ, одно свидетельство о регистрации программы для ЭВМ, 13 статей в материалах международных и всероссийских конференций. Три статьи проиндексированы Scopus и Web of Science. В работах, написанных в соавторстве, лично соискателем получены следующие результаты: в работах [1, 9] разработан метод НФК для распознавания фонем; в работах [5, 11] разработана архитектура программной системы и выполнена программная реализация алгоритма распознавания голосовых команд; в работах [8, 13] разработан алгоритм нечеткого фонетического кодирования слов; в работе [10] проведены экспериментальные исследования алгоритма нечеткого фонетического кодирования слов; в работе [15] предложена классификация выделенных в результате фонемной сегментации звуков.

Структура и объем работы. Диссертация изложена на 176 страницах, включающих 58 рисунков, 24 таблицы и состоит из введения, четырех глав основного текста, заключения, списка используемой литературы, включающего 186 наименований, и 3 приложения.