Введение к работе
Актуальность работы. Использование речевого интерфейса актуально для таких задач, как распознавание и анализ речи, аутентификация личности по голосу (например, в интегрированных системах безопасности), возможность голосового ответа на запрос информационной системы (например, о состоянии технологического процесса), повышение эффективности преобразователей «речь-текст». Голосовой интерфейс является одним из условий создания безбарьерной среды для людей с ограниченными возможностями. Все большую актуальность приобретает использование речевых технологий для создания диалога человек-машина.
Основным направлением современных речевых технологий является разработка единых алгоритмов параметризации речевого сигнала, основанных на физической модели речевого тракта и природе речевого сигнала – определение существенных параметров и разработка математических моделей, применимых как для синтеза, так и для анализа речи. Определение отличительных существенных параметров осложняется тем, что речевой сигнал имеет двойственную природу: с одной стороны, это акустический сигнал, отражающий процесс распространения энергии акустических колебаний в упругой среде, с другой стороны, речевой сигнал несет смысловую информацию, информацию об эмоциональном состоянии диктора, а также содержит индивидуальные параметры, позволяющие отличать одного диктора от другого. В настоящее время не существует единого мнения о природе формы спектра речевых сигналов, методах их анализа и синтеза.
Используемые в диссертации математический аппарат, подходы к анализу и синтезу речи основываются на трудах отечественных и зарубежных исследователей, таких как: А.В. Аграновский, Т.К. Винцюк, В.И. Галунов, Б. Гоулд, С.В. Дворянкин, В.Р. Женило, Б.М. Лобанов, Д.Д. Маркел, М.В. Назаров, А.А. Петровский, Ю.Н. Прохоров, Л.Р. Рабинер, М.А. Сапожков, В.Н. Сорокин, Г. Фант, Дж. Фланаган, Л.А. Чистович, В. Чу, Р.В. Шафер и др.
Анализ научных работ показал, что для организации человеко-машинного взаимодействия при помощи речевых команд системы анализа и синтеза речи должны отвечать следующим требованиям: возможность работы в режиме реального времени; достаточное качество распознавания и синтеза (в том числе – естественность звучания); дикторонезависимость; возможность определения индивидуальных акустических параметров голоса для последующего применения.
Наибольшей точностью описания речевого сигнала обладают математические модели, основанные на физике протекающих явлений, что приводит к требованиям адекватности математических моделей речевого сигнала акустической теории речеобразования.
Современное состояние исследований в области речевых технологий обуславливает актуальность решения научной задачи создания математических моделей и методов параметризации речевых сигналов, основанных на физической теории речеобразования и универсальных для систем анализа и синтеза речи.
Цели и задачи исследования. Целью работы является разработка и совершенствование математических моделей речевых сигналов для анализа и синтеза речи и методов их построения.
Для достижения данной цели в работе решены следующие задачи:
-
Систематизация математических моделей речевых сигналов для анализа и синтеза речи, подходов к анализу и синтезу речи, включающих в себя систему отличительных параметров речевого сигнала, методов их определения и оценки точности расчетов.
-
Анализ реальной точности оценки частоты основного тона речевого сигнала оптимальным методом.
-
Разработка математических моделей принятия решения для дикторонеза-висимого детектирования гласных звуков.
-
Создание и программная реализация алгоритмов дикторонезависимого распознавания гласных звуков и оценки параметров математических моделей речевого сигнала.
-
Разработка математической модели импульсного источника речевого сигнала.
-
Разработка математической модели вокализованных сегментов речевого сигнала, основанной на модели речевого тракта.
-
Разработка метода расчета индекса частотной модуляции математической модели речевого сигнала.
-
Разработка математической модели и метода сепарации речевого сигнала на периодические, импульсные и шумовые сегменты.
Методы исследования. При решении поставленных задач использовались аналитические и вычислительные методы теории речеобразования, математического анализа, цифровой обработки сигналов, численные методы, методы программирования и моделирования на ЭВМ. Для проведения, выполнения и документирования инженерных и научных расчетов применялась программа MathCAD.
Новые научные результаты, выносимые на защиту:
-
Точностные характеристики оценки частоты основного тона речевого сигнала оптимальным методом, полученные экспериментально.
-
Математическая модель принятия решения для дикторонезависимого детектирования гласных звуков, использующая компактный набор существенных параметров на основе спектральных составляющих.
-
Алгоритмы дикторонезависимого детектирования гласных звуков и оценки существенных параметров, основанные на математических моделях речевого сигнала.
-
Математическая модель импульсного источника речевого сигнала на основе полигауссовской математической модели применительно к описанию взрывных звуков речи.
-
Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта, учитывающая вариации частоты основного тона голосового источника в виде частотной модуляции.
-
Метод расчета индекса частотной модуляции математической модели речевого сигнала, основанный на использовании практической полосы частот обертонов.
-
Метод сепарации речевого сигнала на периодические, импульсные и шумовые сегменты обобщенной математической модели.
Практическая ценность результатов работы заключается в возможности применения разработанных математических моделей речевого сигнала и методов параметризации для совершенствования систем анализа и синтеза речи, в том
числе для повышения надежности систем голосовой аутентификации, а также для разработки систем поэлементного синтеза речи.
Полученные результаты могут быть использованы для совершенствования алгоритмов вычисления существенных параметров речевого сигнала, оценки их точности, в том числе в аппаратуре связи специального назначения органов внутренних дел.
Реализация результатов исследований. Полученные в диссертации результаты использовались при выполнении научно-исследовательских работ, при разработке технических заданий и рекомендаций в ФКУ Научно-исследовательский центр «Охрана» МВД России (г. Москва), в Департаменте информационных технологий, связи и защиты информации МВД России, в Воронежском институте МВД России, в ОАО «Концерн «Созвездие». Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России.
Соответствие паспорту специальности. Содержание диссертации соответствует п. 3. «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4. «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5. «Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования вычислительного эксперимента», п. 7. «Разработка новых математических методов и алгоритмов проверки адекватности математических моделей объектов на основе данных натурного эксперимента» паспорта специальности 05.13.18 – Математическое моделирование, численные методы и комплексы программ.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих конференциях: ХХ Международная научно-техническая конференция «Радиолокация, навигация, связь» (Воронеж, 2014), XXII Международная научная конференция «Информатизация и информационная безопасность правоохранительных органов» (Москва, 2013), Международная научно-техническая конференция «Наука и образование – 2012» (Мурманск, 2012), XVI Международная научно-практическая конференция «Наука и современность» (Новосибирск, 2012), XVI Международная научная конференция: «Математические Методы в Технике и Технологиях - ММТТ-26» (Нижний Новгород, 2013), III Международная научная конференция: «Проблемы управления, обработки и передачи информации (АТМ-2013)» (Саратов, 2013), Международная научно-практическая конференция «Общественная безопасность, законность и правопорядок в III тысячелетии» (Воронеж, 2012, 2013), I Международная научно-практическая конференция «Проблемы современных, экономических, правовых и естественных наук в России» (Воронеж, 2013), Всероссийская научно-практическая конференция «Охрана, безопасность и связь» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция курсантов, слушателей, студентов, адъюнктов и молодых специалистов «Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция «Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией» (Воронеж, 2013).
Публикации по материалам диссертации. По теме диссертации опубликовано 22 научные работы, в том числе пять статей в научных журналах, которые входят в утвержденный ВАК при Минобрнауки России Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук; 14 материалов международных и всероссийских научных конференций, 1 свидетельство о регистрации программы в государственном фонде неопубликованных документов, 1 заявка на выдачу патента на изобретение Российской Федерации, 1 свидетельство о регистрации программы в ФБГУ «Федеральный институт промышленной собственности».
Личный вклад автора. Основные научные результаты получены автором лично. Из 19 работ по теме диссертации 4 написаны без соавторов. В приведенном списке научных работ из опубликованных в соавторстве лично соискателем предложено: в [1–5] – разработка основных концептуальных положений, постановки задач, основные идеи по методам построения и расчета параметров математических моделей речевых сигналов; в [9,11–13,15,17–19,20–22] – постановка экспериментов, анализ и интерпретация полученных результатов и выводы.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, двух приложений, списка литературы, включающего 174 наименования. Общий объем диссертации составляет 150 страниц машинописного текста, включая 26 рисунков и 26 таблиц, а также 16 страниц литературных источников и 7 страниц приложений.