Введение к работе
Актуальность темы. В настоящее время активно развиваются информационные системы на основе устройств автоматического анализа речевых сигналов в реальном времени. Одним из эффективных инструментов в развитии информационных систем является использование естественной речи человека при реализации систем голосового управления техническими устройствами и систем преобразования речи в текст. За последние десятилетия исследований были достигнуты определенные успехи в этой области, однако задача в целом все еще далека от своего решения. Существующие на данный момент устройства не имеют возможности для широкого применения, так как работают в режиме классификации небольшого количества отдельных команд. Значительные временные затраты на выполнение процедуры обработки сигнала и его классификации не позволяют применять их в системах реального времени. Также существуют трудности описания фонемных параметров речи из- за сложного процесса речеобразования. Большинство известных коммерческих продуктов с аппаратной реализацией являются дорогостоящими и узкоспециализированными. Для эффективного решения представленных проблем необходим широкий спектр методов и алгоритмов, различающихся по объёму вычислений, качеству получаемых результатов, количеству используемых ресурсов, способам представления данных. Перспективным вариантом развития анализа естественной речи являются системы с фонемным анализом звуков и их последующей интерпретацией. Следует учесть, что в настоящий момент на мировом рынке получили широкое распространение программируемые логические интегральные схемы (ПЛИС), потенциально подходящие для реализации подобных систем. Вышеизложенные обстоятельства позволяют отметить актуальность научно-технического решения, которое заключается в разработке специализированного вычислительного устройства, ориентированного на увеличение эффективности классификации речи на аппаратном уровне. В диссертации рассматриваются теоретические и практические аспекты разработки специализированного вычислительного устройства фонемной классификации речевых сигналов. Диссертационная работа выполнена в соответствии с НИР по заказу №325 (отчет №140/НИР/1 от 16.01.2013) Федерального государственного унитарного предприятия «Ростовский-на-Дону научно-исследовательский институт радиосвязи»; приоритетным направлением развития науки, технологий и техники РФ «Информационно-телекоммуникационные системы» (утверждено указом Президента РФ №899 от 7 июля 2011 г.); научным направлением ЮРГТУ (НПИ) «Теория, принципы и технологии построения информационно-вычислительных и измерительных систем» (утверждено решением ученого совета университета от 20.09.11 г.).
Объект исследования. Элементы и устройства цифровой обработки сигналов, методы и алгоритмы классификации непрерывной речи, методы параллельных вычислений.
Целью диссертационной работы является повышение эффективности существующих методов и алгоритмов для классификации речевых сигналов и их реализация в виде специализированного вычислительного устройства фонемного анализа речи в реальном времени.
Для достижения поставленной цели в работе решаются следующие задачи:
Анализ современных методов и устройств классификации речи;
Анализ фонемной модели речевого сигнала;
Разработка метода частотно-временного анализа речевого сигнала в реальном времени на аппаратном уровне;
Разработка инвариантного метода классификации речевого сигнала;
Экспериментальное исследование и практическая реализация предложенных методов и алгоритма в виде специализированного устройства на базе программируемых интегральных схем.
Основные положения, выносимые на защиту:
-
-
Алгоритм частотно-временного анализа речевого сигнала на основе материнской функции Хаара, повышающий эффективность вычисления вейвлет- коэффициентов.
-
Метод аппаратной реализации частотно-временного анализа на основе сигма- дельта модуляции речевого сигнала, позволяющий улучшить технические характеристики специализированного вычислительного устройства.
-
Метод фонемной классификации речевых сигналов на фонемные группы на основе бинарного дерева решений с последующим определением фонемы с использованием аппарата нечеткой логики, позволяющий выполнять инвариантную классификацию фонем.
-
Специализированное вычислительное устройство фонемной классификации речи на основе программируемых логических интегральных схем, позволяющее выполнять фонемную классификацию в режиме реального времени.
Научная новизна:
Предложен новый алгоритм вычисления вейвлет-коэффициентов на основе материнской функции Хаара, отличающийся от существующих тем, что использует целочисленные операции и рекурсивную форму вычислений, что позволяет повысить эффективность работы специализированного вычислительного устройства за счет существенного сокращения выполняемых арифметических операций;
Предложен метод аппаратной реализации частотно-временного анализа речи на основе сигма-дельта модуляции, отличающийся от существующих тем, что позволяет выполнять вейвлет-анализ на основе однобитового потока с предельной частотой вдвое меньшей частоты работы сигма-дельта модулятора;
Предложен метод фонемной классификации речи на основе бинарного дерева решений, который отличается от существующего тем, что использует инвариантную относительно оператора классификацию фонемы к одной из пяти фонемных групп и позволяет улучшить эксплуатационные характеристики устройства;
Предложен принцип аппаратной реализации специализированного вычислительного устройства фонемной классификации речи, который отличается использованием разработанных методов и позволяет повысить качественные и эксплуатационные показатели подобного рода устройств.
Практическая ценность:
-
-
Предложен алгоритм частотно-временного анализа на основе функции Хаара, который позволяет сократить время на вычисление вейвлет-коэффициентов в исследуемом окне более чем в 5 раз по сравнению с традиционным.
-
Предложен метод аппаратной реализации вейвлет-анализа с использованием сигма-дельта модуляции речевого сигнала, который позволяет вычислять вейвлет- коэффициенты в реальном времени и сократить объём используемых ресурсов в 4.8 раз по сравнению с традиционным (Патент РФ №121616).
-
Предложен метод фонемной классификации на основе усовершенствованного бинарного дерева, который позволяет улучшить эксплуатационные характеристики устройства за счет инвариантной фонемной классификации на отдельные группы, с последующим определением фонемы с использованием аппарата нечеткой логики. Точность фонемной классификации достигает 84 %.
-
Разработано специализированное вычислительное устройство фонемной классификации речи, которое за счет существенного сокращения используемых ресурсов, возможно реализовать на множестве широко распространенных кристаллов программируемых логических интегральных схем, что подчеркивает экономическую эффективность его реализации.
-
Разработано специализированное вычислительное устройство фонемной классификации, которое используется в качестве интерфейса фонемного анализа речи в реальном времени, а так же может являться элементом стандартного интерфейса ПК и использоваться для расширения его функциональных возможностей по предварительной обработке речевых сигналов, снижая нагрузку на центральный процессор и повышая эффективность работы программного обеспечения.
Методы исследования. При выполнении данной работы использовались методы цифровой обработки сигналов, теории алгоритмов и численных методов, общей фонетики, методы проектирования элементов и устройств, методы математического моделирования, объектно-ориентированного программирования. Проводились исследования на модельных и реальных сигналах.
Достоверность научных результатов и выводов подтверждается корректным применением метода частотно-временного анализа речевых сигналов; применением фундаментальной теории речеобразования; подтверждением теоретических положений результатами экспериментов; критическим обсуждением полученных результатов на Всероссийских и международных научных конференциях и внедрением разработанного устройства; основные положения работы хорошо согласуются с опубликованными материалами других авторов.
Апробация работы. Результаты работы обсуждались на: ежегодных конференциях профессорско-преподавательского состава, научных работников, аспирантов и студентов ЮРГТУ(НПИ) (Новочеркасск, 2010-2011 гг.); Всероссийской научной школе «Микроэлектронные информационно-управляющие системы и комплексы» (Новочеркасск, 2011 г.); Международной научно-практической конференции «Микропроцессорные, аналоговые и цифровые системы: проектирование и схемотехника, теория и вопросы применения» (Новочеркасск, 2011-2012 гг.); Всероссийском ежегодном конкурсе научно-исследовательских работ студентов, аспирантов и молодых ученых «ЭВРИКА» (Новочеркасск, 2011-2012 гг.); Международной научно-практической конференции «Информационные технологии. Радиоэлектроника. Телекоммуникации » (Тольятти, 2012 г.); Всероссийской научной конференции молодых ученых, аспирантов и студентов «ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА, РАДИОЭЛЕКТРОНИКА И СИСТЕМЫ» (Таганрог,2012 г.); Международной молодежной конференции «Академические фундаментальные исследования молодых ученых России и Германии в условиях глобального мира и новой культуры научных публикаций» (Новочеркасск, 2012 г.); Международной научно-практической конференции «МОДЕЛИРОВАНИЕ. ТЕОРИЯ, МЕТОДЫ И СРЕДСТВА» (Новочеркасск, 2013 г.).
Публикации. По теме диссертации опубликовано 25 печатных работ, в том числе: 5 статей в ведущих рецензируемых изданиях, рекомендованных ВАК РФ; 14
статей опубликованных по результатам научно-практических конференций; 5 свидетельств о государственной регистрации программы для ПЭВМ; 1 патент РФ на полезную модель.Внедрение. Результаты работы внедрены в ОАО «Мобильные ТелеСистемы» и в ФГУП «Ростовский-на-Дону научно-исследовательский институт радиосвязи» г. Ростов-на-Дону, а так же в учебном процессе при выполнении научных исследований и выпускных квалификационных работ студентов и магистров ЮжноРоссийского государственного технического университета.
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 108 наименований, содержит 11 таблиц, 47 рисунков, и 10 приложений на 29 листах. Общий объём диссертации составляет 159 страниц.
Похожие диссертации на Специализированное вычислительное устройство фонемной классификации речевых сигналов в реальном времени
-
-