Содержание к диссертации
Введение
ГЛАВА 1. Аналитический обзор алгоритмов обработки речевых команд и систем голосового управления
1.1 Анализ предметной области
1.1.1 Особенности речевого сигнала, его параметры и характеристики
1.1.2 Обзор современного состояния систем голосового управления
1.2 Особенности обработки речевых команд в подсистемах голосового управления информационно-измерительных и управляющих систем
1.3 Классификация и анализ методов обработки речевых команд в
подсистемах голосового управления информационно измерительных и управляющих систем
1.4 Постановка задачи исследования
ГЛАВА 2. Разработка алгоритмов и узлов обработки речевых команд подсистемы голосового управления информационно-измерительных и управляющих систем 9 10
2.1 Технологический процесс обработки речевых команд подсистемы голосового управления на
2.2 Комплементарная множественная декомпозиция эмпирические моды в обработке речевых команд 50
2.3 Разработка алгоритмов и узлов обработки речевых команд с комплементарной множественной декомпозицией на эмпирические моды
2.3.1 Алгоритм и узел фильтрации нестационарных фоновых шумов на основе анализа энергетических и шумовых характеристик эмпирических мод
2.3.2 Алгоритм и узел сегментации сигнал/пауза на основе анализа логарифма энергетических характеристик эмпирических мод
2.3.3 Алгоритм и узел измерения частоты основного тона на основе анализа частотно-временных характеристик эмпирических мод
2.3.4 Алгоритм и узел определения и распознавания мел-частотных кепстральных коэффициентов
2.4 Выводы по главе
ГЛАВА 3. Исследование узлов обработки речевых команд подсистемы голосового управления информационно-измерительных и управляющих систем
3.1 Разработка верифицированной базы данных речевых сигналов .
3.2 Методика и средства проведения исследования
3.3 Критерии оценки эффективности и исследование узлов обработки речевых команд 144 152
3.3.1 Исследование узла фильтрации и анализ выходного значения отношения сигнал/шум SNRom(dE) 118
3.3.2 Исследование узла сегментации сигнал/пауза и анализ коэффициентов действительных DRspeeck(%) и мнимых обнаружений MDspeech (%) сигнала 125
3.3.3 Исследование узла измерения частоты основного тона и анализ значений коэффициентов грубых GPE(%) и средних
3.3.4 Исследование узла определения и распознавания мел-частотных кепстральных коэффициентов и анализ точности распознавания Т(%) и оценки расхождения
3.4 Выводы по главе
ГЛАВА 4. Практическая реализация подсистемы голосового управления информационно измерительных и управляющих систем 154
4.1 Подсистема голосового управления в составе информационно-измерительных и управляющих систем 154
4.2 Методика обработки речевых команд подсистемы голосового управления информационно-измерительных и управляющих систем. 159
4.3 Реализация виртуальной подсистемы голосового управления информационно-измерительных и управляющих систем в среде
4.4 Аппаратная реализация подсистемы голосового управления информационно-измерительных и управляющих систем 168
4.5 Программная реализация подсистемы голосового управления информационно-измерительной и управляющей системы 180
4.6 Выводы по главе 4 183
Основные результаты и выводы 184
Список использованных источников
- Особенности обработки речевых команд в подсистемах голосового управления информационно-измерительных и управляющих систем
- Комплементарная множественная декомпозиция эмпирические моды в обработке речевых команд
- Исследование узла фильтрации и анализ выходного значения отношения сигнал/шум SNRom(dE)
- Программная реализация подсистемы голосового управления информационно-измерительной и управляющей системы
Введение к работе
Актуальность темы. Применение голосового управления в качестве интерфейса взаимодействия получило широкую популярность в информационно-измерительных и управляющих системах (ИИУС). Голосовое управление основано на технологии распознавания речи, представляющей собой обработку речевых сигналов с целью фильтрации и подавления шума, сегментации на информативные участки, определения информативных параметров, отражающих уникальные свойства речи. Корректное распознавание речи – одна из самых интересных и сложных задач голосового управления.
Значительную роль в создание и развитие технологии распознавания речи внесли российские и зарубежные ученые: Б. М. Лобанов, Т. К. Винцюк, А. В. Фролов, Г. В. Фролов, М. А. Сапожников, В. Г. Михайлов, Л. В. Зла-тоусова, Л. Р. Рабинер, Р. В. Шафер, У. А. Ли, Д. Х. Клетт, Xuedong D. Huang, Hsiao-Wuen Hon, Alex Acero и др. Их научные труды позволили решить множество фундаментальных и прикладных задач в области обработки речевых сигналов. Однако это не стало причиной снижения интереса к проблеме повышения эффективности обработки речевых сигналов, и работа в данной области в настоящее время ведется очень активно.
На сегодняшний день существует достаточное количество систем голосового управления (СГУ). 97 % этих систем представляют собой программные продукты для управления компьютеризированной техникой, и 3 % - это устройства голосового управления. Среди производителей следует отметить зарубежные компании Google, Apple, Microsoft, Nuance, Linguatec, IBM и российские Insyte, Home Sapiens, Центр речевых технологий.
Наибольший интерес в СГУ представляют алгоритмы и узлы обработки речевых сигналов. Из-за низкой эффективности традиционных методов обработки речевых сигналов использование существующих алгоритмов и узлов в специализированных условиях становится непродуктивным, что существенно ограничивает применение голосового управления в специализированных ИИУС.
По этой причине актуальным представляется усовершенствование существующих и разработка новых алгоритмов и узлов с применением методов обработки речевых сигналов, обеспечивающих повышение эффективности голосового управления.
Объектом исследования являются системы и подсистемы голосового управления ИИУС специального назначения.
Предметом исследования являются алгоритмы построения и структуры узлов фильтрации и сегментации, выделения информативных параметров и анализа метрологических характеристик СГУ.
Целью диссертационного исследования является совершенствование существующих и разработка новых алгоритмов и узлов обработки нелинейных и нестационарных речевых сигналов на основе метода комплемен-3
тарной множественной декомпозиции на эмпирические моды (КМДЭМ), обеспечивающих повышение эффективности подсистем голосового управления ИИУС.
Задачи исследования:
-
Классификация и сравнительный анализ основных технических характеристик существующих СГУ с целью определения путей их совершенствования.
-
Классификация и сравнительный анализ методов адаптивной обработки нелинейных и нестационарных речевых сигналов, основанных на декомпозиции на эмпирические моды (ДЭМ), создание верифицированной базы данных речевых сигналов.
-
Разработка алгоритма и узла фильтрации нестационарных фоновых шумов с использованием метода КМДЭМ на основе анализа шумовых и энергетических характеристик эмпирических мод (ЭМ).
-
Разработка алгоритма и узла сегментации сигнал/пауза с использованием метода КМДЭМ на основе анализа логарифма энергетических характеристик ЭМ.
-
Разработка алгоритма и узла измерения частоты основного тона (ЧОТ) с использованием метода КМДЭМ на основе анализа логарифма энергетических характеристик и частотно-временного анализа ЭМ.
-
Разработка алгоритма и узла определения и распознавания мел-частотных кепстральных коэффициентов (МЧКК) с использованием метода КМДЭМ на основе анализа информационных и кепстральных характеристик ЭМ.
-
Реализация, исследование и внедрение подсистемы голосового управления ИИУС на основе разработанных алгоритмов и узлов.
Методы исследования. В работе использовались методы обработки речевых сигналов КМДЭМ, спектрального и статистического анализа, математического моделирования и теории распознавания образов. Для проведения исследований применялось программирование в средах MATLAB, LabVIEW, QT и C#.
Научная новизна работы:
-
Усовершенствованы алгоритм и узел фильтрации нестационарных фоновых шумов, основанные на методе КМДЭМ и анализе шумовых и энергетических характеристик ЭМ, определении моды, содержащей основной шум, с последующим компонентным анализом.
-
Разработаны оригинальные алгоритм и узел сегментации сигнал/пауза, основанные на методе КМДЭМ и анализе логарифма энергетических характеристик ЭМ и пороговой обработке кратковременных фрагментов с определением границ сигнала и пауз с учетом физиологического аспекта формирования речи.
-
Усовершенствованы алгоритм и узел измерения ЧОТ, основанные на методе КМДЭМ и анализе логарифма энергетических характеристик ЭМ
с определением и частотно-временным анализом моды, содержащей основной тон (ОТ), и использованием функции оператора Тигра для измерения частоты.
-
Разработаны оригинальные, обладающие повышенной точностью алгоритм и узел определения и распознавания МЧКК, основанные на методе КМДЭМ и анализе информационных кепстральных характеристик ЭМ.
-
Предложена и реализована методика обработки речевых команд подсистемы голосового управления ИИУС в виде оптимизированной последовательности фильтрации нестационарных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.
-
Программно и структурно реализована подсистема голосового управления ИИУС на языках объектно-ориентированного программирования QT и C# для голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.
Практическую значимость работы представляют:
-
Методика и узлы обработки речевых команд подсистем голосового управления ИИУС, позволяющие улучшить характеристики фильтрации нестационарные фоновых шумов, сегментации границ сигнала и паузы, измерения ЧОТ, определения и распознавания МЧКК.
-
Верифицированная база данных речевых сигналов.
-
Аппаратная реализация подсистемы голосового управления ИИУС на миникомпьютере Raspberry Pi Model B.
-
Структурная и электрическая схема соединений узлов аппаратно-программной реализации подсистемы голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.
На защиту выносятся:
-
Классификация и результаты сравнительного анализа существующих СГУ и применяемых в них методов обработки речевых команд. Результаты анализа методов ДЭМ, их преимуществ и недостатков, пути их преодоления применительно к задачам обработки речевых команд в СГУ.
-
Технологический процесс обработки речевых команд подсистемы голосового управления ИИУС.
-
Основанные на методе КМДЭМ методика, алгоритмы и узлы обработки речевых команд, выполняющие задачи фильтрации нестационарных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.
-
Методика оценки эффективности алгоритмов построения и узлов обработки речевых команд, позволяющая провести объективный анализ результатов.
-
Результаты исследований в средах программирования Matlab, LabVIEW, подтверждающие эффективность разработанных алгоритмов и узлов обработки в сравнении с известными методами и системами.
-
Аппаратно-программная реализация методики обработки речевых команд в подсистеме голосового управления ИИУС домашней автоматизации по беспроводному протоколу передачи данных Z-Wave.
Реализация и внедрение результатов исследования. Результаты теоретических и экспериментальных исследований использовались при выполнении работы по грантам:
«Разработка и организация производства системы голосового управления "Умным домом"» - грант правительства Пензенской области по программе «Развитие инновационной деятельности в Пензенской области» по соглашению № 380 о предоставлении из бюджета Пензенской области субсидии малого (среднего) предпринимательства на создание собственного бизнеса в сфере инноваций от 20 января 2012 г.;
«Исследование методов, способов и средств эффективной обработки речевых сигналов при патологических отклонениях в работе системы органов дыхания и разработка программного модуля контроля и прогнозирования заболеваний органов дыхания по речи говорящего для терминала здоровья «Health Point» - грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере» по договору № 20963 от 1 апреля 2013 г. о предоставлении гранта на проведение научно-исследовательских работ;
«Разработка и исследование системы управления средствами технического назначения для людей с ограниченными возможностями» -грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере» по договору № 01/17249 от 5 апреля 2013 г о предоставлении гранта на проведение научно-исследовательских работ;
«Устройство голосового управления системой домашней автоматизации для людей с ограниченными возможностями» - грант Федерального агентства по делам молодежи в рамках всероссийского конкурса молодежных проектов 2013 г. в номинации «Инновации» (приказ № 2359-р от 16 декабря 2013 г. Министерства образования и науки РФ);
«Система "Умный дом" для людей с ограниченными возможностями» - грант Федерального агентства по делам молодежи в рамках всероссийского конкурса молодежных проектов 2014 г. в номинации «Инновации и научно-техническое творчество» (приказ № 2262-р от 14 ноября 2014 г. Министерства образования и науки РФ);
«Исследование методов, алгоритмов и средств эффективной обработки речевых сигналов и разработка программного обеспечения голосового управления системой домашней автоматизации Z-Wave» - грант Федерального государственного бюджетного учреждения «Фонд содействия развитию малых форм предприятий в научно-технической сфере» по дого-
вору (соглашению) № 0006792 ГС1/6792 от 23 января 2015 г. о предоставлении гранта на проведение научно-исследовательских и опытно-конструкторских работ.
Результаты исследования используются в подсистемах обработки речевых команд систем голосового управления (проходят испытания в ООО МИП «Центр коммерциализации речевых технологий», г. Пенза). Документы о внедрении представлены в приложении В.
Результаты теоретических и экспериментальных исследований внедрены в учебный процесс кафедры «Информационно-измерительная техника и метрология» ФГБОУ ВПО «Пензенский государственный университет» для подготовки бакалавров по направлениям 12.03.01 – «Приборостроение»: профиль подготовки 1 «Информационно-измерительная техника и технологии»; профиль подготовки 2 «Приборы и оборудование для нефтегазового комплекса».
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на всероссийских и международных конференциях, на инновационных и инвестиционных форумах: МНПК студентов и молодых ученых «Модели, системы, сети в экономике, технике, природе и обществе» (Пенза, 2012–2015); НТК с международным участием «Перспективные информационные технологии в научных исследованиях, проектировании и обучении ПИТ» (Самара, 2013, 2015); МНТК «Проблемы автоматизации и управления в технических системах» (Пенза, 2013–2015); Всероссийская НТК «Информационные технологии в науке и производстве», (Самара, 2013); региональный молодежный форум «Открытые инновации – вклад молодежи в развитие региона» (Пенза, 2013); МНПК «Инженерные и научные приложения на базе технологий NI NIDays - 2014» (Москва, 2014); МНПК «Современные научные исследования: инновации и опыт» (Екатеринбург, 2014); Международная молодежная научная конференция «Молодежь и XXI век - 2015»; (Курск, 2015), International Siberian Conference on Control and Communications (SIBCON-2015) (Omsk, 2015).
Публикации. По материалам диссертационной работы опубликовано 47 печатных работ, в том числе 6 статей в ведущих журналах перечня ВАК РФ и 6 статей в зарубежных изданиях, индексируемых в базах Scopus и Web of Science. Исследования и разработки отражены в 7 отчетах по НИОКР, получены 2 свидетельства о государственной регистрации программ для ЭВМ и 1 свидетельство о государственной регистрации базы данных.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, выводов, списка использованной литературы из 241 наименования и 3 приложений. Диссертация изложена на 222 страницах машинописного текста и содержит 98 рисунков, 36 таблиц.
Особенности обработки речевых команд в подсистемах голосового управления информационно-измерительных и управляющих систем
Данный этап не является обязательным, и во многих подсистемах голосового управления коррекция не предусмотрена. При этом на этапе анализа учитываются искажения спектра звука, свойственные речевому аппарату человека.
Фильтрация позволяет повысить разборчивость и уменьшить долю шумов, вызванных как акустическими, так и технологическими причинами. Шум - беспорядочные колебания различной физической природы, отличающиеся сложностью временной и спектральной структуры [40, 41]. Применительно к речевым сигналам - шум это совокупность апериодических звуков различной интенсивности и частоты, которые изменяют информативные признаки сигнала.
По взаимодействию с полезным речевым сигналом шумы делятся на аддитивные и мультипликативные [25, 26]. Аддитивные шумы складываются с полезным сигналом и вносят незначительную погрешность. Мультипликативные шум перемножаются с полезным сигналом, вносят наибольшую погрешность и могут изменять информативные параметры речевых команд.
В общем виде, комбинация сигнала и шума, выглядит следующим образом: S(t) = [(ks (t) + кп (/)] e(t) + n(t) (1.5), где S(t) - речевой сигнал, e(t) - полезный речевой сигнал; ks(t) коэффициент, характеризующий полезный речевой сигнал; kn{i) коэффициент, характеризующий мультипликативный шум; n{t) аддитивный шум. Отношение интенсивности сигнала и шума [42, 43] называется отношение сигнал/шум и играет важную роль в задаче фильтрации и шумоподавления. Отношение сигнал/шум выражается в логарифмических безразмерных единицах [44] - децибелах (dB, дБ): N = \0\gls/ 1п (1-6), где Is, 1„ - интенсивности сигнала и шума соответственно. На основании анализа достижений в области фильтрации и шумоподавления речевых сигналов автором предложена [18, 19, 21] классификация шумов, оказывающих влияние на разборчивость речевых сигналов. По происхождению шумы в речевых командах можно разделить на физиологические и антропогенные. К первому виду шумов относятся зо комплекс звуков различной интенсивности и частоты, находящихся в беспорядочном сочетании с полезными речевыми сигналами.
Происхождение физиологических шумов непосредственно связано с нарушениями речи (нарушение работы отдельных или комплекса органов артикуляционного отдела речевого аппарата). Наука, изучающая нарушения речи, их преодоление и предупреждение средствами коррекционного обучения называется логопедией. К физиологическим шумам, связанным с нарушением речи относят большое количество звуков, форма и структура которых напрямую связана с родом нарушения звукопроизношения [45]: - нарушения темпа и ритма речевых сигналов (брадилалия, тахилалия, спотыкание, заикание); - нарушения голоса (афонии, дисфонии, ринофония); - распад речевых сигналов (афазия). К антропогенным шумам в грубой интерпретации относятся все остальные виды шумов, кроме физиологических. Это шумы, создаваемые человеком и возникшие в результате его деятельности. Их также называют промышленными или производственными шумами [40, 41]. Источниками антропогенных шумов являются транспортные средства - автомобили, железнодорожные поезда и самолёты, промышленные предприятия, строительные и ремонтные работы, бытовая и офисная техника и т. д.
По постоянству параметров все шумы подразделяются на стационарные и нестационарные. Стационарный шум - шум, который характеризуется постоянством средних параметров: интенсивности (мощности), распределения интенсивности по спектру (спектральная плотность), автокорреляционной функции. Классической моделью стационарного шума является белый шум, спектральные составляющие которого равномерно распределены по всему диапазону задействованных частот [40]. Нестационарный шум длится короткие промежутки времени (меньшие, чем время усреднения) [46]. Нестационарные шумы по длительности делятся на импульсные, прерывистые и колеблющиеся. Импульсный шум - шум, состоящий из одного или нескольких звуковых сигналов, длительностью менее 1 секунды, уровни которых, отличаются не менее чем на 7 дБ. Прерывистый шум - шум, уровень которого ступенчато изменяется (примерно на 5 дБ и более), причем длительность интервалов, в течение которых уровень остается постоянным, составляет 1 секунда и более.
К нестационарным шумам в речевых командах относятся, например, уличный шум проходящего транспорта, отдельные стуки в производственных условиях, редкие импульсные помехи в радиотехнике и т. п.
По ширине спектра шума выделяют широкополосный и узкополосный шум. Широкополосный шум - шум с непрерывным спектром шириной полосы частот более 1 октавы, включающий в себя набор многих звуковых частот. Узкополосный (тональный) шум - шум, в котором прослушивается звук определенной частоты [40, 41, 46].
По частотному диапазону шумы подразделяются на: низкочастотный шум ( 400 Гц), среднечастотный шум (400 - 1000 Гц), высокочастотный ( 1000 Гц) [43, 46].
Сегментация в обработке речевых команд - линейное деление речевого потока на составляющие отрезки, называемые фрагментами [18, 19, 37]. Речевые сигналы являются нестационарными сигналами сложной формы, параметры и характеристики которых, как правило, быстро меняются в течение времени. Однако в основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени изменяются медленно. Это предположение приводит к методам кратковременного анализа, в которых фрагменты речевого сигнала выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Для того чтобы получить наборы информативных параметров одинаковой длины, нужно сегментировать речевой сигнал на равные фрагменты, считая, что сигнал на таком отрезке примерно стационарен (см. рисунок 1.6). Перекрытие фрагментов используется для предотвращения потери информации о сигнале на границе. Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать набор информативных параметров, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, с целью повышения скорости обработки [47].
Комплементарная множественная декомпозиция эмпирические моды в обработке речевых команд
Значение Mdt(ri) позволяет определить является ли отсчет шумовым по условию Mdi(n) 3. Значение равное 3 получено эмпирически [125].
После определения статуса каждого отсчета, необходимо определить статус каждого фрагмента. Для этого используется простое правило - если во фрагменте 70% отсчетов имеют статус шума, то такой фрагмент является шумовым. Это правило основано на физиологическом аспекте формирования речи - речевой аппарат не может быстро перестраиваться и чередовать речь и паузу в течение времени половины фрагмента (10 мс). После определения статуса фрагментов определяется весовой шумовой коэффициент ЭМ: s-sns ns,i (2.23), s где S - общее количество фрагментов ЭМ, Sm - количество шумовых фрагментов ЭМ.
Если коэффициент ansi приближается к минимальному значению, то соответствующая ЭМ считается модой с основным шумом. И, наоборот, если коэффициент аш. приближается к единице, то соответствующая ЭМ считается модой, содержащей полезный сигнал.
Блоки 11, 12, 13. После определения весовых коэффициентов ЭМ осуществляется сравнение с пороговыми значениями ansi ans, aei ае(блок 11). В случае если условие выполняется, то устанавливаются новые значения пороговых коэффициентов равные текущим значениям аш = аш., ае = aei (блок 12) и анализируемая ЭМ определяется как мода с основным шумом IMFi = IMFns (блок 13).
Блоки 14, 15. После завершения анализа ЭМ осуществляется сравнение номера моды с их общим количеством (/==/) (блок 14). В случае если условие не выполняется, то устанавливается следующий по счету номер ЭМ (/ = / + 1) (блок 15) и осуществляется переход к блоку 6 для анализа следующей ЭМ. Если условие выполняется, то осуществляется переход к блоку 16.
Блок 16. После анализа всех ЭМ и определения моды с основным шумом осуществляется непосредственная фильтрация с помощью метода адаптивной компенсации шума. ЭМ с основным шумом и зашумленный речевой сигнал обрабатываются с помощью метода независимого компонентного анализа (НКА, Independent component analysis, ICA) [126], в результате чего выделяются составляющие отфильтрованного речевого сигнала и шума. НКА это метод обработки статистических данных, позволяющий выделить независимые компоненты, обладающие статистической независимостью и негауссовым распределением [127]. НКА описывается следующим математическим аппаратом. Имеется набор наблюдаемых векторов - матрица X (в нашем случае это вектор зашумленного речевого сигнала и ЭМ с основным шумом), которые являются линейными комбинациями независимых компонент - матрица Y (в нашем случае это чистый речевой сигнал и фоновый шум). Модель независимых компонент может быть записана следующим образом: X-W-Y (2.24), где W - матрица весов для перехода из пространства Y в пространство X . Цель метода независимых компонент состоит в определении матрицы W1 , с помощью которой можно будет определить матрицу независимых компонент Y по формуле: Y=W1-X (2.25). Практическое применение НКА в задачах фильтрации речевых сигналов подробно описано в работах [128-130].
Алгоритм и узел сегментации сигнал/пауза на основе анализа логарифма энергетических характеристик эмпирических мод Сегментация речевых сигналов на информативные участки и паузы является одной из важных задач при обработке голосовых команд в подсистеме голосового управления. Точное обнаружение границ речевого сигнала не только повышает качество распознавания, но и уменьшает количество вычислительных и расчетных операций.
Проведенный обзор литературы выявил, что в настоящее время существует много различных подходов к сегментации сигнал/пауза, которые успешно решают проблему эффективного обнаружения границ речевого сигнала. Среди наиболее известных методов можно выделить следующие: - методы, основанные на использовании значений кратковременной энергии {Shortime Energy, STE) и количества переходов сигнала через нуль в короткие промежутки времени (Shortime Zero-crossing Rate, ZCR) [131, 132]; - методы, основанные на использовании значений информационной энтропии (Information Entropy, IE) [133-135]; - методы, основанные на использовании МЧКК (Mel-frequency cep strum coefficients, MFCC) [136, 137]; - методы, основанные на статических моделях: СММ (Hidden Markov Model, HMM), моделях нейронных сетей (МНС, Neural Network model, NMM), моделях гауссовой смеси (Gaussian mixture model, GMM) [138, 139]; расстоянии Малаханобиса [125]; - методы, основанные наВП (Wavelet Transform, WT) [140, 141]. Наиболее известными и получившими широкое практическое применение являются: алгоритм на основе совместного использования STE и ZCR [131] и алгоритм с использованием статистических свойств фонового шума и одномерного расстояния Махаланобиса [125].
В первом случае алгоритм основывается на правиле разграничения: если значения энергии и количество переходов сигнала через нуль кратковременного участка резко отличаются от пороговых значений, то этот участок является тишиной или фоновым шумом. И, наоборот, если значения соизмеримы или в меньшей степени отличны от порога, то такой участок считается полезным сигналов. Однако это правило не всегда работает -неизвестно, какими должны быть пороговые значения для корректной сегментации в каждом конкретном речевом сигнале.
Во втором случае алгоритм основывается на статистических свойствах фонового шума. Сегментация сигнал/пауза в речевом сигнале осуществляется с использованием одномерного расстояния Махаланобиса для каждого отсчета сигнала [142]. Предполагается, что присутствующий в речевом сигнале фоновый шум имеет гауссовский характер, а остальные присутствующие шумы имеют другое распределение. В этом случае соответствующие свойства функций распределения присутствующих в сигнале шумов являются критериями и используются для сегментации сигнал/пауза.
Исследование узла фильтрации и анализ выходного значения отношения сигнал/шум SNRom(dE)
Процесс выделения полезной информации включает в себя: - адаптивное разложение речевой команды на ЭМ с помощью метода КМДЭМ; - формирование набора информативных сигналов, представляющих собой разности исходного сигнала речевой команды и неинформативных ЭМ. Другими словами информативные сигналы, состоят только из мод, содержащих информацию об уникальных свойствах речи.
После определяются МЧКК набора информативных сигналов, формируется база шаблонов и осуществляется непосредственное распознавание. Рассмотрим подробнее основные этапы работы предложенного алгоритма.
Блок 2. В представленном алгоритме ввод речевого сигнала без пауз х(п) (п - дискретный отсчет времени 0 п N, N - количество дискретных отсчетов в сигнале) осуществляется со следующими параметрами: длительность записи - не более 30 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит.
Блоки 3, 4. Комплементарная множественная декомпозиция на ЭМ фрагмента осуществляется аналогичным образом и соответствии с ранее представленным алгоритмом (см. рисунок 2.9, блоки 3, 4, формулы 2.12, 2.13). Устанавливается номер моды фрагмента и дальнейшая работа осуществляется с каждой ЭМ в отдельности. Коэффициенты а, Ъ устанавливаются равными единице и в последующем определяют, какие ЭМ будут использоваться в формировании набора информативных сигналов.
Блок 5. Для формирования набора информативных сигналов необходимо провести классификацию информативности всех извлеченных из сигнала ЭМ. При условии, что речевой сигнал имеет конечную энергию, число ЭМ при разложении всегда является конечным. Для абсолютно произвольного сигнала все ЭМ можно разбить на две категории [95, 179]: - информативные ЭМ с шумовыми и сигнальными ЭМ; - неинформативные ЭМ с трендовыми и компенсирующими ЭМ. Информативные ЭМ в разложении всегда отражают внутреннюю структуру и особенности сигнала. К их числу относятся шумовые и сигнальные ЭМ. Появление в разложении первых объясняется наличием в исходном сигнале остаточного шума, а вторые связаны непосредственно с полезным сигналом и входящими в него компонентами.
Неинформативные ЭМ являются медленно меняющимися функциями. Среди них выделяют трендовые ЭМ и описывающие истинную динамику среднего значения сигнала и компенсирующие ЭМ возникающие при разложении. Трендовые ЭМ появляются, например, при разложении суммы гармонического сигнала и полиномиального тренда. Компенсирующие (ложные) ЭМ - результат несовершенства самого алгоритма декомпозиции (критериев остановки процесса отсеивания, неточностей при вычислениях, ошибок округления). Их появление не связано с какими-либо физическими или математическими особенностями рассматриваемых сигналов, а объясняется только лишь несовершенством вычислительной процедуры. Компенсирующие ЭМ обычно создают избыточность в разложении [96], а их название объясняется тем, что в сумме они дают функцию очень близкую к нулю и по сути компенсируют друг друга.
Формирование набора информативных сигналов заключается в вычитании из исходного сигнала речевой команды: информативных шумовых и неинформативных мод. Информативными шумовыми обычно являются первые две или три ЭМ, в зависимости от интенсивности присутствующего в сигнале шума [96]. Неинформативными являются последние три или четыре ЭМ, в зависимости от общего количества мод (число ЭМ примерно равно двоичному логарифму от числа отсчетов в сигнале) [97]. Формирование набора информативных сигналов осуществляется по формуле: xabi(n) = x(n)-(a yJMFi1(n) + b }JMF1_i(n) г=0 г=0 (2.35), где хаЬі(п) - информативный сигнал, х(п) - исходный сигнал речевой команды, і - номер ЭМ, / - количество ЭМ, а, Ъ - коэффициенты, определяющие участие ЭМ в формировании набора информативных сигналов сигнала. На рисунке 2.25 представлена графическая интерпретация примера формирования набора информативных сигналов. Исходный речевой сигнал разлагается на десять ЭМ. Поочередно и совместно вычитая информативные шумовые и неинформативные ЭМ соответственно, сформирован набор, состоящий из восьми информативных сигналов.
Программная реализация подсистемы голосового управления информационно-измерительной и управляющей системы
В данном разделе представлена аппаратная реализация подсистемы голосового управления ИИУС домашней автоматизации. На рисунке 4.15 представлена разработанная автором структурная схема подсистемы в составе ИИУС домашней автоматизации, которая состоит из следующих модулей: обработки, визуализации, регистрации, питания, аудио и Z-Wave [176, 230].
Регистрация сигналов речевых команд функционально реализована посредством модуля регистрации, состоящего из микрофонов и аналогового усилителя. Первый микрофон (МК 1) предназначен для регистрации команд, второй (МК 2) для шумоподавления.
Разработанные алгоритмы и узлы в виде методики обработки речевых команд реализованы программно и аппаратно интегрированы в микроконтроллер Broadcom ВСМ2836, который также выполняет вычислительные операции, операции управления и контроля режимами работы подсистемы голосового управления. Микроконтроллер совместно с дополнительным периферийным оборудованием функционально реализован в виде модуля обработки.
Периферийное оборудование модуля в соответствии с функционалом, обеспечивает нормальную работоспособность подсистемах голосового управления.
Режимы работы подсистемы голосового управления предусматривают предварительную настройку и обучение. Предварительная настройка осуществляется с использованием сенсорного TFTисплея для ввода и отображения информации о настройках, реализованного в виде модуля визуализации.
Контроль режимов работы системы реализуется модулем аудио, осуществляющим звуковую индикацию режимов работы (динамическая головка).
Для обеспечения устройства необходимым напряжением питания используется модуль питания TML05105. Модуль питания выполняет функции преобразования напряжения для обеспечения бесперебойности работы подсистемы голосового управления.
Модуль обработки является основным компонентом подсистемы голосового управления. При выборе модуля обработки необходимо исходить из его функциональных возможностей и внутренней архитектуры. Выбор зависит от наличия или отсутствия системы обеспечения разработки (программной среды разработки и соответствующего оборудования), интерфейсов подключения периферийного оборудования и плат расширения для взаимодействия с устройствами, работающими по протоколу Z-Wave, размеров и цены. На сегодняшний день существует множество многофункциональных отладочных платформ, используемых для разработки цифровых приложений на микроконтроллерах, среди которых можно выделить три наиболее популярных: Arduino Uno R3 [231, 232], Beagle Bone-Black [233, 234] и Raspberry Pi [235, 236].
Arduino Uno R3 это отладочная платформа на основе микроконтроллера ATmega 328. В ее состав входит все необходимое для удобной работы с микроконтроллером: 14 цифровых входов/выходов (из них 6 могут использоваться в качестве выходов с широтно-импульсной модуляцией), 6 аналоговых входов, кварцевый резонатор на 16 МГц, разъем USB, разъем питания, разъем для внутрисхемного программирования ICSP и кнопка сброса. Для начала работы с устройством достаточно просто подать питание от AC/DC конвертора или батарейки, либо подключить его к компьютеру посредством USB-кабеля.
Beagle Bone-Black это отладочная платформа на микроконтроллере AM3359 с архитектурой ARM Cortex-A8 от Texas Instruments с тактовой частотой 1 ГГц, предназначенная для разработчиков и созданная для изучения операционной системы Linux. В ее состав входит оперативная память 512 МБ DDR3L, 2 ГБ eMMC памяти и слот microSD карты. Для подключения внешних устройств имеются интерфейсы Ethernet, USB, HDMI (с аудио-выходом) и разъемы расширения. Платформа работает под управлением операционной системы Linux Angstrom, образ которой уже предустановлен во встроенную eMMC Flash память. Кроме того, плата поддерживает операционные системы Ubuntu, Android я Fedora.
Raspberry Pi Model B это отладочная платформа, представляющая собой одноплатный миниатюрный дешёвый компьютер, основанный на микроонтроллере Broadcom BCM2836 с архитектурой ARM 11 с тактовой частотой частотой 0,7 ГГц (с возможностью разгона процессора до 1 ГГц). В ее состав входит 512 Мб SDRAM оперативной памяти, система ввода-вывода общего назначения - порт GPIO, пригодный для управления внешними устройствами, слот для карты памяти SD/MMC/SDIO, два порта USB, Ethernet 10/100 Мбит. Поддерживаемые операционные системы: Raspbian (Debian, скомпилированный под архитектуру ARM), веб-браузер Midori, предустановленный интерпретатор Python.
Все три модели отладочных платформ находятся доступном ценовом диапазоне, выполнены в компактном форм-факторе и могут использоваться для создания различных цифровых устройств. В таблице 4.2 представлены сравнительные характеристики трех платформ.
Как видно из таблицы 4.2 для аппаратной реализации подсистемы голосового управления оптимальным вариантом является отладочная платформа Raspberry Pi Model B. Внешний вид представлен на рисунке 4.16 Raspberry Pi Model B.
На сегодняшний день одноплатный миниатюрный компьютер Raspberry Pi Model B является одним из самых популярных во всем мире, открывающий перед разработчиками, инженерами и программистами уникальные возможности для реализации научно-технических проектов.