Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд Гладышев, Константин Константинович

Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
<
Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гладышев, Константин Константинович. Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд : диссертация ... кандидата технических наук : 05.13.01 / Гладышев Константин Константинович; [Место защиты: С.-Петерб. гос. ун-т телекоммуникаций им. М.А. Бонч-Бруевича].- Санкт-Петербург, 2010.- 191 с.: ил. РГБ ОД, 61 11-5/505

Введение к работе

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, Л.Л. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли А.А. Пирогов, А.А. Ланнэ, Л. Рабинер, Р. Шафер, Д. Макхоул и др.

Современные разработки, как правило, основываются на бионической модели восприятия речи человеком. Такие системы являются иерархическими, детерминированными, с обучением и состоят из нескольких взаимосвязанных уровней. Выделяются акустическая (получение первичных признаков речевых сигналов) и лингвистическая (работа со словарями) составляющие.

Системы распознавания слитной речи строятся на базе вероятностных моделей грамматики языка. На словарях объемом до 5000 слов достоверность распознавания целых фраз составляет более 95%, что считается достаточным для обеспечения успешного речевого ввода текста на ПК.

Для задачи голосового управления различными устройствами необходимо распознавание отдельных речевых команд. Как правило, такой способ управления требует высокой надежности (99% точности распознавания). Зачастую команды произносятся в условиях повышенной зашумленности, например на производстве. Современные разработки в лабораторных условиях достигают 95% точности на словарях до 100 команд и требуют обучающие выборки больших объемов (10 и более вариантов произнесения каждого слова разными дикторами).

Таким образом, проблема построения эффективных алгоритмов распознавания речевых команд является актуальной.

Целью диссертационной работы является исследование линейных спектральных корней в качестве первичных признаков речевых сигналов, исследование методов работы со словарями эталонов в задаче распознавания речевых команд.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

  1. провести обзор моделей систем распознавания речи, проанализировать структуру их модулей, выявить основные недостатки;

  2. произвести обоснованный выбор метода формирования первичных признаков речевых сигналов;

  3. выбрать принцип построения и работы со словарями эталонов;

  4. уточнить математическую модель системы распознавания речевых команд;

  5. разработать программный комплекс для проведения исследований и тестирования модели распознавания;

  6. осуществить проверку предложенных алгоритмов распознавания речевых команд на тестовых выборках, произвести сравнение с существующими СРР.

Научная новизна заключается в результатах расчетно-экспериментальных исследований сигналов речевого командного управления, исследованиях первичных информативных признаков речевых сигналов, принципов построения словарей эталонов и алгоритмов распознавания речевых команд.

Методы исследования. Решение указанных задач осуществлено на основе общих методов системного анализа, теории цифровой обработки сигналов, программирования, методов математической статистики и теории вероятностей.

В качестве инструмента для исследований автором разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов.

Основные положения, выносимые на защиту:

  1. Результаты исследования первичных информативных признаков речевых сигналов, сформированных на основе семейства линейных спектральных корней.

  2. Алгоритмы расчета линейных спектральных корней для речевых сигналов и принцип работы со словарем эталонов при распознавании речевых команд.

  3. Обобщенная модель распознавания речевых команд с оценкой качества словаря эталонов и достоверности принятия решений.

  4. Результаты разработки и практической реализации программного комплекса для анализа и распознавания речевых сигналов.

Практическая ценность. Результаты работы могут быть использованы при построении командных систем голосового управления различными процессами и устройствами.

Результаты внедрения. Результаты научных исследований и практические разработки используются в ООО «ОДИТЕК», г. Санкт-Петербург. Теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались:

Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании» / ПГУ, Павлодар (Казахстан), 2006.

Научная сессия «IX Невские чтения» / НИЯК, СПб, 2007.

IV Всероссийская межвузовская конференция молодых ученых / ИТМО, СПб, 2009.

По теме диссертационной работы опубликовано 8 печатных работ (в том числе одно свидетельство об официальной регистрации программы для ЭВМ), из них 3 работы опубликованы в рецензируемых научных изданиях, входящих в перечень изданий, рекомендуемых ВАК.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 191 страницах текста, включающих в себя 18 страниц приложений, 70 рисунков, 10 таблиц. Количество библиографических ссылок – 81.

Похожие диссертации на Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд