Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка методики использования широких фонетических категорий в задачах верификации диктора Милошенко, Алексей Анатольевич

Разработка методики использования широких фонетических категорий в задачах верификации диктора
<
Разработка методики использования широких фонетических категорий в задачах верификации диктора Разработка методики использования широких фонетических категорий в задачах верификации диктора Разработка методики использования широких фонетических категорий в задачах верификации диктора Разработка методики использования широких фонетических категорий в задачах верификации диктора Разработка методики использования широких фонетических категорий в задачах верификации диктора
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Милошенко, Алексей Анатольевич. Разработка методики использования широких фонетических категорий в задачах верификации диктора : диссертация ... кандидата технических наук : 05.13.17 / Милошенко Алексей Анатольевич; [Место защиты: Моск. гос. ун-т путей сообщ. (МИИТ) МПС РФ].- Москва, 2010.- 94 с.: ил. РГБ ОД, 61 11-5/266

Введение к работе

Актуальность темы. Возможность общения с ЭВМ на естественном языке давно интересовала исследователей. С развитием уровня техники потребности современного общества диктуют новые требования к эргономичности систем и их безопасности. Возникает необходимость в распознавании речевых сигналов. Это касается и вопросов пограничного контроля, криминалистической экспертизы, контроля и управления банковскими операциями, контроля доступа к охраняемым объектам и информационным системам, обслуживания и регистрации пассажиров, проведения оперативно-розыскных мероприятий.

Верификация речи диктора, являясь одной из разновидностей задачи распознавания устной речи, используется в системах контроля доступа. В общем случае, распознавание речи может состоять из нескольких задач: распознавание текста, распознавание диктора, определение его эмоционального состояния, возраста и пола, определение языковой принадлежности говорящего и др. Все они относятся к статистической теории распознавания образов и могут быть решены с помощью соответствующего математического аппарата. Стоит отметить, что в системах распознавания речи наибольшее применение нашли такие модели и методы, как: модель гауссовых смесей (GMM модель), модель опорных векторов (SVM модель), модель на основе искусственных нейронных сетей, скрытая Марковская модель (HMM модель), метод векторного квантования, тестовое распознавание (на основе аппарата логических тестов), метод текстонезависимой системы идентификации диктора на основе индивидуальности произношения гласных звуков и др. Все перечисленные модели используют в качестве априорного словаря признаков некие параметры речевого сигнала, вычисленные на его отдельных достаточно коротких фрагментах, характеризующихся стационарностью. Признаки, связанные с анатомическими особенностями голосового тракта принято называть акустическими. Возможности систем распознавания с использованием акустических параметров достигли своего предела. Признаки, отражающие индивидуальные особенности речевой активности, обусловленные работой центральной нервной системы человека – называют лингвистическими. Дальнейшее усовершенствование систем распознавания представляется в совместном использовании лингвистических и акустических признаков. Трудность использования лингвистических признаков в задачах распознавания заключается в сложности их математического описания. Таким образом, задача описания лингвистических признаков для их совместного использования с акустическими признаками с целью повышения надежности распознавания является актуальной.

В качестве лингвистических признаков может быть рассмотрена последовательность сменяющихся различных типов звуков и пауз речевого сообщения, которая определяет понятие широких фонетических категорий. В отечественной и зарубежной литературе выделяют следующие категории: гласные, носовые (назальные), плавные, шипящие, аффрикаты, взрывные и паузы.

Таким образом, использование широких фонетических категорий, в частности изменения во времени признака тон/шум, а также пауз речевого сообщения, для задач распознавания диктора является актуальным.

Цель работы заключается в разработке методики использования широких фонетических категорий речевого сообщения (распределения признака тон/шум и пауз на фрагментах речи) в задачах верификации диктора.

Задачи исследования. Для достижения поставленной цели в работе решены следующие задачи:

  1. Анализ характеристик речевых сообщений, используемых при распознавании речи;

  2. Анализ моделей и методов, используемых при распознавании;

  3. Построение модели математической интерпретации лингвистических признаков в задачах верификации диктора;

  4. Исследование возможности применения различных идентификационных параметров для верификации диктора в разработанной модели;

  5. Разработка методики использования широких фонетических категорий в задачах верификации диктора;

  6. Исследование влияния шума на надежность верификации диктора с использованием широких фонетических категорий;

  7. Оценка репрезентативности полученных результатов распознавания диктора;

  8. Обобщение и оценка результатов исследований по проблеме верификации диктора с использованием широких фонетических категорий.

Объект исследования. Процессы формирования и обработки устной речи.

Предмет исследования. Принципы, способы, методы, модели, алгоритмы, методики распознавания речи дикторов.

Исходная основа диссертации. Диссертация основывается на результатах:

- работ теории распознавания образов Ю. Л. Барабаша, В.Н. Вапника, К. Фукунаги, А. Л. Горелика.

- теоретических и прикладных исследований по цифровой обработке речевых сообщений В.М. Величко, Т.К. Винцюка, Н.Г Загоруйко, Г.С. Слуцкера, А.А. Пирогова, М.А. Сапожкова, Г.Е. Кедровой, Л.А. Чистовича , Ю.А. Косарева, В.Н. Сорокина, В.И. Галунова, А.В. Аграновского, В.П. Бондаренко, А.А. Харламова, Р.К. Потаповой, В.Я. Чучупала, В.Н. Сорокина, П.А. Скрелина, В. Г. Михайлова, Б.М. Лобанова, Н.К. Обжеляна, В.Н. Трунина-Донского, Г. С. Рамишвили, Л.Р. Рабинера, Г.М. Фанта, Р.В. Шафера, Р. Якобсона, Г. Чедда, Г.Р. Доддингтона, С. Фуруи, Л. Фланагана, Г.В. Горелова, А.Ф. Фомина, Л.А. Баранова, И.А. Шалимова.

Методы исследования. В работе использовались метод системного анализа, методы цифровой обработки сигналов, математического и компьютерного моделирования, методы обработки экспериментальных данных, методы распознавания образов, статистического анализа, методы спектрального и корреляционного анализа.

Научная новизна диссертации состоит в следующем:

  1. Предложена математическая интерпретация идентификационной информативности лингвистических признаков посредством последовательности изменяющихся во времени акустических параметров речи диктора.

  2. На основе результатов исследования существующих моделей и методов распознавания дикторов, разработана модель математической интерпретации лингвистических признаков в задачах верификации диктора.

  3. Создана методика использования широких фонетических категорий в задачах верификации диктора.

  4. Получена экспериментальная оценка надежности распознавания диктора с использованием разработанных модели и методики.

Основные положения, выносимые на защиту состоят в следующем:

  1. Модель математической интерпретации лингвистических признаков в задачах верификации диктора.

  2. Методика использования широких фонетических категорий в задачах верификации диктора.

Практическая ценность работы.

  1. Обеспечение возможности верификации диктора по каналу связи с вокодерной передачей без восстановления исходной формы речевого сигнала.

  2. Верификация диктора на основе широких фонетических категорий инвариантна к сигналам, подвергнутым вокодерным преобразованиям, что позволяет повысить надежность системы верификации при использовании предложенной методики.

  3. Реализованная в пакете прикладных программ MatLab модель математической интерпретации лингвистических признаков в задачах верификации диктора и методика использования широких фонетических категорий в задачах верификации диктора используются при проведении лабораторных работ по исследованию систем распознавания в рамках дисциплины «Цифровая телефония».

Реализация результатов работы.

1. В компании ООО «Стэл – КС»: в научно-техническом отчете по СЧ НИР «Проба2К» (Госконтракт с ФГУП «НИИ Квант» № 028/23-К2 от 01.07.2008г.), в научно-техническом отчете по НИР «Шпала» (Госконтракт с государственным учреждением «Войсковая часть 35533» N70/2009-6200к от 10 апреля 2009г.) использован проведенный анализ информативных параметров речевого сообщения, используемых для формирования априорного словаря признаков, а также показана возможность идентификации диктора посредством широких фонетических категорий.

2. В учебном процессе на кафедре 723 ИКСИ в курсе лекционных, лабораторных и практических занятий по дисциплине «Цифровая телефония» используются результаты анализа информативных параметров речевого сообщения, существующих методов и моделей, используемых при распознавании дикторов и реализованная в пакете прикладных программ MatLab модель математической интерпретации лингвистических признаков в задачах верификации диктора.

Апробация результатов работы. Результаты диссертационного исследования апробированы на IX Международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии» (ФРЭМЭ’2010) (29 июня - 2 июля 2010 года, ВлГУ, г. Владимир), VIII Межведомственной научно-технической конференции (3-5 февраля 2010, в/ч 33965, г. Москва), Юбилейной научно-технической конференции специалистов и молодых ученых (27-28 мая 2009, в/ч 35533, г. Москва), 6-ой Всероссийской научной конференции «Проблемы развития технологических систем государственной охраны, специальной связи и информации» (5-6 февраля 2009, Академия ФСО России, г. Орел), а также в ходе проведения научных семинаров на базе Института криптографии связи и информатики Академии ФСБ России и в/ч 35533.

Публикации. По материалам диссертации опубликовано 9 работ, три из которых в изданиях, входящих в Перечень ведущих рецензируемых научных журналов и изданий, формируемый Высшей аттестационной комиссией.

Структура и объем работы. Диссертация содержит введение, три главы, заключение, список литературы.

Похожие диссертации на Разработка методики использования широких фонетических категорий в задачах верификации диктора