Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии Архипов, Игорь Олегович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Архипов, Игорь Олегович. Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии : диссертация ... кандидата технических наук : 05.11.16.- Ижевск, 2000.- 152 с.: ил. РГБ ОД, 61 00-5/3031-5

Введение к работе

Объектом исследования является информационно-измерительная система речевой технологии.

Предметом исследования являются критерии, признаки и алгоритмы классификации речи на тональные и нетональные интервалы синхронно с ОТ, способы вычисления признаков классификации речи на участки Т/НТ, повышающие надежность распознавания и определение оптимальной полосы частот при вычислении энергии речи для классификации речевого сигнала на тональные и нетональные интервалы, локальный алгоритм выделения ОТ на основе GS-метода (GS-generated solitone - генерируемый, искусственный, солитон), фильтра предварительной обработки речевого сигнала, методика сравнения качества работы разных выделителей ОТ.

Актуальность темы. Звуки речи делят на вокализованные (тональные) и не-вокализованные (нетональные). К вокализованным относят звуки, произносимые с участием голосового источника, к невокализованным - без участия голосового источника. Наличие или отсутствие вокализации есть один из основных признаков акустического сигнала речи. Оценка наличия или отсутствия вокализации необходима для построения систем распознавания, компрессии и синтеза речи.

Устройства принятия решения о наличии или отсутствии вокализации получили название устройств выделения сигнала "ТОН/НЕ ТОН" (Т/НТ).

Одним из основных параметров голосового источника является длительность периода колебаний голосовых связок Т0, которая получила название периода основного тона (ОТ), величину обратную периоду ОТ называют частотой ОТ (Fo). Основной тон совместно с признаком Т/НТ переносит информацию о маркерах сегментации непрерывного потока речи, информацию о коммуникативном типе высказывания, о контексте произнесения, об индивидуальности голоса диктора и его эмоциональном состоянии, об окружающей обстановке, о стиле произнесения, о заболеваниях речевого аппарата, об уровне культуры диктора и его интеллектуальном развитии и т.д. Влияние указанных факторов определяет динамический диапазон и значения частоты ОТ, динамику и временные параметры изменений частоты ОТ.

Задача измерения частоты основного тона является одной из важнейших для речевых информационно-измерительных систем (ИИС) и известна как задача выделения частоты ОТ.

Человек легко определяет частоту ОТ при прослушивании речи. Однако построить устройство, автоматически измеряющее частоту ОТ с малой ошибкой и малой задержкой во времени даже при относительно низком уровне помех довольно трудно, о чем свидетельствует длительный период исследований в данной области.

Значения частоты ОТ и признака Т/НТ используют при идентификации и верификации диктора по голосу, в системах с речевым ответом, в криминалистике в системах компрессии и сотовой телефонии, в медицине и т.д. Информация о значениях периода ОТ, о моментах возбуждения речевого тракта и о признаке Т/НТ, позволяет точнее оценивать другие параметры речи, используемые, например, в ИИС обработки, анализа и распознавания речи. Повышение точности измерения значений периода

ОТ, определения моментов возбуждения речевого тракта и переходов Т/НТ и "НЕ ТОН/ТОН" (НТ/Т) позволит повысить надежность работы подобных ИИС.

Диссертационная работа, направленная на поиск решений, позволяющих повысить точность и надежность алгоритмов принятия решения Т/НТ и выделения ОТ представляется актуальной.

Целью диссертационной работы является повышение точности речевой ИИС при измерении частоты ОТ и при выделении моментов переходов Т/НТ и НТ/Т в непрерывном речевом сигнале.

Для достижения поставленной цели определены следующие научно-технические задачи:

  1. Исследование признаков, позволяющих принимать решение Т/НТ синхронно с ОТ и обеспечивающих надежное принятие решения Т/НТ.

  2. Разработка критериев оценки надежности принятия решения Т/НТ по совокупности признаков.

  3. Оценка параметров решающих правил в алгоритме принятия решения Т/НТ в зависимости от уровня аддитивного шума и от ограничения частотной полосы сигнала.

  4. Оценка синхронного и асинхронного методов принятия решения Т/НТ.

  5. Разработка алгоритма выделения ОТ по GS-методу с применением предлагаемого алгоритма принятия решения Т/НТ.

  6. Оценка параметров фильтра предварительной обработки, обеспечивающего минимизацию ошибок оценки положения начал периодов ОТ при их выделении методом GS.

  1. Сопоставительные испытания разработанного алгоритма выделения ОТ по GS-методу и алгоритма принятия решения Т/НТ с известными методами выделения ОТ в различных акустических условиях.

  2. Оценка результатов сопоставительных испытаний разработанного алгоритма выделения ОТ по GS-методу и алгоритма принятия решения Т/НТ.

Методы исследования включают в себя методы математической статистики, методы теории распознавания образов, методы теории и распознавания речевых сигналов, методы математического моделирования на ЭВМ, методы теории алгоритмов и программ, экспериментальные исследования с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.

На зашиту выносятся:

  1. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронный с основным тоном.

  2. Методика повышения надежности принятия решения Т/НТ путем добавления шума к сигналу при вычислении частотных и спектральных признаков классификации.

  3. Методика выбора полосы частот сигнала обеспечивающей повышение надежности принятия решения Т/НТ по энергетическому критерию.

  4. Критерий оценки признака по допустимой ширине области смещения порога принятия решения.

  5. Алгоритм выделения ОТ по GS-методу с синхронным с ОТ принятием решения Т/НТ.

  1. Методика оценки качества предварительной фильтрации по величине ошибки оценки начал периодов ОТ GS-методом.

  2. Методика сравнения качества работы выделителей ОТ по обобщенному критерию оценки качества в условиях шума и ограничения сигнала по полосе.

В диссертационной работе получены следующие основные научные результаты.

  1. Разработан алгоритм выделения ОТ, основанный на применении активно генерируемой функции решений.

  2. Разработан алгоритм принятия решения "ТОН/НЕ ТОН", выполняемый синхронно с ОТ.

  1. Предложен критерий оценки комбинаций признаков принятия решения "ТОН/НЕ ТОН" с точки зрения допустимой неточности выбора порога классификации.

  2. Разработана методика повышения надежности принятия решения "ТОН/НЕ ТОН" путем добавления шума к речевому сигналу при вычислении частотных и спектральных признаков принятия решения "ТОН/НЕ ТОН".

  3. Предложен методика попарного сравнения качества работы выделителей ОТ по обобщенной ошибке.

Практическая ценность и реализация результатов работы. На основе проведенных исследований разработан синхронный с ОТ детектор вокализации совместно с локальным выделителем ОТ по GS-методу. Найдены значения порогов принятия решения Т/НТ по энергии сигнала в полосе частот, по нормированному коэффициенту корреляции с единичной задержкой и по частоте пересечений нуля. Оценен уровень добавляемого шума, обеспечивающий повышение надежности принятия решения Т/НТ по нормированному коэффициенту корреляции с единичной задержкой и по частоте пересечения нуля. Выполнено сравнение GS-метода, пикового метода, фильтрового метода, метода Рабинера-Голда, автокорреляционного метода, кепстрального метода и метода ЛЛК. Получены оценки качества выделения ОТ указанными методами для сигнала без искажений, для сигнала с добавляемым белым шумом при отношении С/Ш=10дБ и для телефонного сигнала. Сделана оценка области применимости GS-метода для выделения ОТ. Показано, что GS-метод совместно с синхронным детектором вокализации позволяет выделять ОТ в реальном времени для телефонного сигнала и для сигнала с добавленным шумом вплоть до отношения С/Ш=0дБ.

Разработанные в диссертационной работе подходы к предварительной обработке речевых сигналов нашли применение в ИИС анализа и обработки акустических сигналов на ДОАО "Ижевский оружейный завод", на ОАО "Вятско Полянский машиностроительный завод Молот", в научно-техническом центре "Вычислительная техника", гд,е удалось повысить надежность регистрации акустических событии и точность измерения их параметров, что подтверждено соответствующими актами, а также в виде'программ и методик внедрены в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета.

Апробация работы. Основные результаты работы докладывались на IV Всероссийской с международным участием конференции "Распознавание образов и анализ изображений: новые информационные технологии" (г. Новосибирск,

1998г.), IX сессии Российского акустического общества "Современные речевые технологии" (г. Москва, 1999г.), на международной научно-технической конференции "Информационные технологии в инновационных проектах" (г. Ижевск, 2000г.), семинарах кафедры вычислительной техники ИжГТУ (г. Ижевск, 1997-1998г.).

Публикации. По теме диссертации опубликовано 11 работ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст изложен на 150 машинописных страниц с иллюстрациями. Список литературы включает 119 наименований.