Применение кластеризации в детекторах речи для телекоммуникационных приложений Мартынович, Павел Владиславович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мартынович, Павел Владиславович. Применение кластеризации в детекторах речи для телекоммуникационных приложений : автореферат дис. ... кандидата технических наук : 05.12.13 / Моск. гос. техн. ун-т гражд. авиации.- Москва, 2004.- 17 с.: ил. РГБ ОД, 9 04-13/463-0

Введение к работе

Актуальность темы. В настоящее время речевые технологии занимают ключевое место среди других отраслей телекоммуникаций и цифровой обработки сигналов. Большинство систем обработки речи: вокодеры, распознавание речи и диктора, шумоподавление - это устройства, имеющие в своем составе детектор речи, который выполняет важную задачу в каждом из них. Диссертационная работа посвящена исследованию таких детекторов. Проблема построения детекторов речи широко обсуждается в мировой научной литературе. Но и по сей день, задача далека отрешения: алгоритмы либо потребляют большие вычислительные ресурсы и, значит, не представляют практический интерес, либо используют слишком простые решающие правила и способы установки порогов, что вызывает неудовлетворительную работу детектора в разных акустических условиях.

Выбранная тема представляет научный и практический интерес по следующим причинам:

Быстрое развитие телекоммуникационных технологий приводит к повышению требований для приложений обработки речи А детектор речи является одним из основных элементов большинства систем речевых технологий.

Повышение интереса в мире к системам безопасности дало новый толчок к применению в системах телекоммуникации биометрических систем, среди которых особое место принадлежит голосовой верификации. Одним из самых важных элементов последней является детектор речи. Развитие телеконференций и переговоров через сеть Интернет с использованием различного рода вокодеров вызывает необходимость в экономном использовании пропускной способности сети и уменьшении битовой скорости систем сжатия во время пауз. Эффективное опознавание пауз в речевом сигнале - это задача детектора речи.

Существующие детекторы речи устанавливают пороги на основе только уровня шума или используют максимальный уровень речи, внося большую

з задержку в процесе принятия решения. Это вызывает привязку на определенное соотношение сигнала к шуму, либо к его определенному типу, что затрудняет использование детектора в разных акустических условиях и разных задачах без ручной перенастройки.

Таким образом, разработка детектора речи, использующего и оценивающего минимальный уровень речи и шума и обладающего минимальной задержкой принятия решения, является, по мнению автора, актуальной научной задачей, а ее решение - востребованным для телекоммуникационных приложений.

Цели, задачи и объект исследований. Объектом исследования являются детекторы речи, применяемые в системах распознавания и сжатия речи. Предметом исследования является декомпозиция сигнала остатка применительно к классификации речь-шум. Целью работы является повышение эффективности алгоритмов детектора речи в разных акустических условиях, уменьшения ошибок классификации речь-шум, тем самым, повышение потребительского качества данного класса устройств. Основными научными и практическими задачами диссертации являются анализ методов детектирования речи, разработка улучшенных алгоритмов и методов для детектора речи, снижающих зависимость от акустических условий, и реализация указанных алгоритмов в виде модулей на ПЭВМ для использования в системах сжатия речи и распознавания диктора. Для решения основных задач в диссертации ставятся следующие частные задачи:

Проведение аналитического обзора методик построения детекторов речи. Формулировка основных недостатков существующих решений и выделение среди них тех, которые планируется ослабить или устранить в диссертационном исследовании.
Разработка программных средств для оценки точности работы детекторов речи и исследования их поведения в различных приложениях и шумовых обстановках.

Разработка метода получения сигнала остатка, позволяющего повысить эффективность устранения предсказуемой на соседних отсчетах компоненты из речевого сигнала.
Сравнение метода получения остатка с линейным предсказанием.
Разработка алгоритма детектора речи, использующего сигнал остатка для ослабления зависимости от отношения сигнала к шуму.
Формулировка специфики и разработка алгоритма детектора речи для системы верификации диктора.
Сравнение разработанной модели детектора речи с существующими аналогами.
Реализация алгоритма детектора речи в виде программного модуля на ПЭВМ для работы в составе системы сжатия речи и распознавания диктора. Методы исследования. Для решения поставленной задачи использовались

методы цифровой обработки сигналов, численного моделирования алгоритмов, кластерный анализ, распознавания образов, линейной алгебры, математической статистики.

Научная новизна определяется тем, что в процессе исследования была разработана совокупность методов и алгоритмов для снижения зависимости детектора речи от уровня квазистационарных шумов.

Практическая ценность. Разработанные алгоритмы позволяют повысить качество речи в системах сжатия с переменной битовой скоростью, а также надежность систем распознавания и верификации. Разработанный алгоритм детектора был реализован в виде программного модуля для ПЭВМ и используется в составе систем верификации, сжатия и распознавания.

Апробация и публикации. Результаты выполненных исследований докладывались и обсуждались на Международной научно-технической конференции "Гражданская авиация на современном этапе развития науки, техники и общества" (Москва, МГТУГА, 2003 г.), Второй биометрической конференции "Biometrics 2003 AIA RUII" (Москва, ВВЦ), Международной конференции "Информационно-правоохранительные системы 2001" (Москва,

5 МВД). По тематике диссертации было опубликовано 7 работ, включая 2 публикации в виде тезисов и 5 статей.

Личный вклад. Изложенные в работе результаты получены автором самостоятельно. В публикациях с соавторами вклад соискателя определяется рамками полученных в диссертации результатов.

Основные положения диссертации, выносимые на защиту:

Метод получения сигнала остатка на основе интерполяции.
Метод детектирования речи, использующего кластерный анализ и сигнал остатка для выбора порогов.

Структура и объем диссертации. Диссертация состоит из введения, 3-х глав с выводами по каждой из них, заключения и списка литературы. Она содержит 140 страниц с 40 рисунками и списком литературы, включающим 80 наименований.