Введение к работе
Актуальность темы. В настоящее время речевые технологии занимают ключевое место среди других отраслей телекоммуникаций и цифровой обработки сигналов. Большинство систем обработки речи: вокодеры, распознавание речи и диктора, шумоподавление - это устройства, имеющие в своем составе детектор речи, который выполняет важную задачу в каждом из них. Диссертационная работа посвящена исследованию таких детекторов. Проблема построения детекторов речи широко обсуждается в мировой научной литературе. Но и по сей день, задача далека отрешения: алгоритмы либо потребляют большие вычислительные ресурсы и, значит, не представляют практический интерес, либо используют слишком простые решающие правила и способы установки порогов, что вызывает неудовлетворительную работу детектора в разных акустических условиях.
Выбранная тема представляет научный и практический интерес по следующим причинам:
Быстрое развитие телекоммуникационных технологий приводит к повышению требований для приложений обработки речи А детектор речи является одним из основных элементов большинства систем речевых технологий.
Повышение интереса в мире к системам безопасности дало новый толчок к применению в системах телекоммуникации биометрических систем, среди которых особое место принадлежит голосовой верификации. Одним из самых важных элементов последней является детектор речи. Развитие телеконференций и переговоров через сеть Интернет с использованием различного рода вокодеров вызывает необходимость в экономном использовании пропускной способности сети и уменьшении битовой скорости систем сжатия во время пауз. Эффективное опознавание пауз в речевом сигнале - это задача детектора речи.
Существующие детекторы речи устанавливают пороги на основе только уровня шума или используют максимальный уровень речи, внося большую
з задержку в процесе принятия решения. Это вызывает привязку на определенное соотношение сигнала к шуму, либо к его определенному типу, что затрудняет использование детектора в разных акустических условиях и разных задачах без ручной перенастройки.
Таким образом, разработка детектора речи, использующего и оценивающего минимальный уровень речи и шума и обладающего минимальной задержкой принятия решения, является, по мнению автора, актуальной научной задачей, а ее решение - востребованным для телекоммуникационных приложений.
Цели, задачи и объект исследований. Объектом исследования являются детекторы речи, применяемые в системах распознавания и сжатия речи. Предметом исследования является декомпозиция сигнала остатка применительно к классификации речь-шум. Целью работы является повышение эффективности алгоритмов детектора речи в разных акустических условиях, уменьшения ошибок классификации речь-шум, тем самым, повышение потребительского качества данного класса устройств. Основными научными и практическими задачами диссертации являются анализ методов детектирования речи, разработка улучшенных алгоритмов и методов для детектора речи, снижающих зависимость от акустических условий, и реализация указанных алгоритмов в виде модулей на ПЭВМ для использования в системах сжатия речи и распознавания диктора. Для решения основных задач в диссертации ставятся следующие частные задачи:
-
Проведение аналитического обзора методик построения детекторов речи. Формулировка основных недостатков существующих решений и выделение среди них тех, которые планируется ослабить или устранить в диссертационном исследовании.
-
Разработка программных средств для оценки точности работы детекторов речи и исследования их поведения в различных приложениях и шумовых обстановках.
-
Разработка метода получения сигнала остатка, позволяющего повысить эффективность устранения предсказуемой на соседних отсчетах компоненты из речевого сигнала.
-
Сравнение метода получения остатка с линейным предсказанием.
-
Разработка алгоритма детектора речи, использующего сигнал остатка для ослабления зависимости от отношения сигнала к шуму.
-
Формулировка специфики и разработка алгоритма детектора речи для системы верификации диктора.
-
Сравнение разработанной модели детектора речи с существующими аналогами.
-
Реализация алгоритма детектора речи в виде программного модуля на ПЭВМ для работы в составе системы сжатия речи и распознавания диктора. Методы исследования. Для решения поставленной задачи использовались
методы цифровой обработки сигналов, численного моделирования алгоритмов, кластерный анализ, распознавания образов, линейной алгебры, математической статистики.
Научная новизна определяется тем, что в процессе исследования была разработана совокупность методов и алгоритмов для снижения зависимости детектора речи от уровня квазистационарных шумов.
Практическая ценность. Разработанные алгоритмы позволяют повысить качество речи в системах сжатия с переменной битовой скоростью, а также надежность систем распознавания и верификации. Разработанный алгоритм детектора был реализован в виде программного модуля для ПЭВМ и используется в составе систем верификации, сжатия и распознавания.
Апробация и публикации. Результаты выполненных исследований докладывались и обсуждались на Международной научно-технической конференции "Гражданская авиация на современном этапе развития науки, техники и общества" (Москва, МГТУГА, 2003 г.), Второй биометрической конференции "Biometrics 2003 AIA RUII" (Москва, ВВЦ), Международной конференции "Информационно-правоохранительные системы 2001" (Москва,
5 МВД). По тематике диссертации было опубликовано 7 работ, включая 2 публикации в виде тезисов и 5 статей.
Личный вклад. Изложенные в работе результаты получены автором самостоятельно. В публикациях с соавторами вклад соискателя определяется рамками полученных в диссертации результатов.
Основные положения диссертации, выносимые на защиту:
-
Метод получения сигнала остатка на основе интерполяции.
-
Метод детектирования речи, использующего кластерный анализ и сигнал остатка для выбора порогов.
Структура и объем диссертации. Диссертация состоит из введения, 3-х глав с выводами по каждой из них, заключения и списка литературы. Она содержит 140 страниц с 40 рисунками и списком литературы, включающим 80 наименований.