Введение к работе
Актуальность темы. Речевой сигнал - основной переносчик информации при естественном общении между людьми. Велика удельная доля речевой информации и в общем ее объеме, передаваемом радиотехническими системами. При распространении в воздушном пространстве, а также при передаче в радиотехнических системах связи, речевые сигналы подвергаются искажениям. Сильные искажения способны не только ухудшить эстетическое качество воспринимаемых сигналов, но и привести к потере части информации, что снижает разборчивость речи. Существует значительное отличие между качеством и разборчивостью речевого сигнала, что приводит к необходимости отдельной оценки этих характеристик.
В настоящее время известно множество методов подавления шума в речевых сигналах. Выбор конкретного метода связан с особенностями воздействующего на речевой сигнал шума, наиболее вероятного диапазона отношений сигнал/шум (ОСШ) и множеством другим факторов, включая аппаратную базу, используемую для реализации метода шумоподавления.
Вместе с тем, по-прежнему наблюдается потребность в создании новых и в усовершенствовании существующих методов шумоподавления. В частности, некоторые из них, улучшая качество зашумленного речевого сигнала, могут снижать его разборчивость. Также для некоторых методов характерны артефакты типа "музыкальный шум", осложняющие восприятие информации, содержащейся в речевом сигнале. Другой важный вопрос, определяющий направление развития методов шумоподавления, - работа с сильно зашумленными речевыми сигналами при ОСШ ниже 0 дБ. В подобных случаях особо важным является повышение разборчивости.
С решением задачи повышения качества и разборчивости непосредственно связана необходимость в достоверных методах оценки этих характеристик речевого сигнала. Особой актуальностью обладают работы, направленные на разработку неэталонных критериев. Использование таких критериев в радиотехнических системах позволяет производить автоматизированный контроль разборчивости в речевых сигналах, а также осуществлять выбор методов их обработки, наиболее подходящих в каждом конкретном случае.
Таким образом, проблема разработки новых неэталонных критериев разборчивости и методов подавления шума в речевых сигналах является актуальной.
Состояние проблемы. Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых, как Рабинер Л., Шафер Р., Фланаган Дж., Янг Б., Мермелштейн П., Левинсон С. и др. Большой вклад в развитие методов анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розенблатта М, Римского-Корсакова А.В., Сапожкова М.А., Михайлова В.Г., Рихтера С.Г., Тартаковского Г.П., Санникова В.Г. и др.
В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Болла С, Лима Дж., Ефрайма Я., Малла Д., Скалара Ф., Филхо Дж., Коэна И., Лойзо Ф., Прохорова Ю.Н. и др.
Работы указанных ученых содержат теоретическое обоснование, описание и сравнение методов анализа и обработки зашумленных речевых сигналов. Однако
некоторые вопросы в этой области по-прежнему не решены или требуют дополнительных исследований.
Целью работы является создание и исследование методов анализа и обработки зашумленных речевых сигналов.
Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:
модификация объективного критерия разборчивости SNR loss для поддиапазонного анализа разборчивости речевых сигналов;
разработка неэталонной версии критерия объективной оценки разборчивости SNR loss, а также его поддиапазонной модификации;
создание эффективного метода поиска похожих фрагментов речевого сигнала, применимого для использования в составе метода нелокального усреднения во временной области;
модификация метода нелокального усреднения на основе предложенного метода поиска похожих фрагментов и сравнение результатов работы предложенного метода шумоподавления с другими на основе объективных критериев качества и разборчивости речевых сигналов;
создание метода постобработки зашумленных речевых сигналов, обработанных с использованием метода нелокального усреднения во временной области.
Методы исследования. При решении поставленных задач использованы методы цифровой обработки сигналов, линейной алгебры, теории вероятностей и . математической статистики. Широко использовались методы компьютерного моделирования.
Объектом исследования является система подавления шума в речевых сигналах.
Предметом исследований являются методы объективной оценки разборчивости речевых сигналов, а также методы подавления шума в речевых сигналах, обеспечивающие повышение их качества и разборчивости.
Научная новизна
-
Предложен подход к поддиапазонной оценке разборчивости речевых сигналов, основанный на модификации объективного критерия разборчивости SNR loss.
-
Разработан метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также его поддиапазонной модификации, для зашумленных речевых сигналов.
-
Предложен подход к поиску похожих фрагментов речевых сигналов, основанный на применении алгоритма кластеризации к-средних.
-
На основе предложенного метода поиска похожих фрагментов модифицирован метод подавления шума в речевых сигналах, основанный на принципе нелокального усреднения во временной области.. Практическая значимость
1. Предложенные модификации объективного критерия разборчивости SNR loss позволяют проводить поддиапазонный анализ разборчивости речевых сигналов для исследования и усовершенствования методов подавления шума в речевых сигналах.
-
Предложенный метод неэталонной оценки критерия SNR loss и его поддиапазонных модификаций может использоваться для контроля разборчивости речи в радиотехнических системах связи и автоматического выбора методов шумоподавления. Средняя величина абсолютной ошибки при неэталонной оценке критерия SNR loss не превышает 3,55%.
-
Предложенный метод неэталонной оценки критерия SNR loss допускает относительно простую аппаратную реализацию, в частности, на цифровых сигнальных процессорах.
-
Разработанный метод подавления шума, основанный на поиске похожих фрагментов с применением алгоритма кластеризации к-средних и принципа нелокального усреднения сигнала во временной области, позволяет значительно улучшать качество и разборчивость зашумленных речевых сигналов при отрицательных значениях ОСШ.
-
Предложенный метод постобработки прост в реализации и позволяет добиться дополнительного улучшения качества и разборчивости зашумленных сигналов, обработанных при помощи метода шумоподавления, основанного на нелокальном усреднении сигнала во временной области.
Результаты работы внедрены в соответствующие разработки ОАО "Ярославский радиозавод" и МОО "Союз криминалистов" г. Ярославль. Отдельные результаты работы внедрены в учебный процесс Ярославского государственного университета им. П.Г. Демидова в рамках дисциплины "Цифровая обработка речевых сигналов", а также в научно-исследовательские работы при выполнении исследований в рамках грантов "Развитие нелинейной теории цифровой обработки сигналов и изображений в технических системах" (грант РФФИ № 10-08-01186), "Разработка методов оценки качества видеоинформации" (грант РФФИ № 12-08-01215), "Развитие нелинейной теории цифровой обработки сигналов и изображений в радиотехнике и связи" (Программа "Развитие научного потенциала высшей школы (2009-2010 годы)", № 2.1.2/7067).
Личный вклад автора. Выносимые на защиту положения предложены и реализованы автором в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова. Практическая реализация методов и моделирование на ЭВМ проводились коллективом исследователей при личном участии автора.
Достоверность материалов диссертационной работы подтверждена результатами компьютерного моделирования, демонстрирующими эффективность предложенных методов в задачах анализа и обработки речевых сигналов.
Апробация работы. Результаты работы докладывались и обсуждались на:
11-й, 12-й, 13-й, 14-й Международной конференции "Цифровая обработка сигналов и ее применение", М., 2009, 2010, 2011, 2012.
XVIII Международной научно-технической конференции студентов и аспирантов "Радиоэлектроника, электротехника и энергетика", М., 2012.
9-й Международной научно-технической конференции "Перспективные технологии в средствах передачи информации", Владимир-Суздаль, 2011.
Международной научно-практической конференции студентов и молодых ученых "Молодежь и наука: модернизация и инновационное развитие страны", Пенза, 2011.
Н-ой Международной молодежной научно-практической конференции "Научно-практические исследования и проблемы современной молодежи", Елабуга, 2010.
XIII Всероссийской научно-практической конференции "Проблемы развития средств ПВО в современных условиях", Ярославль, 2012.
2-й Всероссийской конференции "Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012", М.-Таганрог, 2012.
8-й Всероссийской научно-технической конференции "Информационные технологии в электротехнике и электроэнергетике", Чебоксары, 2012.
IX Всероссийской научно-технической конференции "Динамика нелинейных дискретных электротехнических и электронных систем", Чебоксары, 2011.
65-й Научной сессии, посвященной Дню радио, РНТОРЭС им. А.С. Попова, М., 2010.
16-й Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и в образовании", Рязань, 2009.
Научно-технической конференции "Проблемы автоматизации и управления в технических системах", Пенза, 2008.
62-й, 63-й, 64-й Региональной научно-технической конференции студентов, магистрантов и аспирантов высших учебных заведения с международным участием "Молодежь. Наука. Инновации", Ярославль, 2009, 2010, 2011.
9-й Областной научно-практической конференции студентов, аспирантов и молодых ученых вузов "Ярославский край. Наше общество в третьем тысячелетии", Ярославль, 2008.
Публикации. По теме диссертации опубликованы 23 научные работы, из них 2 статьи в рецензируемых журналах из перечня ВАК.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Содержание работы изложено на 131 странице. Список литературы включает 120 наименований. В работе представлен 41 рисунок и 22 таблицы.
Основные научные положення и результаты, выносимые на защиту
-
Объективный метод поддиапазонной оценки разборчивости речевых сигналов, основанный на модифицированной версии критерия SNR loss.
-
Метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также значений его поддиапазонной версии.
-
Метод подавления шума в речевых сигналах, основанный на нелокальном усреднении во временной области и поиске похожих фрагментов с применением алгоритма к-средних.
-
Результаты исследования предложенного метода шумоподавления и его сравнения с двумя другими методами.