Введение к работе
Актуальность работы обусловлена необходимостью разработки новых эффективных алгоритмов и вычислительных процедур обработки звуковых сигналов в слуховых аппаратах (СА), применение которых позволит повысить комфортность использования СА слабослышащими людьми.
В настоящее время существует развитая индустрия по производству слуховых аппаратов (СА), предназначенных для протезирования людей с ослабленным слухом, которых по данным Всемирной организации здравоохранения (ВОЗ) в мире насчитывается свыше 10%. В большинстве случаев потери слуха проявляются в виде снижения или даже полной потери подвижности (эластичности) отдельных ЗЛЄМЄНТОВ механической системы человеческого уха, что приводит к ослаблению реакции на воздействие внешней акустической волны.
Для компенсации указанных потерь реакции на акустическое воздействие необходимо осуществлять довольно сложную обработку звуковых сигналов, что доступно только при использовании технических устройств на базе цифровых процессоров. Так как потери слуха индивидуальны для каждого пользователя, то предусматривается процедура адаптации к ним за счёт соответствующих настроек режимов функционирования СА на этапе их подбора (как правило, врачом - сурдологом).
Основой для таких настроек служат так называемые аудиограммы, которые отражают реакцию механической системы уха пациента на акустическое воздействие определенной частоты. Для компенсации потерь реакции в том или ином частотном интервале применяется соответствующее усиление компонент звуковых сигналов. Иными словами, процедура обработки звуковых сигналов в СА состоит из этапа разделения входного сигнала на требуемые частотные компоненты (этап анализа) и этапа синтеза, то есть формирования выходного сигнала с учетом требуемого усиления этих компонент.
Таким образом, адекватными при построении алгоритмов анализа и синтеза звуковых сигналов в СА являются модели их генерации на основе частотных представлений
х„ = х{Ш) = \ XN(й>)ехр(/й>(* - 1))Жи/2я-, (1)
-я
Здесь и далее предполагается, что дискретизация осуществляется с постоянным шагом по времени Д/, а большими буквами обозначаются соответствующие трансформанты Фурье отрезков обрабатываемых отсчётов длительности N, то есть
А-„И = дс4«р(-М*-1)). (2)
(.і
В настоящее время модели анализа предусматривают некоторые процедуры выделения частотных компонент входного сигнала, относящихся к различным частотным интервалам вида Пг = [-Vr,-VrA)^J\yr^,Vr),Vu = ^VR = л, (R- количество используемых частотных интервалов), которые затем подвергаются необходимым преобразованиям в соответствии с аудиограммами.
В современных цифровых С А используется от трёх до 16 частотных диапазонов (каналов обработки). Применяемые при этом способы разделения на частотные компоненты (аппроксимации отрезков трансформант Фурье) и соответствующие процедуры синтеза являются ноу-хау и детально неизвестны.
Вместе с тем, несмотря на постоянное совершенствование СА, отзывы пользователей свидетельствуют о том, что в настоящее время отсутствуют эффективные алгоритмы разделения анализируемых отрезков сигналов на информационные частотные компоненты, то есть содержащие важную акустическую информацию, в том числе речевую, и неинформационные, обусловленные неизбежным присутствием так называемых помех окружающей среды и аппаратурных шумов. Ясно, что в последнем
случае синтез выходных сигналов на основе аудиограммы за счёт усиления в том числе и компонент, обусловленных помехами, приводит к некомфортности пользования СА. Иллюстрацией к сказанному является рисунок 1 расположенный ниже, на котором изображены квадраты модулей трансформанты Фурье отрезка сигнала, не содержащего звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) и трансформанты Фурье сигнала зарегистрированного на его выходе в режиме с подавлением шумов.
Легко видеть, что некоторые из частотных компонент синтезированного сигнала в СА существенно усилены. Именно это обстоятельство обуславливает дискомфорт его применения даже при использовании механизма подавления шума.
Рисунок 1. Квадраты модулей трансформанты Фурье отрезка сигнала, не содержащего
звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) (сплошная
линия) и трансформанты Фурье сигнала зарегистрированного на его выходе в режиме с
подавлением шумов (пунктирная линия)
В диссертации предлагается следующая обобщенная форма модели синтеза выходных сигналов
w«,=(w,,.->w*)T= СЛ*> (3)
тлг
я л
ил = \ ^(<и)ехр(;'й)(/с-1))с((у/2л-,А: = 1,..,Л|Г.
Здесь и в дальнейшем ws - вектор значений выходного синтезированного сигнала СА; верхний индекс Г означает транспонирование; сг - коэффициенты синтеза (усиления) в частотных диапазонах, указанных выше, а X (т) - результаты аппроксимации в них отрезков трансформанты Фурье входного сигнала на этапе его анализа (частотные компоненты).
Таким образом, необходимо разработать метод оптимальной аппроксимации этих отрезков в смысле минимизации меры погрешности приближения к следующему идеальному случаю
Xr„(co) = X/,((o),coenr;XJa) = d,coenr.
Поэтому и синтезируемый выходной вектор представляется естественным считать оптимальным.
Кроме того, спецификой предлагаемой модели является то, что для частотных интервалов, энергии анализируемых отрезков сигналов в которых обусловлены неинформационными частотными компонентами предлагается использовать единичные коэффициенты.
Определение конкретных значений коэффициентов синтеза для информационных частотных компонент не является предметом диссертационных исследований. Предполагается, что они могут быть вычислены на основе аудиограмм с использованием в настоящее время стандартных для СА процедур.
Иными словами, необходимо разработать новые адекватные с точки зрения решаемых задач модели анализа в СА входных отрезков звуковых сигналов.
Прежде всего, они должны позволять эффективно с точки зрения достоверности обнаружить паузы в информационных звуковых сигналах (которые нет необходимости усиливать).
С другой стороны, известно, что подавляющие доли энергий отрезков речевых сигналов (и информационных сигналов, генерируемых механизмами и другими источниками квазициклических акустических воздействий) сосредоточены в малой доле оси частот (информационные частотные компоненты). Поэтому и усилению должны подвергаться только указанные информационные частотные компоненты, так как усиление других приводит к повышению уровня неинформационных частотных компонент.
Следовательно, разрабатываемые модели анализа должны обеспечить и эффективную реализацию указанной селекции информационных частотных компонент.
Таким образом, разработка математических моделей анализа и синтеза звуковых сигналов в СА, адекватных с точки зрения построения эффективных методов и алгоритмов селекции информационных и неинформационных частотных компонент (в том числе пауз в речевых сообщениях) является актуальным направлением исследований, способствующих созданию СА, удовлетворяющих требованию комфортности их использования большим контингентом испытывающих такую потребность людей
Целью данной работы является разработка на основе частотных представлений математических моделей анализа и синтеза в цифровых слуховых аппаратах (ЦСА) звуковых сигналов, позволяющих создать оптимальные алгоритмы их обработки при селекции информационных частотных компонент (в том числе при обнаружении пауз) и формировании выходных сигналов с низким уровнем неинформационных частотных компонент.
Для достижения этой цели были сформулированы и решены следующие задачи исследований:
Разработка моделей синтеза и соответствующих оптимальных алгоритмов обработки информационных и неинформационных частотных компонент звуков речи и шумов в паузах между ними при формировании выходных сигналов цифровых СА;
Построение моделей распределения энергий отрезков звуков русской речи по заданньш частотньш интервалам с позиций выявления потенциальных возможностей селекции на этой основе информационных и неинформационных частотных компонент и обнаружения отрезков, соответствующих паузам между звуками речи;
Разработка моделей анализа и соответствующих оптимальных алгоритмов обработки в цифровых СА входных звуковых сигналов при селекции информационных и неинформационных частотных компонент звуков речи;
Разработка алгоритмов обнаружения пауз между звуками речи с этапом обучения и без него.
Оценка эффективности (достоверность принятия решений и качественная оценка комфортности звучания формируемых выходных сигналов) разработанных алгоритмов анализа и синтеза в СА звуковых сигналов на основе вычислительных экспериментов.
Методы исследований:
Методы анализа и синтеза сигналов на основе частотных представлений и использования вариационных принципов;
Методы статистической теории принятия решения;
Вычислительный эксперимент. Научную новизну работы составляет следующее:
Впервые с позиций потенциальных возможностей селекции информационных и неинформационных компонент установлены модели распределений по оси частот энергий отрезков речевых сигналов, соответствующих различным звукам русской речи (фундаментальные результаты исследований);
Модели решающих функций для обнаружения пауз в звуках речи и селекции информационных частотных компонент;
Модель синтеза с малым уровнем неинформационных частотных компонент выходных сигналов в СА на основе оптимальных аппроксимаций отрезков трансформант Фурье входных сигналов в заданных частотных интервалах и результатов селекции информационных частотных компонент;
Результаты исследований на основе вычислительных экспериментов с речевыми данными работоспособности предлагаемых алгоритмов анализа входных звуковых сигналов в СА в виде оценок достоверностей принимаемых решений и уровня неинформационных частотных компонент в синтезируемых выходных сигналах.
Практическая значимость работы обусловлена тем, что полученные в ней результаты могут найти применения в новых модификациях цифровых СА, которые будут обладать высокой комфортностью звучания выходных сигналов, что важно для миллионов людей с ослабленным слухом.
Положения, выносимые на зашиту:
Модель синтеза выходного сигнала в цифровом СА на основе селекции информационных частотных компонент и оптимальной аппроксимации отрезков трансформант Фурье входных сигналов в соответствующих частотных интервалах;
Модели генерации речевых сигналов, порождаемых звуками русской речи в виде концентраций их энергий в частотной полосе;
Модели решающих функций при обнаружении отрезков сигналов без информационных частотных компонент (сигналы в паузе);
Модели селекции информационных и неинформационных частотных компонент;
Модель оптимальной аппроксимации отрезков трансформант Фурье входных сигналов в соответствующих частотных интервалах;
Методики проведения вычислительных экспериментов с речевыми сигналами (натурными данными) и результаты исследований на их основе эффективности разработанных алгоритмов обработки звуковых сигналов в цифровых СА.
Достоверность выводов и рекомендаций обеспечивается обоснованным использованием моделей генерации звуковых сигналов на основе частотных представлений, корректностью их математических преобразований, непротиворечивостью результатов преобразований с установленными ранее фундаментальными фактами теории звуковых сигналов и их цифровой обработки, а также подтверждается результатами вычислительных экспериментов с реальными речевыми сигналами.
Личный вклад соискателя. Все изложенные в диссертации результаты исследований получены либо соискателем лично, либо при его непосредственном участии.
Апробация результатов диссертационных исследований.
Результаты диссертационных исследований обсуждались на следующих научно-технических конференциях:
1. Восьмая международная научно-техническая конференция УГАТУ
«Проблемы техники и технологии телекоммуникаций», г. Уфа, 2007 г.
2. Десятая международная конференция и выставка «Цифровая обработка сигналов
и ее применение», М., 2008 г.
Связь с научными и инновационными программами. Диссертационные исследования проводились в рамках следующих программ фундаментальных, поисковых и инновационных исследований:
Аналитическая ведомственная целевая программа федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2006 - 2008г.г.г.», проект РНП.2.1.2.4974 «Разработка и исследование вариационных методов анализа и восстановления сигналов в линейных системах по дискретным эмпирическим данным ограниченной длительности»;
Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России 2007 - 2012гг.», поисковые исследования в рамках Госконтракта от 26 февраля 2007 года № 02514114010, проект «Разработка и исследование методов и алгоритмов обработки речевых данных для создания информационных технологий их сжатия при хранении, передаче и обеспечении скрытности в информационно-телекоммуникационных системах»;
Федеральная программа «Участник молодежного научно - исследовательского конкурса»
3.1. «УМНИК 07-05», Госконтракт от 20 июля 2007 года № 5269р/7733 тема
«Информационная технология обнаружения пауз в речевых сообщениях, предназначенной
для реализации в слуховых аппаратах (СА)», этап 1
3.2. «УМНИК 2-08-8», Госконтракт от 30 сентября 2008 года № 6345р/8765, тема
«Разработка информационной технологии цифровой обработки звуковых сигналов для
реализации в слуховых аппаратах (СА)», этап 2;
Аналитическая ведомственная целевая программа федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2009 - 2010 гг.», проект 656 «Разработка на основе частотных представлений математических моделей и оптимальных методов обработки речевых сигналов при хранении и передаче речевых сообщений в информационно-телекоммуникационных системах».
Внутривузовский грант Белгородского государственного университета в номинации аспирантов.
Некоторые из результатов исследований используются в рамках преподавания дисциплины «Обработка речевых сигналов в информационно - телекоммуникационных системах» студентами факультета компьютерных наук и телекоммуникация Белгородского государственного университета.
Публикации.
По теме диссертационных исследований опубликовано 9 печатных работ (из них 2 в изданиях из списка ВАК РФ), в том числе 1 Патент РФ и 1 Свидетельство Роспатента РФ об официальной регистрации программ для ЭВМ.
Объем и структура работы