Содержание к диссертации
Введение
Глава 1. Методы оценки качества аудиоаппаратуры 12
1.1. Введение 12
1.2. Публикации 13
1.3. Классификация 21
1.4. Методы объективной оценки качества 22
1.5. Перцепционные методы объективной оценки качества 27
1.6. Постановка задачи и цель диссертационной работы 34
Глава 2. Исследование перцепционных методов оценки качества 37
2.1. Введение 37
2.2. Перцепционные методы оценки качества 37
2.3. Психоакустические модели 39
2.3.1. Модель Е. Zwicker 40
2.3.2. Модель В. Moore 43
2.3.3. Заключение 46
2.4. Слуховая система 48
2.4.1. Функциональная схема 48
2.4.2. Моделирование свойств слуха и оценка отдельных видов искажений 52
2.4.3. Вычисление обобщённой оценки качества 101
2.5. Перцепционные методы объективной оценки качества 110
2.5.1. DIX 111
2.5.2. PEAQ 120
2.6. Выводы 136
Глава 3. Разработка перцепционного метода объективной оценки качества 143
3.1. Введение 143
3.2. Требования 144
3.3. Алгоритм 146
3.3.1. Кратковременный спектральный анализ 148
3.3.2. Анализ спектров входных сигналов 149
3.3.3. Учёт передаточной характеристики слуха 154
3.3.4. Сигнал искажений 155
3.3.5. Вычисление распределения энергии по полосам частот 155
3.3.6. Учет собственных шумов слуховой системы 156
3.3.7. Вычисление распределения возбуждения по высоте тона 157
3.3.8. Оценка отдельных характеристик искажений 157
3.3.9. Усреднение 160
3.3.10. Вычисление обобщённой оценки качества 162
3.4. Программная реализация 163
3.4.1. Библиотека метода объективной оценки качества 163
3.4.2. Консольное приложение 166
3.4.3. Приложение для операционной системы Windows 166
3.5. Выводы 172
Глава 4. Тестирование 177
4.1. Введение 177
4.2. Испытания 179
4.3. Результаты 183
4.4. Выводы 189
Заключение 191
Литература 196
Приложение 206
- Перцепционные методы объективной оценки качества
- Моделирование свойств слуха и оценка отдельных видов искажений
- Библиотека метода объективной оценки качества
- Приложение для операционной системы Windows
Введение к работе
Передача аудиосигналов играет большую и всё более возрастающую роль как в общественной и социальной жизни людей, так и в экономике. Не мыслимым становится представить себе современный мир без таких уже привычных услуг сферы телекоммуникаций как радиовещание, телефония, телевидение и т.п. Использование современной компьютерной техники, разработка и внедрение новых и всё более эффективных способов записи информации, а также возможность передачи цифровых аудиосигналов по различным каналам связи сделали услуги данных областей телекоммуникации широко доступными для потребителей. Это, в свою очередь, привело к тому, что сильно возрос объём обрабатываемых, записываемых и передаваемых аудиосигналов.
В настоящее время для передачи, записи и хранения аудиосигналов разработано, разрабатывается и широко используется огромное количество различных алгоритмов и соответствующих им устройств. Аппаратура, применяемая для сжимания и расширения динамического диапазона, кодирования, компрессии и т.п. стала неотъемлемой составной частью современных каналов передачи аудиосигналов.
Все эти устройства, начиная от микрофонов и громкоговорителей и заканчивая сложнейшими системами кодирования аудиосигналов, в той или иной степени вносят искажения в аудиосигнал.
Естественно, что при выборе конкретного устройства для решения определенной задачи, необходимо произвести сравнение предлагаемого оборудования. Такое сравнение производится по целому ряду характеристик, не последнее место из которых занимает субъективная оценка величины вносимых в аудиосигнал искажений, т.е. результаты субъективно статистических экспертиз (ССЭ). Это обусловлено тем, что каковы бы ни были устройства обработки аудиосигналов, будь-то обычный телефон или же сложнейший многоканальный звукотехнический комплекс, монопольным потребителем предоставляемых ими
5 услуг является человек, которого в первую очередь интересует качество аудиосигналов.
Если при работе с аналоговыми аудиосигналами проблема оценки качества традиционно решалась путем измерения ряда таких характеристик, как отношение сигнал-шум, коэффициент гармоник и т.п. [1], то при переходе к цифровой технике ситуация значительно усложнилась. В первую очередь это связано с тем, что очень широкое применение при передаче и хранении аудиосигналов стали находить современные алгоритмы компрессии цифровых аудиоданных: MPEG-1 ISOAEC 11172-3 Layer I, II, III; MPEG-2 КОЛЕС 13818-3, MPEG-2 ISCVIEC 13818-7 AAC, MPEG-4 ISOAEC FCD 1449-3, Dolby AC-3. Данные алгоритмы ориентированы не на уменьшение количества обусловленных кодированием искажений, а на то, чтобы сделать эти искажения менее заметными для слушателя. Это достигается за счёт учёта психоакустических свойств слуховой системы человека, наиболее важными из которых являются эффекты маскировки [8]. Так как основным критерием оценки качества таких кодеков является степень заметности вносимых ими в сигнал искажений, то к ним уже не могут быть применены традиционные методы оценки качества, упоминавшиеся выше. Единственно приемлемым в данном случае способом оценки качества, как самих кодеков, так и передаваемых с их помощью аудиосигналов, является ССЭ [16]. Однако данная процедура подразумевает наличие специального помещения для прослушивания аудиосигналов, достаточно большой группы квалифицированных экспертов и значительного времени, необходимого как для проведения непосредственно прослушиваний, так и для статистической обработки результатов. Всё это делает метод субъективной оценки качества (МСОК) сложным, трудоёмким, дорогостоящим и, как следствие, непригодным для оперативного контроля качества. Надо отметить, что и традиционные методы оценки качества, упоминавшиеся выше, не всегда позволяют организовывать контроль качества аппаратуры без выведения её из эксплуатации.
Такое состояние дел в области оценки качества аудиоаппаратуры привело к тому, что в настоящее время всё более актуальной становится задача создания универсального, удобного, информативного и достоверного метода объективной оценки качества кодеков с компрессией цифровых аудиоданных (МООК). Этот метод должен позволять организовывать оперативный контроль качества, а его результаты должны с необходимой точностью совпадать с результатами, полученными с помощью ССЭ.
Таким образом, актуальность диссертационной работы обусловлена необходимостью разработки удобного в использовании метода объективной оценки качества кодеков с компрессией цифровых аудиоданных, позволяющего не только осуществлять оперативный контроль качества такого оборудования, но также отслеживать и достоверно оценивать заметность вносимых им искажений.
Изучению психоакустических свойств слуха и разработке алгоритмов компрессии цифровых аудиосигналов посвящены работы учёных: Scott N. Le-vine, E.F. Schroder, W. Voessing, J. Johnston, K. Brandenburg, E. Zwicker, M. Schroder, N. Jayant, A.C. Грудинина, Ю.А. Ковалгина, B.A. Леонова, С.Г. Рихтера, A.M. Синильникова и других. Оценка качества звучания рассмотрена в работах Н. Fletcher, W.B.Snow, D.K. Gannet, J. Kerny, Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J. Johnston, И.А. Алдошиной, Г.Б. Аскина-зи, Н.И. Веселовой, A.C. Галембо, И.Е. Горона, В.Д. Грибова, В.П. Гученко, Ж.Я. Дубовик, Ю.А. Ковалгина, Т.П. Мещанской, С.Л. Мишенкова, А.А. Пону-калина, В.В. Ремизова, М.Л. Сурова, В.К. Уварова, А.А. Фадеева, Е.А Хрянина.
Целью диссертационной работы является разработка метода объективной оценки качества кодеков с компрессией цифровых аудиоданных и создание на его основе программного обеспечения, позволяющего организовывать оперативный контроль качества.
Для достижения поставленной цели необходимо: 1. Провести анализ современных методов кодирования звуковых сигналов, стандартов и рекомендаций ITU, посвященных данной проблеме; оценить эф-
7 фективность моделирования свойств слуховой системы человека, учитываемых при кодировании аудиосигналов; классифицировать и описать искажения, возникающие при компрессии цифровых аудиоданных; проанализировать современные способы объективной оценки качества и выделить наиболее перспективные; сформулировать научные и прикладные требования, предъявляемые к современным методам объективной оценки качества кодеков с компрессией цифровых аудиоданных;
Разработать алгоритм объективной оценки качества кодеков с компрессией цифровых аудиоданных: сформулировать концепцию и выбрать механизмы оценки влияния величин и видов возникающих при этом искажений на обобщённую слуховую оценку качества кодированного аудиосигнала;
Сформулировать научно-исследовательские и практические требования к создаваемой программе оценки качества кодеков с компрессией цифровых аудиоданных. На их основе разработать концепцию, структуру и интерфейс программы, выбрать язык программирования;
Написать и отладить программу оценки качества;
Выбрать способ проверки достоверности результатов, получаемых с помощью разработанной программы оценки качества. Сформировать набор тестовых сигналов для проведения испытаний;
Провести испытания. Обработать результаты, и сделать заключение о степени достоверности полученных объективных оценок качества и правильности выбора тех или иных научно-исследовательских и прикладных решений.
Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки звуковых сигналов, программирование на языках С и C++, программное обеспечение «Mathcad», математическая статистика, математический анализ и субъективно-статистические экспертизы. Научная новизна и новые полученные результаты: 1. Показано, что имеющееся метрологическое оборудование не всегда позволяет осуществлять оперативный и достоверный контроль качества оборудования, используемого для передачи, записи и воспроизведения цифровых ау-
8 диосигналов. Наиболее остро данная проблема стоит в области объективной оценки качества кодеков с компрессией цифровых аудиоданных. Обоснована целесообразность её решения с помощью перцепционных методов1, построенных на основе моделирования свойств слуховой системы и процессов восприятия искажений человеком;
Рассмотрены различные способы построения перцепционных методов объективной оценки качества кодеков с компрессией цифровых аудиоданных. Осуществлен обоснованный выбор методов оценки величины отдельных видов искажений, обусловленных компрессией цифровых аудиоданных. В результате доработки и уточнения, лежащих в их основе процедур, разработана модель психоакустического анализа для многомерной оценки качества звучания и выбрана искусственная нейронная сеть для последующего перехода к обобщённой его оценке одним числом в соответствии с пятибалльной шкалой, рекомендуемой ITU-R при проведении субъективно-статистических экспертиз;
На основе выполненных в работе исследований закономерностей слухового восприятия разработан алгоритм перцепционного метода объективной оценки качества кодеков с компрессией цифровых аудиоданных, объединивший в себе наиболее достоверные способы оценки, как отдельных типов искажений, так и их совокупного влияния на обобщённую оценку качества;
Разработана и реализована программа оценки качества кодеков с компрессией цифровых аудиоданных. Структура программы, а также использованный при её написании язык С, сделали возможным её применение не только в научно-исследовательских, но и в сугубо прикладных целях, т.е. как законченный программный продукт;
Сформулирован способ проверки достоверности результатов, получаемых с помощью программы оценки качества. Сформирован набор тестовых
Перцепционный — относящийся к восприятию. Перцепция (от лат. perception — понимание, познавание) — отражение непосредственно воздействующих на органы чувств предметов и явлений реального мира. В данном случае имеется в виду восприятие человеком звуковых сигналов.
9 сигналов. Проведены испытания, доказывающие правильность принятых научных и технических решений.
Практическая значимость работы заключается в следующем:
Разработан метод объективной оценки качества кодеков с компрессией цифровых аудиоданных, позволяющий осуществлять оперативный контроль качества кодеков с компрессией цифровых аудиоданных и с достаточной для практики точностью (не превышающей доверительный интервал субъективно-статистической экспертизы) предсказывать результаты субъективно-статистической экспертизы;
На основе предложенного метода разработано и внедрено программное обеспечение, позволяющее организовывать автоматический контроль качества кодеков с компрессией цифровых аудиоданных;
Сформирован набор «критических» с точки зрения слухового восприятия звуковых сигналов, рекомендуемых для проверки качества кодеков с компрессией цифровых аудиоданных;
Проведены испытания, подтверждающие достоверность получаемых с помощью разработанной программы результатов оценки качества кодеков с компрессией цифровых аудиоданных.
Внедрение результатов исследований. Результаты исследований использовались в ФГУП «Ленинградский отраслевой научно-исследовательский институт связи» (ЛОНИИС) и в ОАО НИИ «Дигитон» при испытаниях кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 210405 - «Радиосвязь, радиовещание и телевидение» и 210312 - «Аудиовизуальная техника», что подтверждено соответствующими актами внедрения. Положения, выносимые на защиту: 1. В основу оценки качества кодеков с компрессией цифровых аудиоданных положен разработанный в диссертации алгоритм перцепционного метода объективной оценки качества. Совместное использование в нём наиболее эффективных способов оценки величины, как отдельных видов искажений, так и
10 их совокупности позволяет получать обобщённые оценки качества, совпадающие (в пределах доверительного интервала) с результатами субъективно-статистических экспертиз;
Психоакустическая модель, в которой учитывается передаточная функция слуха, собственные шумы слуховой системы и эффекты маскировки, а также рассчитываются величины отдельных видов искажения, возникающих при компрессии цифровых аудиоданных, и искусственная нейронная сеть, предназначенная для перехода от многомерного показателя качества к его обобщённой оценке одним числом, сделали возможным создание адекватного слуховому восприятию перцепционного метода объективной оценки качества кодеков с компрессией цифровых аудиоданных;
Программа оценки качества кодеков с компрессией цифровых аудиоданных, созданная на основе разработанного метода, является пригодной как для проведения научных исследований, так и для решения конкретных практических задач, т.е. представляет собой законченный программный продукт;
Результаты объективной оценки качества кодеков с компрессией цифровых аудиоданных, полученные с помощью разработанного программного продукта, лежат внутри доверительного интервала субъективно-статистических экспертиз, рассчитанного для значения вероятности 0,95. Данный результат свидетельствует об успешном решении поставленных в рамках диссертационной работы задач, а также и о перспективности перцепционных методов объективной оценки качества.
Апробация результатов работы и публикации. Полученные в работе результаты докладывались и обсуждались на научно-технических конференциях профессорско-преподавательского состава СПбГУТ им. проф. М.А. Бонч-Бруевича в Санкт-Петербурге.
По тематике диссертационной работы опубликовано 6 печатных работ, включая 4 публикаций в виде тезисов докладов и 2 статьи в журнале «Труды учебных заведений связи».
Структура и объем диссертационной работы. Работа состоит из введения, четырех глав, заключения, списка принятых сокращений, списка литературы и приложения. Первая глава является вводной. В ней определена область исследований - оценка качества кодеков с компрессией цифровых аудиоданных; сделан обзор соответствующих публикаций; приведена разносторонняя классификация методов оценки качества; перечислены существующие проблемы и указаны возможные пути их разрешения; сформулированы цель и задачи научных исследований, проводимых в рамках данной диссертационной работы. Во второй главе осуществляется изложение идеи построения метода оценки качества на основе моделирования работы слуховой системы человека (перцепционные методы объективной оценки качества). Описываются различные способы построения перцепционных методов. Приводится хронология развития данных методов. Рассматриваются и анализируются различные свойства слуха, модели восприятия искажений и психоакустические модели. Перечисляются достоинства и недостатки существующих перцепционных методов объективной оценки качества. Третья глава посвящена разработке и программной реализации перцепционного метода объективной оценки качества кодеков с компрессией цифровых аудиоданных Здесь формулируются требования к создаваемой программе оценки качества и рассматривается реализованный в ней алгоритм перцепционного метода оценки качества кодеков с компрессией цифровых аудиоданных. В четвертой главе приводятся результаты испытаний разработанной программы оценки качества и делаются выводы о достоверности получаемых с её помощью оценок.
Работа содержит 206 листов, 47 рисунков, 4 таблицы, 158 формул. В списке литературы 150 наименований. Приложение размещено на компакт диске.
Перцепционные методы объективной оценки качества
Неполнота, а для случая использования компрессии аудиоданных, и недостоверность результатов, получаемых с помощью существующих МООК, вынуждают разработчиков искать принципиально новые подходы, используемые при их разработке. В то же время, применение наиболее достоверных ССЭ осложнено рядом трудноразрешимых проблем, что делает их непригодными для целого ряда случаев.
Такое состояние дел в сфере оценки качества привело к необходимости разработки принципиально новых объективных методов оценки качества кодеков с компрессией цифровых аудиоданных. Они должны позволять с достаточной точностью предсказывать результаты ССЭ (оценивать воспринимаемое человеком качество в баллах) и при этом быть дешёвыми, информативными и пригодными для организации оперативного контроля качества. Одним из наиболее перспективных направлений в сфере создания подобного рода измерительного оборудования является попытка организации объективных измерений на основе учёта закономерностей и свойств слуха. Исследованием особенностей слуха занимается раздел психофизики - психоакустика1. Она представляет собой область науки граничную между техникой связи и физикой, с одной стороны, и биологией - с другой [9]. Судя по всему, исходя из этих соображений, объективные методы, построенные на основе учёта свойств слуха, в ряде литературных источников [119] получили название «психоакустические». Другим, широко используемым в англоязычной литературе названием для МООК данного типа является «perceptual measurement method» (относящийся к восприятию, перцепционный метод измерения). В общем случае, термин перцепционный может быть связан с любым видом восприятия человеком окружающего мира, например зрением или осязанием. В данном же, конкретном случае понятие перцепционный имеет отношение к слуховому восприятию.
При дальнейшем освещении проблемы организации оценки качества, для удобства, будет использоваться термин перцепционный метод объективной оценки качества кодеков с компрессией цифровых аудиоданных (ПМООК), подразумевая под ним те объективные измерения, при организации которых в той или иной мере учитываются свойства слуховой системы человека, а получаемый результат представляет собой предсказанное значение субъективной оценки качества. Описанию именно такого рода методов посвящен данный раздел главы и вторая глава целиком.
Главной идеей, положенной в основу ПМООК, является попытка предсказания субъективной оценки. Она осуществляется посредством моделирования физиологических и психических процессов, протекающих в слуховой системе человека. Предполагается, что данный метод позволит не только осуществлять оперативный контроль качества, но и получать более широкую информацию о размере, типе и заметности присутствующих в сигнале искажений. По аналогии с термином «субъективная оценка качества» (Subjective Difference Grade (SDG)), при объективных измерениях, как правило, используется термин «объективная оценка качества» (Objective Difference Grade (ODG)). ODG должна с достаточной точностью совпадать с SDG.
Идея создания такого метода была впервые опубликована в 1979 году M.R. Schroder, B.S. Atal и J.L. Hall [17]. В их работе, которая главным образом посвящена кодированию речи, был представлен алгоритм измерения «Noise Loudness (NL)» («Громкости шума»), В его основу положена идея оценки воспринимаемой громкость шума, вносимого в эталонный сигнал тестируемым устройством (см. рис. 1.1). Однако никакого суммарного значения, характеризующего заметность шума на протяжении всего сигнала, не вычислялось.
В 1984 году М. Karjalainen опубликовал метод измерения «Auditory Spectral Difference (ASD)» («Воспринимаемое на слух отличие спектров») [18]. При его разработке автор использовал ряд идей M.R. Schroder, B.S. Atal и J.L. Hall, в которые привнес свои изменения и дополнения. При этом никакого суммарного качества всего речевого сигнала не вычислялось.
В 1987 году К. Brandenburg опубликовал разработанный им метод измерения «Noise to Mask Ratio (NMR)» («Отношение шум к маске») [19]. Он был разработан как инструмент для усовершенствования алгоритма кодирования звука. Предложенная схема измерения является первой, которая была реализована аппаратными средствами и могла работать в режиме реального времени.
В 1988 году Moore и Glasberg [20] представили свою психоакустическую модель, но при этом не дали точного определения способа оценки воспринимаемого качества искаженных аудиосигналов.
В 1992 году в журнале AES (Audio Engineering Society) были опубликованы две статьи, в которых рассматривалась проблема объективной оценки качества с использованием знаний особенностей слуховой системы человека. В первой статье [31] авторы предложили алгоритм PERCEVAL (Perceptual evaluation - «перцепционная оценка»), который на основе сравнения эталонного сигнала и шума, присутствующего в исследуемом сигнале, оценивает вероятность заметности шума. Однако данный алгоритм может быть использован только для оценки заметности аддитивных шумов.
Во второй статье [32] был предложен ГТМООК названный PAQM (Perceptual audio quality measure - «перцепционное измерение качества звучания»). Данный алгоритм также работает с эталонным и исследуемым сигналами (см. рис. 1.1). В нём вычисляется «внутренние представления» входных сигналов, что, по мнению авторов, лучше соответствует слуховому восприятию. На основе сравнения «внутренних представлений» эталонного и исследуемого сигналов осуществляется оценка заметности искажений.
Кроме упомянутых ПМООК в журнале AES было опубликовано множество статей и тезисов, посвященных способам оценки качества звучания, построенных на основе психоакустических моделей слуха [33]-[39].
Вопросами международной стандартизации ПМООК в рамках Международной комиссии по электросвязи ITU (International Telecommunications Union) занимаются две группы экспертов.
Моделирование свойств слуха и оценка отдельных видов искажений
Теоретически, использование функциональной модели позволяет создать идеальную модель, которая бы позволяла учесть все слуховые явления, которые только могут возникать в ходе восприятия звуковых колебаний. Однако реализация такой идеальной модели представляется невозможной, так как для этого потребовалась бы чрезмерно большая вычислительная мощность. Кроме этого, на практике, не возможным является реализация в полном объёме всех физиологических процессов, протекающих в слуховой системе человека.
Эвристические модели в этом отношении являются более практичными, так как подразумевают моделирование ограниченного числа слуховых явлений. В связи с этим их реализация представляется вполне реальной, и для неё не требуется чрезмерно большая вычислительная мощность. Ещё одним достоинством использования подобного рода моделей является тот факт, что они позволяют добиться очень высокой точности при моделировании отдельных специфических слуховых явлений. Однако чем большее количество слуховых явлений необходимо учесть в такой модели, тем труднее становиться её реализация. Кроме того, совместное использование эвристических моделей, построенных для отдельных слуховых явлений, может привести к ситуации, когда данные модели будут противоречить друг другу.
В связи с этим, подавляющее большинство перцепционных моделей, используемых при оценке качества, строится как на основе моделирования физиологических процессов, протекающих в слуховой системе, так и на основе учета результатов субъективных испытаний. Среди двух основных подходов, используемых при разработке ПМООК (см. разд. 1.5), концепция сравнения внутренних представлений в большей степени относится к типу функциональных моделей, а концепция порога маскировки к типу эвристических моделей.
Концепция порога маскировки (см. разд. 1.5) использовалась в ранних ПМООК, подобных описанным в [135] и NMR [121]. В этих ПМООК сигнал искажений, который представляет собой разницу между исследуемым и эталонным сигналами, сравнивается с порогом маскировки, вычисляемым для эталонного сигнала (см. рис. 1.5). На основе данного сравнения делается выводы о заметности присутствующих в исследуемом сигнале искажений. Основным достоинством использования данной концепции при построении ПМООК является возможность получения параметров модели непосредственно из результатов субъективных испытаний, в которых оценивался эффект маскировки. Кроме этого, данная модель может, без особых изменений, использоваться в алгоритмах кодирования звуковых сигналов. Недостатком подобного рода моделей является невозможность учёта с их помощью более сложных слуховых явлений, которые являются существенными при оценке качества.
Концепция сравнения внутренних представлений (см. разд. 1.5, рис. 1.6), предложенная в [18], на сегодняшний день используется в большинстве современных ПМООК, таких как PAQM, PERCEVAL, DIX и PEAQ (см. разд.2.2). В её основу положена процедура вычисления возбуждения для эталонного и исследуемого сигналов. На основе сравнения этих возбуждений осуществляется оценка заметности присутствующих в исследуемом сигнале искажений. Данная концепция в большей степени использует функциональную модель слуховой системы, чем концепция порога маскировки, что позволяет с её помощью осуществлять моделирование более сложных слуховых явлений.
Ряд слуховых явлений, например, восприятие основной гармоники, могут быть смоделированы с помощью более простого подхода, при котором используется линейная шкала частот, а не шкала частот, соответствующую базилярной мембране. Такой подход, в некотором смысле, может рассматриваться как третий способ построения ПМООК. В ряде литературных источников он упоминается как спектральный анализ искажений (spectral analysis of errors) [149]. Очевидно, что данная концепция очень далека от функциональных моделей, и достоверный ПМООК не может быть построен только на её основе. Однако она может послужить полезным дополнением к вышеупомянутым двум основных концепциям, поскольку позволяет получить такую информацию относительно искажений, которую сложно вычислить в рамках других концепций.
В данном разделе будут описаны основные свойства слуховой системы, которые уже упоминались выше, и различные варианты их моделирования. При этом будут приведены и, по возможности, отображены в виде графиков различные варианты аппроксимации тех или иных закономерностей функционирования слуховой системы человека. Порог слышимости в покое (абсолютный порог слышимости)
Порогом слышимости в покое называют линию, отделяющую уровни слышимых в тишине звуков от неслышимых [8]. В [25] абсолютный порог аппроксимирован формулой (2.20) (рис.2.4).
Данная аппроксимация широко используется в ПМООК. Она включает в себя три составляющие: первая определяет уменьшение чувствительность слуха в области низких частот, вторая повышение чувствительность в области частот около ЗкГц, и третья составляющая определяет уменьшение чувствительности в области высоких частот (рис.2.4). Низкочастотный спад чувствительности слуха, как правило, объясняется влиянием собственных шумов слуховой системы. В свою очередь два оставшихся компонента характеризуют неравномерность передаточной характеристики среднего уха. В связи с этим, в перцепционных моделях данное уравнение, как правило, разделяют на две части, одну из которых относят к внутренним шумам, а другую к передаточной характеристике слуха.
Библиотека метода объективной оценки качества
Если порог маскировки формируется несколькими маскерами, то оценка общего порога маскировки для всего многокомпонентного сигнала на основе порогов для отдельных компонент является весьма сложной задачей. Аналогичная проблема возникает при вычислении возбуждений в модели Zwicker [8]. Согласно ей побочные возбуждения определяются порогами при маскировке (см. разд.2.3.1).
Предположение, что общий порог для многокомпонентного сигнала вычисляется путем сложения порогов или путем взятия максимального значения порогов, обусловленных отдельными компонентами, не получило опытного подтверждения [127]. Фактически порог при маскировке, произведенный многокомпонентным сигналом, намного выше, чем сумма порогов, произведенных отдельными его компонентами. Для некоторой группы сигналов зависимость между индивидуальными порогами отдельных компонент сигнала и общим порогом для всего многокомпонентного сигнала может быть аппроксимирована степенным законом (2.45) [127]. Если быть более точным, то в соответствии с [127] значение степени в формуле (2.45) должно быть подобрано отдельно для каждого вида сигналов.
В [8] E. Zwicker показано, что пороги при маскировке складываются не как интенсивности, а скорее - как амплитуды. Этому утверждению соответствует степень в формуле (2.45) а = 0.5. В методе PEAQ [9] использовалось значение а = 0.4. В целом, на сегодняшний день нет общей формулы для перехода от порогов компонентов сигнала к общему порогу.
Громкость - это одна из наиболее важных характеристик воспринимаемого человеком звука, которой в психоакустике традиционно уделялось большое внимание. Во многих ПМООК используются идеи, которые берут своё начало из модели восприятия громкости, в частности из модели, предложенной Е. Zwicker [8]. Более подробно вопрос вычисления громкости сигнала был рас 68 смотрен выше (см. разд.2.3.1), здесь же будет описан алгоритм расчёта громкости частично маскированного сигнала. В ПМООК данный алгоритм применяется для оценки громкости аддитивных шумов, присутствующих в исследуемом сигнале и маскируемых эталонным сигналом.
Наиболее важной характеристикой искажений является их громкость. Поскольку искажения, как правило, находятся вблизи порога слышимости при маскировке, то они являются частично замаскированными эталонным сигналом. Таким образом, достоверный механизм расчёта громкости частично замаскированных искажений должен стать неотъемлемой частью ПМООК. Первые способы вычисления громкости частично замаскированного сигнала [17], [50], построенные на основе результатов простых психоакустических экспериментов, не позволяют получить результаты, которые бы хорошо коррелировали с субъективными оценками. Используемая в DIX [39] процедура оценки громкости частично маскированного аддитивного шума, судя по всему, была разработана на основе общей теории вычисления удельной громкости предложенной Е. Zwicker [8]. Она удовлетворяет основным требованиям, касающимся оценки удельной громкости, т.е. в случае, когда маскер отсутствует, или же уровень искажений намного превышает уровень маскера, вычисляемая с помощью данной процедуры удельная громкость совпадает с результатами, получаемыми с помощью проверенного на практике общего алгоритма оценки удельной громкости сигнала (см. разд.2.3.1). Ниже приводится попытка объяснить с позиции психоакустической модели Е. Zwicker используемую в DIX и PEAQ процедуру оценки громкости частично маскированных шумов, присутствующих в исследуемом сигнале и частично маскируемых эталонным сигналом.
Общая формула для вычисления удельной громкости сигнал по его возбуждению (2.3), предложенная Zwicker [8], может быть представлена в виде 69 Величина Etf,res - порог слышимости в покое играет различную роль в первом и втором сомножителях уравнения (2.46). В первом сомножителе Ethres используется для вычисления удельной громкости на пороге слышимости, т.е. для вычисления частотнозависимого коэффициента, характеризующего удельную громкость, обусловленную основным возбуждением, вызванным собственными шумами слуховой системы. Во втором сомножителе Ethres используется как маскер. В данном случае разность Е - Е гез представляет собой разность возбуждений, вызванных полным сигналом (маска плюс маскер, т.е. сигнал плюс собственные шумы слуховой системы) и только маскером (только собственными шумами слуховой системы). Исходя из смысла используемых в формуле (2.46) величин можно записать её для случая частично маскированного сигнала. В данном случае разность Е - Et res должна быть заменена разностью возбуждений, вызванных исследуемым (маскер плюс маска) и эталонным (маскер) сигналами (2.47).
Приложение для операционной системы Windows
Величина удельной громкости, как правило, рассчитывается для адаптированных по уровню образцов возбуждения. Процедура адаптации позволяет отделить линейные и нелинейные искажения. В связи с этим получаемая удельная громкость относится к аддитивным (нелинейным) искажениям и называется «удельная громкость аддитивных искажений» (Partial Loudness of Additive Distortions). Недостатком данной процедуры оценки удельной громкости аддитивных искажений является тот факт, что она справедлива не для всех вариантов различий модуляции и возбуждения эталонного и исследуемого сигналов. Так, если в любой из анализируемых полос частот исследуемый сигнал является более модулированным, чем эталонный сигнал, а его локальное возбуждение является меньшим, чем у эталонного сигнала, то эти два различия сигналов могут скомпенсировать друг друга при вычислении удельной громкости из-за элемента формулы (2.50) - stest Etest - sref- Erer. Аналогичная ситуация может произойти и при обратном соотношении величин модуляции и возбуждения. Однако этого не случается до тех пор, пока предположение об аддитивности искажений является справедливым.
До сих пор рассматривалась оценка компонентов присутствующих в исследуемом сигнале и отсутствующих в эталонном. Другим случаем является оценка громкости компонент, отсутствующих в исследуемом сигнале, но присутствующих в эталонным, так называемая, «громкость отсутствующих компонент» (Partial Loudness of Missing Components). В данном случае необходимо в уравнении (2.50) поменять местами эталонный и исследуемый сигналы.
Оба критерия, удельная громкость присутствующих и удельная громкость отсутствующих компонент, могут быть сведены к единому критерию оценки удельной громкости аддитивных искажений посредством взвешенного суммирования. Временная маскировка
В ходе исследований Е. Zwicker было установлено, что эффекты временной маскировки нельзя характеризовать только инерционностью слуховой системы человека. В действительности они намного сложнее [8]. Естественно что, при моделировании эффектов временной маскировки, впрочем, как и при моделировании всей слуховой системы, используются упрощенные модели, которые, однако, позволяют получать хорошие результаты.
Как было отмечено выше, временную маскировку подразделяют на два вида: послемаскировку и предмаскировку. Кривые изменения порога слышимо 73 сти при временной маскировке, за исключением некоторых особенностей, имеют схожий вид как для послемаскировки так и для предмаскировки. В обоих случаях они представляют собой плавный переход от порога слышимости при маскировки к порогу слышимости в покое для случая послемаскировки и обратный переход для случая предмаскировки. Различия этих кривых заключаются во временных параметрах данного перехода, а так же в незначительном изменении хода кривых временной маскировки в области нулевых временных интервалов между маской и маскером, т.е. когда маска вплотную прилегает к маскеру [8].
Для предмаскировки середина перехода от абсолютного порога слышимости к порогу маскировки лежит в области задержек от -20 до -10 мсек (начало отсчета времени совпадает с началом маскера, поэтому значения времени отрицательные) [8]. В случае послемаскировки середина перехода от порога при маскировке к абсолютному порогу слышимости лежит в области задержек от 30 до 40 мсек [8]. Отсюда можно сделать вывод, что начало маскера ухудшает слышимость маски меньше, чем его окончание. Длительности задержек, после которых эти влияния возникают, примерно одинаковы [8].
Поскольку кривые порогов слышимости при временной маскировке характеризуют особенности изменения во времени порогов слышимости при частотной маскировке, то они же используются для моделирования изменения кривых возбуждения во времени. Напомним, что кривые возбуждения рассчитываются на основе порогов слышимости при частотной маскировке. Отметим, что в ряде ПМООК вообще отсутствует процедура явного моделирования эффектов временной маскировки. В таких методах она, хотя и очень грубо, учитывается за счёт ограниченной разрешающей способности ПМООК во времени. Как правило эффект временной маскировки моделируется с помощью фильтра нижних частот (ФНЧ). Реализация данного фильтра должна не только соответствовать параметрам слуховой системы, но и быть не слишком сложной, чтобы не привести к неоправданному увеличению требуемой для реализации ПМООК вычислительной мощности.