Содержание к диссертации
Введение
1 Критерий оценки качества изображения 9
1.1 Проблема 9
1.2 Обзор существующих критериев 12
1.2.1. Пиковое отношение сигнал/шум (12).
1.2.2. Современные критерии оценки качества изображения
1.3 Разработка новых математических критериев 16
1.3.1. Критерий сглаженных градиентов SGC (16).
1.3.2. Критерий сглаженной адаптации SAC (18).
1.3.3. Перспективы (19)
1.4 Тестирование критериев 21
1.4.1. Базы изображений (21).
1.4.2. Сравниваемые критерии (21).
1.4.3. Общепринятая методика тестирования (21).
1.4.4. Ранжирование по среднему месту (23).
1.4.5. Ранжирование по среднему PLCC (24).
1.4.6. Выводы (25)
1.5 Результаты главы 26
2 Базы тестовых изображений 27
2.1 Введение 27
2.1.1. Создание базы (27).
2.1.2. Рекомендации (28)
2.2 Обзор существующих баз 29
2.2.1. База TID2008 (31).
2.2.2. База LIVE (34)
2.3 Объединение баз 35
2.3.1. Экспертные и критериальные оценки (35).
2.3.2. Наглядная работа критерия качества (43).
2.3.3. Регрессии (48).
2.3.4. Объединение баз (50)
2.4 Тестирование критериев 52
2.5 Результаты тестирования 53
2.5.1. Сравнение по отношению стандартов (54).
2.5.2. Сравнение по коэффициентам корреляции (54).
2.5.3. Условные субъективные оценки (54)
2.6 Результаты главы 55
3 Улучшения кодека JPEG 56
3.1 Выбор направления 56
3.2 Стандартный кодек JPEG 57
3.2.1. Описание алгоритма (57).
3.2.2. Реализация программы (61)
3.3 Матрица квантования 61
3.3.1. Стандартный размер (61).
3.3.2. Произвольный размер (62).
3.3.3. Преимущество (63)
3.4 Алгоритм BigJPEG 64
3.4.1. Обоснование алгоритма (64)
3.4.2. Программная реализация (65).
3.4.3. Методика сравнения (66).
3.4.4. Анализ результатов (66).
3.4.5. Демонстрация на изображениях (71).
3.4.6. Выводы (86)
3.5 Алгоритм JPEG-IT 86
3.5.1. Описание (86).
3.5.2. Методика сравнения (87).
3.5.3. Анализ результатов (88).
3.5.4. Демонстрация на изображениях (90).
3.5.5. Выводы (95)
3.6 Результаты главы 95
4 Фурье-аппроксимация гладких непериодических функций 96
4.1 Проблема 96
4.2 Сходимость рядов Фурье 97
4.3 Одномерный случай 100
4.3.1. Эффект Гиббса (100).
4.3.2. Чётное продолжение (100).
4.3.3. Нечётное продолжение (100)
4.3.4. Дальнейшее повышение гладкости (101).
4.3.5. Простое продолжение высокой гладкости (101)
4.4 Двумерный случай 106
4.4.1. Классическое продолжение (107).
4.4.2. Чётное продолжение (108).
4.4.3. Нечётное продолжение (108)
4.5 Усечение ряда Фурье 109
4.5.1. Усечение по квадрату (109).
4.5.2. Усечение по треугольнику (110).
4.5.3. Оптимальное усечение (110).
4.5.4. Построение гиперболического усечения (112)
4.6 Нечётное продолжение в сжатии изображений 115
4.6.1. Чётное продолжение (115).
4.6.2. Простое нечётное продолжение (116).
4.6.3. Устранение блочного эффекта (117).
4.6.4. Нечётное продолжение со сглаживанием (117).
4.6.5. Результаты численных расчётов (118)
4.7 Обобщения 119
4.7.1. Сеточная функция (119).
4.7.2. Неравномерные сетки (119).
4.7.3. Гистограммы (119)
4.8 Результаты главы 120
Заключение 121
Список рисунков 127
Список таблиц 128
Литература 129
- Современные критерии оценки качества изображения
- Экспертные и критериальные оценки (35).
- Произвольный размер (62).
- Простое продолжение высокой гладкости (101)
Современные критерии оценки качества изображения
Разработка критериев IQA (image quality assesment — оценка качества изображения) — это относительно новая область исследований. Активные работы в данном направлении ведутся с начала 2000-х годов [6, 9, 10, 17, 18]. Поскольку в большинстве случаев человек является конечным пользователем алгоритмов обработки и передачи изображений, то самый надёжный способ оценки качества изображений — это субъективная оценка. Действительно, средняя экспертная оценка (MOS — mean opinion score) давно признана лучшим способом измерения качества изображения. Однако сбор экспертных оценок , как правило, занимает много времени и дорог.
Задача разработки критерия IQA заключается в разработке математической модели, которая способна предсказывать воспринимаемое качество изображения точно и без настроек на конкретную ситуацию. Алгоритм должен прогнозировать то качество изображения, которое в среднем сообщает эксперт. Успешное развитие таких критериев оценки имеет большую перспективу во многих прикладных задачах. Например, в автоматизированных системах передачи изображений или видео. Система автоматически подбирает приемлемое качество в зависимости от загруженности линий связи. Другая область — это тестирование алгоритмов обработки изображений. К ним относятся алгоритмы сжатия, шумоподавления, повышения качества, стеганографии и другие.
Пиковое отношение сигнал/шум. Самый простой и, к сожалению, всё ещё широко распространённый критерий IQA — среднее квадратичное отклонение (СКО) или mean opinion score (MSE), которое определяется по формуле
Метрики (1.1) и (1.2) вычисляются просто. К тому же MSE имеет понятное физическое определение — это энергия ошибки в сигнале. Тем не менее, MSE и PSNR уже давно критикуют за плохую связь с воспринимаемым качеством изображения. Простой пример из [10] показан на Рис. 1.4. Изображения (a)–(g) имеют одинаковый MSE, тем не менее визуально они сильно отличаются. В то же время изображения (h)–(j) воспринимаются одинаково, хотя значения MSE существенно отличаются. Рисунок 1.4 — Изображения Einstein с наложением различных искажений: (a)
Вопрос об использовании MSE поднимался уже довольно давно [19]. MSE не вполне соответствует человеческому восприятию качества изображения. Человеческое зрение обладает многими психофизическими и психологическими особенностями, которые трудно учесть в математическом критерии. В [20] описаны связи между основными факторами визуального восприятия и процесс зрительного мышления человека с точки зрения психологии. Все эти факторы трудно учесть в формальном критерии IQA. Тем не менее на данный момент предпринято множество попыток построить модели зрительной системы человека (HVS — human visual system). Рассмотрим наиболее популярные разработки. UQI — universal quality index. Среди первых разработок быстро набрал популярность «универсальный индекс качества изображения» (UQI) [17]. Под словом «универсальный» авторы понимают то, что методика оценки качества не зависит от тестируемого изображения, от условий наблюдения или индивидуальных особенностей зрителя.
Этот критерий имеет более сложное устройство в сравнении c MSE. Метрика UQI — это комбинация трёх различных факторов: где х и у — начения средней яркости оригинального и искажённого изображений, о2х и а2 — несмещённая дисперсия яркости тех же изображений, а Gxy — ковариация яркости (линейная зависимость яркости двух изображений). В общем виде два произвольных фактора (множителя) содержат свой вес (показатель степени), который по умолчанию = 1.
Первый множитель в (1.3) определяет корреляцию яркости двух изображений. Второе слагаемое определяет близость средней яркости изображений, а третий — подобие контрастов изображений. Вычисления делаются скользящим окном (рекомендуемый размер — 8x8 пикселей) по всему изображению по формуле (1.3). Результаты каждого окна суммируются и усредняются. Полученное число является оценкой качества изображения Y в сравнении с изображением X. Каждый из множителей имеет свой вес, хотя разработчики рекомендуют использовать одинаковые веса для каждого множителя. Поэтому данный критерий имеет 3 свободных параметра: веса двух множителей и размер скользящего окна.
На момент публикации критерия UQI не было хороших наборов тестовых изображений. В небольшом эксперименте [17], было показано превосходство новой разработки над MSE.
SSIM — Structural SIMilarity. Авторы UQI продолжили работы в этом направлении и через некоторое время был опубликован новый критерий SSIM — «индекс структурного подобия» [18]. Эта разработка идейно основана на метрике UQI. Значения SSIM определяются следующей формулой
Техника тестирования критериев IQA становится более системной и критерии UQI и SSIM проходят более «жёсткий» отбор. Тестирование делается на большем наборе изображений с различными видами искажений. Сравнение критериев показывает превосходство SSIM над UQI. По реализации они сопоставимы, но последний уже содержит 5 подгоночных параметров: 3 из UQI и ещё два дополнительных.. MSSIM — multi-scale structural similarity. Улучшенная версия SSIM была анонсирована в [21]. Предлагается многоуровневый критерий структурного подобия — MSSIM. Идея состоит в том, чтобы учитывать расхождения в крупных и мелких масштабах (деталях) с различными коэффициентами значимости. Алгоритм наглядно показан на Рис. 1.5.
Рисунок 1.5 — Схема работы алгоритма MSSIM. L: фильтр нижних частот, 2:уменьшение изображения в 2 раза
На схеме видно, что изображение разбивается на уровней. При переходе на следующий уровень применяется низкочастотный фильтр и делается передискретизация изображения. То есть на каждом уровне получается изображения содержащие в 2 раза меньше пикселей по вертикали и по горизонтали. Для каждого изображения вычисляется SSIM по (1.4). Итоговая оценка вычисляется как комбинация значений SSIM, полученных на разных уровнях.
Этот алгоритм более сложен в сравнении с предшественниками. В нём содержится гораздо больше свободных параметров. На каждом уровне фактически вычисляется свой SSIM со своими подгоночными параметрами. Дополнительными параметрами являются настройки низкочастотного фильтра, величины прореживания и коэффициент значимости SSIM для текущего уровня. То есть к пяти параметрам SSIM добавляются ещё три на каждом уровне. В итоге алгоритм с числом уровней имеет 8 подгоночных параметров.
IW-SSIM — information content weighted structural similarity. Относительно недавно был опубликован новый критерий оценки качества IW-SSIM [22], улучшающий показатели предыдущих версий. Он имеет более сложную реализацию. Опишем его только поверхностно, останавливаясь лишь на основной идее.
Этот критерий основан на предшественниках SSIM и MSSIM. Главная идея его в том, чтобы избирательно подходить к оценки искажений в разных областях изображения. Важность и значимость оценок отдельных фрагментов изображения должна быть пропорциональна их информационной нагрузке. Чем больше во фрагменте информации, тем весомее должно быть влияние искажений на общее качество изображения. На базе этого подхода также строятся усовершенствованные версии критерия PSNR.
Тестирование этого критерия более состоятельны. Они сделаны на 6 специально подготовленных базах тестовых изображений. Гипотеза о принципе избирательной оценки качества, обозначенная в работе, подтверждается численными расчётами в [22].
VIF — visual information fdelity. Принципиально новый алгоритм предложен в [23]. Критерий достоверности визуальной информации VIF подсчитывает количество информации по Шенону, которое содержится в оригинальном и искажённом изображениях. Основный принцип заключается в том, что человек по-разному оценивает искажения, касающиеся яркости, контраста, деталей изображения, цветовых компонент и прочего. Поэтому для оценки качества изображения с разных сторон, необходимо делать декомпозицию. Изображение разбивают на отдельные составляющие и работают с каждой частью отдельно от другой. Процедура разделения является ключевой. Необходимо расчленять изображении так, как это делает человек. Алгоритм проверялся на базе тестовых изображений. В [23] проведено сравнение критерия VIF с другими критериями, известными на тот момент, и показано, что он входит в число лучших (при этом положение критерия в группе лидирующих оказывалось не одинаковым при тестировании на различных базах).
PSNR-HVS-M. Подход к оценке качества изображения, отличный от других, был предложен в работе [7]. Критерий работает не с яркостями пикселей изображения, а с коэффициентами разложения в ряд Фурье по косинусам (ДКП). Разложение делается поблочно для всего изображения; берётся блок размером 8x8 пикселей. Предложенная в [8] модель позволяет рассчитать максимальное значения отклонения коэффициента ДКП, которое будет не заметно человеку. Изменение каждого коэффициента ДКП компенсируется соседними так, что зрительно искажений не видно. Этот эффект оказывается весьма полезным в таких направлениях как стеганография, нанесение водяных знаков и прочего (см. [24]). Вместе с тем, критерий использует функцию чувствительности контраста, задаваемую в матричной форме, что позволяет учитывать изменение контрастов (см. [25]).
Критерий PSNR-HVS-M был протестирован на экспертной базе, специально подготовленной самими разработчиками [7]. Результаты тестирования сопоставлялись с работой наиболее распространённых критериев IQA. Анализ полученных результатов позволил констатировать, что предложенный критерий является лучшим на тот момент. Причём преимущество над ближайшим критерием существенно.
PSNR-HMA. На базе PSNR-HVS-M был разработан усовершенствованный критерий [26]. Идея, позволившая улучшить прежний критерий оценки качества, заключается в следующем. В результате экспериментов было выявлено, что человек слабо реагирует на искажения средней яркости или контраста изображения. Поэтому было предложено в искажённом изображении выравнивать яркость и контрастность по эталонному изображению.
Этот критерий был протестирован на большом числе изображений и показал лучшие результаты в сравнении с аналогами.
Другие критерии. В настоящее время существуют десятки критериев IQA. В рассмотренных сторонних работах убедительно показано, что лучшими являются критерии рассмотренные здесь подробно (PSNR-HVS-M, PSNR-HMA, IW-SSIM и VIF). Многие критерии имеют общедоступную программную реализацию. Коллекция таких критериев собрана в библиотеке Metrix-MUX [27], содержащей коды алгоритмов на языке MATLAB. Указанная библиотека использовалась нами при проведении численных экспериментов.
Экспертные и критериальные оценки (35).
Базы изображений. Обычно критерии оценки качества сравнивают на специально подготовленных базах тестовых изображений. Эти базы содержат наборы оригинальных изображений и соответствующие им искажённые изображения . Каждое искажённое изображение было оценено группой экспертов и ему соответствует своя усреднённая экс пертная оценка (MOS — mean opinion score) (, ). Коротко опишем некоторые базы (подробный обзор даётся в Главе 2).
Наиболее используемой является база LIVE [12]. Она состоит из 29 оригинальных изображений. В каждое изображение внесено в среднем по 27 искажений разных типов: сжатие двух типов и разных степеней, шум разной интенсивности, размытие и др. Качество искаженных изображений количественно оценивалось группой из 161 эксперта по 5-бальной шкале. Изображению приписывалась средняя арифметическая оценка. Хотя типы искажений недостаточно разнообразны, зато организация экспертных оценок проведена очень квалифицированно. Эта база нам представляется наиболее надёжной для сравнения критериев качества.
База TID2008 [11] построена на основе базы LIVE. Она включает почти все оригинальные и искаженные изображения из LIVE и еще такое же количество искажений других типов. Поэтому её объём вдвое больше, а типы искажений разнообразнее. Однако экспертная оценка была проведена, на наш взгляд, менее тщательно. Вместо количественной оценки эксперты ранжировали изображения по качеству, но поскольку на каждое изображение приходилось по 68 искажённых, то провести попарное сравнение каждый эксперт практически не мог. При этом группа состояла из 838 экспертов, но каждый из экспертов оценивал лишь часть материалов; поэтому результаты нельзя считать вполне сопоставимыми. В добавок, сравнение проводилось с экранов мониторов, что также ухудшает надёжность оценок.
Также используются базы Cornell A57 [16], IVC [14], Toyama–MICT [15], CSIQ [13] и другие (см. также [33]). При этом большинство из них по объему много меньше чем LIVE. Поэтому далее мы будем проводить сравнение критериев только на базах LIVE и TID2008.
Сравниваемые критерии. Тестирование было проведено для наиболее распро странённых критериев IQA. Их названия, ссылки на первоисточник, год создания и стра на приведены в Табл. 1.1. Критерии упорядочены в обратном хронологическом порядке их публикации. Аббревиатуры названия критериев и их расшифровки приводятся на ан глийском языке. Рядом с каждым критерием приведена ссылка на работу, в которой он впервые был приведён.
Новыми в таблице оказались два критерия, предложенных в данной работе (SGC и SAC). Это единственные отечественные разработки. Относительно недавними разработками являются четыре критерия, предложенные группой исследователей из Украины и Финляндии. Основная часть критериев разработана исследователями США. По годам публикаций видно, что работы в данном направлении ведутся активно, начиная с 2000-х годов.
Для последних трёх критериев приводятся только аббревиатура названия и расшифровка. Это хорошо известные критерии оценки качестве, применяемые в математике. Они давно активно используются исследователями и имеют широкое применение. Информация о первоисточниках не приводится, так как она в данном случае малозначима.
Линейный коэффициент корреляции. По массивам MOS и значений критерия оценки качества определяют корреляцию. Для этого вычисляют линейный коэффициент корреляции, предложенный Карлом Пирсоном. Обычно его обозначают аббревиатурой PLCC (Pearson s linear correlation coefcient). Для выборок случайных величин и он рассчитывается по формуле
Ранговый коэффициент корреляции. Часто приводят значения коэффициентов ранговой корреляции. Эти коэффициенты обычно применяются для оценки взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Каждому значению выборок и , состоящих из элементов, присваивают ранг. Ранг — это тот номер, под которым будет стоять данный элемент выборки, если её упорядочить по возрастанию или убыванию. Обе выборки упорядочивают единым образом. В результате получают два массива рангов и и оценивают их корреляцию.
Можно вычислить разности соответствующих рангов из и . Получим массив целых чисел , по которому вычисляют коэффициент ранговой корреляции Спирмена (SRCC — Spearman s rank correlation coefcient), используя формулу Если ранги полностью противоположны, то коэффициент SRCC даёт -1, и, наоборот, если ранги полностью совпадают, получаем +1. Это значит, что коэффициент корреляции SRCC определяет монотонность зависимости между А и В.
Другой коэффициент ранговой корреляции был предложен Кендаллом [38]. Его обозначают сокращённо KRCC — Kendalls s rank correlation coefcient. Сначала определяют количество инверсий, образованных величинами Ъг из выборки В, расположенными в порядке возрастания соответствующих щ из выборки А:
Этот коэффициент, также как и другие, принимает значения на отрезке [-1; 1]. Значения имеют такой же смысл как и для коэффициента ранговой корреляции Спирмена.
По полученным значениям коэффициентов корреляции судят о работе отдельного критерия оценки качества. Для выявления лучшего критерия, их упорядочивают по тем или иным коэффициентам корреляции.
Ранжирование по среднему месту. В ходе тестирования сравнивались 19 критериев качества, приведённых в Табл. 1.1. Для всех искажённых изображений данного оригинала вычислялось количественное значение каждого критерия. Затем для этого оригинала вычислялись коэффициенты парной корреляции Пирсона, Спирмена и Кендалла между значениями критерия и MOS. Наиболее требовательным является сравнение по Пирсону, поэтому в Табл. 1.2 приведены только эти значения. Тестирование по остальным коэффициентам даёт сходные результаты.
Для каждого критерия коэффициенты парной корреляции менялись от изображения к изображению. Поэтому по каждой базе вычислялись средние коэффициенты парной корреляции и их дисперсии. Значения этих средних и их стандартов (корней из дисперсий) приведены в Табл. 1.2.
Видно, что в базе LIVE стандарты составляют в основном 0,03, а в базе TID2008 они в 3-4 раза больше. Это указывает на существенно большую надёжность базы LIVE. Очевидно, чем меньше дисперсии, тем более достоверным является ранжирование критериев по данной базе. Если для каких-то критериев различие математических ожиданий заметно меньше их дисперсий, то ранжирование этих критериев ненадёжно.
Для ранжирования критериев внутри каждой базы применялась парная корреляция Пирсона. Некоторые критерии занимали близкие места в обоих базах, а некоторые -далёкие. Поэтому для окончательного ранжирования в Табл. 1.2 была взята полусумма мест в обеих базах и приведён её стандарт (полуразность мест). Для 12 критериев этот стандарт не превышает 3; эти критерии можно считать стабильно работающими на разных базах. Для таких критериев результатам их сопоставления на разных базах можно в достаточной мере доверять.
Произвольный размер (62).
Создание базы. Работа по подготовке наборов тестовых изображений оказывается очень трудоёмкой. Необходимо подготавливать набор оригинальных изображений высокого качества. В зависимости от задач, это может быть набор специальных узкопрофильных изображений или же естественные снимки. Нас интересуют естественные изображения, которые содержат пейзажи, людей, животных, городские виды и прочее.
Для каждого естественного изображения необходимо подготавливать набор искажённых изображений. Типы искажения многообразны: начиная от шумовых искажений разного рода и разной интенсивности, заканчивая экзотическими, которые актуальны в определённых областях цифровой обработки изображений. Желательно, чтобы каждый тип искажения был представлен в нескольких интенсивностях. Тем самым представительная база оказывается большой.
Чем больше будет подготовлено оригинальных изображений, тем дороже будет стоить сбор экспертных оценок. При этом тестирование критериев оценки качества будет объективнее. Получается неоднозначная ситуация, где разработчику тестовой базы необходимо выбрать разумный компромисс между количеством тестовых изображений и затратами на сбор экспертных оценок.
На первых этапах развития области оценки качества изображения, исследователи готовили небольшие тестовые наборы (до 20–30 искажённых изображений), а для экспертной оценки привлекали узкий круг людей (до 30–40 человек). Для этого достаточно посмотреть первые работы, где были предложены новые критерии оценки качества (см. Табл. 1.1 в Главе 1). Например, критерий UQI, предложенный в 2000 г., тестировался на одном оригинальном изображении с семью видами искажений одной интенсивности.
Со временем подход становился более системным. Начали создавать первые общедоступные базы тестовых изображений. Теперь любой исследователь может опробовать свой критерий оценки качества изображения по общепринятой методике. На общей базе тестовых изображений, можно также сравнить критерии между собой. Это позволяет вести более эффективную разработку критериев оценки качества изображения. К настоящему времени имеется несколько объёмных баз тестовых изображений. Зачастую они сильно отличаются друг от друга, по структуре, методам сбора экспертных оценок, типам искажений, набору эталонных искажений и другим характеристикам. Поэтому, проводя тестирование критериев на разных базах, можно получать разные результаты. В отдельных случаях результаты могут оказаться сильно разными. Такое встречается во многих зарубежных работах. Исследователи проводят тестирование своего критерия качества и сторонних на нескольких базах и получают результаты, которые нельзя однозначно интерпретировать.
Проблема сопоставления результатов тестирования критериев качества между базами нами уже поднималась в [30]. В Главе 1 описаны несколько возможных решений, предложенных нами. Это очень простые решения, которые дают почти одинаковые результаты. Однако эти методы не учитывают особенностей построения самих баз тестовых изображений, что влияет на достоверность выводов.
В данной главе предлагается идея объединения нескольких баз тестовых изображений. Методика объединения подробно описана и продемонстрирована на примере объединения двух наиболее представительных баз тестовых изображений TID2008 [11] и LIVE [12]. На объединённой базе мы провели тестирование наиболее распространённых критериев оценки качества, в том числе критерии предложенные в данной работе.
2.1.2. Рекомендации. Нами был проделан эксперимент по созданию своей базы тестовых изображений. Был сформирован набор из 4-х оригинальных изображений. Для каждого оригинала предлагалось 7 искажений разного рода. В качестве экспертов привлекалась группа студентов, которая должна была оценивать качество тестовых искажённых изображений.
На основе полученного опыта дадим некоторые рекомендации по созданию базы тестовых изображений.
Экспертная оценка. Разработка правил сбора экспертных оценок — важный этап работы. Для экспертов разрабатывается специальная инструкция. От выбора способов оценивания, подготовки шкалы оценивания напрямую зависит конечный результат. В итоге по экспертным оценкам необходимо получить количественную характеристику восприятия качества искажённого изображения.
Возможны как минимум три способа оценивания: количественный, качественный и смешанный. При количественном подходе эксперту предлагается оценить качество искажённого изображения в баллах. Такая оценка в достаточной мере субъективна: два эксперта одно и тоже искажённое изображение могут оценить разным баллом.
При проведении качественного оценивания, эксперт должен ранжировать несколько искажённых изображений по ухудшению качества. Такое ранжирование обычно менее субъективно. Разные эксперты ранжируют изображения почти одинаково (если интенсивности искажения не слишком близки). Но это ранжирование нужно переводить в количественные оценки. Процедура такого перевода математически не определена, что вносит свою долю субъективизма.
Поэтому априори нельзя сказать какой из двух способов лучше. Многое зависит от чёткости инструкции и личного контакта исследователя с экспертами.
Можно проводить смешанный опрос. В таком случае эксперты должны оценить каждое изображение в баллах и параллельно проводить ранжирование. Это наиболее содержательный эксперимент. К сожалению базы с такими экспертными оценками нам не встречались в научной литературе. Шкала оценок. Для количественного оценивания разумно использовать 10-ти бальную шкалу. При разработке шкалы очень важно правильно сопоставить баллы с качественным восприятием. Каждый бал должен описываться словом или фразой и должен иметь понятные словесные пояснения. В Табл. 2.1 приведена предлагаемая шкала.
Простое продолжение высокой гладкости (101)
Программная реализация. Модификация BigJPEG, обобщающая алгоритм JPEG на блоки большего размера, была написана нами на основе общедоступной реализации JPEG от Independent JPEG [56]. Исходная программа написана на языке программирования “C”. В ней соблюдён стандарт JPEG [58]. После сжатия изображения получается файл, который состоит из заголовочной и основной секций. В заголовок обычно выносится информация о размере изображения, количестве цветовых компонент, таблицах квантования и кодирования для каждой компоненты и т.д. вплоть до метаинформации о характеристиках аппаратуры, на которую был сделан снимок. В основной секции поблочно хранятся коды коэффициентов ДКП.
Нами были внесены существенные изменения в исходную программу кодека для адаптации существующего алгоритма к работе с блоками произвольного размера. Изменения в основном касались этапа ДКП. В стандарте JPEG для матрицы квантования не найдено формальной записи, поэтому в заголовок выходного файла записывается каждый элемент матрицы. Матрицы квантования для больших блоков имеют большую размерность и их запись в файл искусственно увеличивает объём информации, что ухудшает показатель сжатия. В нашем случае при работе с произвольным размером блока достаточно передавать только параметр качества из (3.4), задаваемый пользователем. Это даёт существенную экономию в объёме заголовка файла. В части кодирования и составления таблиц Хаффмана ничего существенно не изменилось. Соответствующие изменения были сделаны в части алгоритма декодирования.
Теоретически размер блока можно брать сколь угодно большим, но на практике есть одно существенное ограничение. Оно связано с числом битов, отведённых в алгоритме JPEG для представления коэффициентов Фурье ,. Рассмотрим это подробнее.
Диапазон допустимых значений коэффициентов Фурье тем больше, чем больше размер блока. На этапе кодирования необходимо записывать длину кода каждого коэффициента (3.11). Для этого отводится 4 бита, то есть длина кода , не может превышать 15 бит, из которых 1 бит отведён на знак числа. Такое ограничение допускает работу с такими коэффициентами Фурье ,, что , 214. В эти пределы попадают угловые (наибольшие) коэффициенты 0,0 для блоков 128, но уже не попадают при = 256.
Переход к блокам большего размера требует коренного изменения этапа энтропийного кодирования. При этом перспективы возможного улучшения сжатия становятся не ясными. Поэтому здесь мы ограничимся блоками 128.
На предложенную программную реализацию алгоритма BigJPEG была подана заявка на получение свидетельства о государственной регистрации программы для ЭВМ [59]. 3.4.3. Методика сравнения. На каждом отдельном изображении применение больших блоков даёт не одинаковый эффект. Выигрыш в сжатии при фиксированном качестве может заметно различаться от изображения к изображению, а в отдельных случаях воз можен даже проигрыш. Поэтому сравнение на малом числе изображений может носить случайный характер. Необходимо проводить сравнение на большом числе разнообразных изображений, вычислять средний выигрыш и его дисперсию и получать статистически достоверные результаты.
Для получения статистически достоверных результатов сравнение производилось на 24 разнородных чёрно-белых изображениях из базы KODAK [41]. Эта база состоит из естественных изображений, как сильно деталированных, так и содержащих большие участки гладких фонов (см. изображения (1)-(24) на Рис. 2.1). Каждое изображение базы представлено в четырёх размерах: 0.2, 0.4, 1.6 и 6.3 мегапикселя. Сравнение работы алгоритмов сжатия на таких наборах является представительными.
Для каждого изображения производилось сжатие кодеками BigJPEG и baseline JPEG в режиме optimized. Это означает, что на этапе кодирования производилось построение оптимальных кодовых таблиц Хаффмана 1 и 2 для (3.9) и (3.12) соответственно, что обеспечивало наилучшее сжатие. Сжатие делалось для разных значений пользовательского параметра качества . После кодирования фиксировалось полученное сжатие по отношению полного размера исходного файла к полученному (в полный размер входят не только битовые коды коэффициентов ДКП, но и служебная информация, необходимая для декодирования). Таким образом полученная экономия является не теоретическим прогнозом, а реальной практической величиной.
Затем делалось декодирование с последующей оценкой качества по математическому критерию VIF. Согласно тестированию в Главе 2 критерий VIF несколько лучше других соответствует человеческому восприятию. В итоге каждому изображению ставилась в соответствие пара чисел величины сжатия и качества для 5 вариантов размеров блоков от 8 8 до 128 128 пикселей.
Блоки 16 16. Результаты экспериментов показаны на Рис. 3.6. На нём изображены 4 однотипных графика. Каждый график соответствует определённому размеру тестовых изображений (размеры в пикселях указаны под графиками). По горизонтали отложено качество по критерию VIF. Вертикальными пунктирами отделены границы условных субъективных оценок качества, введёных нами в п. 2.5.3 ( «отличное» [0.75; 1.00], «хорошее» [0.50 0.75), «удовлетворительное» [0.25; 0.50) и «плохое» [0.00; 0.25)). По вертикали отложен процент выигрыша в сжатии при использовании блоков 16 16 в сравнении с 8 8.
На каждом графике приведена кривая среднего выигрыша по 24-м тестовым изображениям (сплошная линия). Светло-серым цветом обозначен коридор стандартного отклонения отдельного изображения. Если степень сжатия произвольного изображения считать случайной величиной с распределением вероятностей по нормальному закону, то в этот коридор попадает 68% изображений.
Анализ графиков на Рис. 3.6 позволяет сделать вывод, что средний выигрыш по сжатию лежит выше уровня нулевого выигрыша. Это означает, что улучшение в сжатии при переходе на блоки 16 16 достигается на большинстве изображений, независимо от их размера в пикселях. Нижний край коридора лежит на уровне нулевого выигрыша в случае Рис. 3.6а–б, а на Рис. 3.6г–д нижняя точка коридора лежит на уровне выигрыша 4% и 8% соответственно. Тёмно-серым фоном на графиках Рис. 3.6 указан доверительный интервал среднего выигрыша в сжатии, соответствующий доверительной вероятности 68%. Видно, что этот интервал не велик (±0.5% в точке минимума, ±2% на левом краю). Из положения доверительного коридора видно, что средний выигрыш статистически достоверен. 10 0 0.25