Содержание к диссертации
Введение
1 Критерий оценки качества изображения 9
1.1 Проблема 9
1.2 Обзор существующих критериев 12
1.2.1. Пиковое отношение сигнал/шум (12).
1.2.2. Современные критерии оценки качества изображения (14)
1.3 Разработка новых математических критериев 16
1.3.1. Критерий сглаженных градиентов SGC (16).
1.3.2. Критерий сглаженной адаптации SAC (18). 1.3.3. Перспективы (19)
1.4 Тестирование критериев 21
1.4.1. Базы изображений (21).
1.4.2. Сравниваемые критерии (21).
1.4.3. Общепринятая методика тестирования (21).
1.4.4. Ранжирование по среднему месту (23).
1.4.5. Ранжирование по среднему PLCC (24).
1.4.6. Выводы (25)
1.5 Результаты главы 26
2 Базы тестовых изображений 27
2.1 Введение 27
2.1.1. Создание базы (27).
2.1.2. Рекомендации (28)
2.2 Обзор существующих баз 29
2.2.1. База TID2008 (31).
2.2.2. База LIVE (34)
2.3 Объединение баз 35
2.3.1. Экспертные и критериальные оценки (35).
2.3.2. Наглядная работа критерия качества (43).
2.3.3. Регрессии (48).
2.3.4. Объединение баз (50)
2.4 Тестирование критериев 52
2.5 Результаты тестирования 53
2.5.1. Сравнение по отношению стандартов (54).
2.5.2. Сравнение по коэффициентам корреляции (54).
2.5.3. Условные субъективные оценки (54)
2.6 Результаты главы 55
3 Улучшения кодека JPEG 56
3.1 Выбор направления 56
3.2 Стандартный кодек JPEG 57
3.2.1. Описание алгоритма (57).
3.2.2. Реализация программы (61)
3.3 Матрица квантования 61
3.3.1. Стандартный размер (61).
3.3.2. Произвольный размер (62).
3.3.3. Преимущество (63)
3.4 Алгоритм BigJPEG 64
3.4.1. Обоснование алгоритма (64).
3.4.2. Программная реализация (65).
3.4.3. Методика сравнения (66).
3.4.4. Анализ результатов (66).
3.4.5. Демонстрация на изображениях (71).
3.4.6. Выводы (86)
3.5 Алгоритм JPEG-IT 86
3.5.1. Описание (86).
3.5.2. Методика сравнения (87).
3.5.3. Анализ результатов (88).
3.5.4. Демонстрация на изображениях (90).
3.5.5. Выводы (95)
3.6 Результаты главы 95
4 Фурье-аппроксимация гладких непериодических функций 96
4.1 Проблема 96
4.2 Сходимость рядов Фурье 97
4.3 Одномерный случай 100
4.3.1. Эффект Гиббса (100).
4.3.2. Чётное продолжение (100).
4.3.3. Нечётное продолжение (100).
4.3.4. Дальнейшее повышение гладкости (101).
4.3.5. Простое продолжение высокой гладкости (101)
4.4 Двумерный случай 106
4.4.1. Классическое продолжение (107)
4.4.2. Чётное продолжение (108).
4.4.3. Нечётное продолжение (108)
4.5 Усечение ряда Фурье 109
4.5.1. Усечение по квадрату (109).
4.5.2. Усечение по треугольнику (110).
4.5.3. Оптимальное усечение (110).
4.5.4. Построение гиперболического усечения (112)
4.6 Нечётное продолжение в сжатии изображений 115
4.6.1. Чётное продолжение (115).
4.6.2. Простое нечётное продолжение (116).
4.6.3. Устранение блочного эффекта (117).
4.6.4. Нечётное продолжение со сглаживанием (117).
4.6.5. Результаты численных расчётов (118)
4.7 Обобщения 119
4.7.1. Сеточная функция (119).
4.7.2. Неравномерные сетки (119).
4.7.3. Гистограммы (119)
4.8 Результаты главы 120
Заключение 121
Список рисунков 127
Список таблиц 128
Литература
- Современные критерии оценки качества изображения
- Обзор существующих баз
- Реализация программы
- Дальнейшее повышение гладкости
Введение к работе
Актуальность диссертационной работы определяется мировой тенденцией развития вычислительных средств в направлении, связанном с их миниатюризацией и с разработкой естественных человеко-машинных интерфейсов.
Существует широкий круг технических и бытовых приложений, автоматизация которых сдерживается отсутствием удобной и дешевой вычислительной платформы. Этот круг приложений может быть охарактеризован условным термином не-трогай-меня (НТМ). Так, например, замена кнопочных выключателей комнатного света на умные выключатели, управляемые с помощью жестов, требует использования такой, относительно дорогой, вычислительной платформы как персональный компьютер. Очевидно, что подобный подход не может быть использован для разработки коммерчески приемлемых умных выключателей минимальной стоимости. Другим примером могут служить бесконтактные способы управления самыми различными устройствами -от аудиосистем автомобилей до детских игрушек. В этих случаях умные управляющие устройства должны понимать наборы самых разнообразных команд.
Создание вычислительной платформы, которая на порядки дешевле, чем персональный компьютер и мобильный телефон открывает дорогу в мир простых, удобных и умных устройств, которые обязательно найдут широкое применение в повседневной жизни.
Целью диссертационной работы является исследование математических и алгоритмических аспектов задач распознавания жестов, разработка математического и алгоритмического обеспечения, формулировка требований к аппаратным характеристикам НТМ-платформы, зависящим от вычислительной сложности предлагаемых алгоритмов анализа видеоинформации и от существующей элементной базы. Заключительная часть работы посвящена натурному тестированию разработанных алгоритмов в реальном масштабе времени.
Для достижения поставленных целей решаются следующие задачи:
1) Исследование существующих методов распознавания жестов для
выявления их достоинств и недостатков, а также определение
вычислительной сложности таких методов.
2) Исследование и разработка алгоритмов почти минимальной
вычислительной сложности (МВС-алгоритмов), достаточной для
распознавания произвольных жестов, представленных
последовательностями изображений, поступающими в реальном
масштабе времени (видеоклипами).
3) Разработка требований к вычислительной платформе минимальной
сложности, достаточной для реализации разработанных МВС-алгоритмов.
4) Апробация практической реализуемости разработанной
спецификации вычислительной платформы путем передачи ее в
компанию, специализирующуюся на разработке вычислительных
устройств.
5) Апробация качества разработанных МВС-алгоритмов путем
натурного моделирования их работы при распознавании произвольных
жестов с использованием персонального компьютера.
Методы исследования
Для решения поставленных задач использовались: теория множеств, теория распознавания образов, методы компьютерного зрения, язык программирования Visual Basic 6, язык программирования JAVA и его видео библиотека (Java Media Framework АРІ) для работы с устройствами ввода изображениями в реальном масштабе времени, видеокамера Logitech Webcam Pro 9000.
Научная новизна
1) Исследованы особенности задачи распознавания жестов. На основе
проведенных исследований показана целесообразность использования
метода разностных изображений для выделения признаков объектов при
обработке потоков видеокадров, позволяющего существенно снизить
общий объем вычислений.
2) Разработаны алгоритмы почти минимальной вычислительной
сложности для распознавания произвольных жестов в реальном масштабе
времени.
Практическая значимость работы
1) Программно реализованы алгоритмы почти минимальной
сложности для распознавания произвольных жестов в реальном масштабе
времени с помощью персональных компьютеров.
2) Разработаны требования к автономной вычислительной платформе,
а также спецификация такой платформы, ориентированной на
распознавания произвольных жестов, и характеризуемой минимальной
сложностью и, соответственной, минимальной стоимостью, абсолютная
величина которой зависит от существующей элементной базы.
Реализация результатов работы
Результаты теоретических и экспериментальных исследований, выполненных в диссертационной работе, были использованы компанией FirstCortex, Inc, Maryland, при создании системы Micro Vision. Имеется акт о внедрении.
Апробация работы
Положения диссертационной работы докладывались и обсуждались на 53 и 54 конференциях МФТИ, научно-технической конференции "Техническое зрение в системах управления мобильными объектами-2010", международной конференции MEDIAS 2010, международной конференции ANNIE 2007, на международном конгрессе WASET 2009: World Congress on Science, Engineering and Technology, Singapore 2009, на международной конференции ICMMM 2011, Zhengzhou, China.
Разработанные требования к автономной вычислительной платформе, ориентированной на распознавания произвольных жестов, были положены в основу технического задания, переданного компании FirstCortex, которая провела анализ практической реализуемости проекта. Полученное заключение прилагается.
Публикации. Результаты проведенных автором научных исследований опубликованы в 6 работах, среди которых 1 статья в ведущих рецензируемых журналах из списка ВАК России.
Структура и объем работы. Диссертационная работа состоит из введения, 6 глав, заключения и приложения и содержит 124 страницы машинописного текста, включая 28 рисунков, а также список литературы (90 наименований).
Современные критерии оценки качества изображения
Стандартное чёрно-белое изображение является матрицей. Каждый пиксель матрицы характеризуется яркостью, которой приписывается целое число от 0 до 255. Эта кодировка требует всего 8 бит на пиксель, а число уровней яркости достаточно для чувствительности зрительной системы человека. В [1] подробно описано, как определяется величина минимального изменения яркости воспринимаемой человеком. Приводятся результаты экспериментов, подтверждающие, что в естественных условиях человек способен различить 232 градации яркости.
При передаче изображения по каналам связи возникают различные искажения. Часть из них связана с техническими сбоями каналов связи (в числе которых может быть передача по бескабельным каналам связи). Другая часть намеренно вводится при сжатии изображения, если требуется существенно уменьшить количество передаваемой информации. В обоих случаях в искаженном изображении вместо истинной яркости -го пикселя будет стоять изменённое число (также целое и лежащее в тех же пределах).
Пользователь или автоматизированная система получает искаженное изображение , по которому необходимо судить об исходном изображении . Разработка, как аппаратуры, так и способов сжатия с потерями направлены на получение достаточно хорошего качества переданного изображения. При тестировании такой работы можно предложить пользователю большой набор исходных изображений и переданных искажённых изображений, чтобы пользователь визуально оценил качество. Для аккуратного тестирования необходимо привлекать большую группу испытуемых и чётко регламентировать процедуру сравнения. Это очень трудоёмкая и дорогостоящая работа, аналогичная экспериментам в физике и технике. Каждый раз, когда предложена новая аппаратура или новый метод обработки изображений, такую процедуру необходимо проводить заново.
Поэтому на практике действуют следующим образом. Создают базу эталонных и искаженных изображений. Это могут быть, как естественные изображение, так и специализированные для конкретной области применения. Для них один раз выполняют экспертную оценку качества изображений (, ). Далее по массивам и пытаются построить некоторый критерий оценки качества изображения (IQA — image quality assessment) — математическую функцию от массивов яркостей (, ). Если ухудшению экспертной оценки соответствует убывание этой функции, то данной метрикой качества можно успешно пользоваться в конструкторско-исследовательской работе вместо проведения новых экспертных оценок. Это очень важно, например, при разработке медицинского оборудования или военной техники (см. примеры 1.1.1–1.1.3). Пример 1.1.1. Рентгеновские аппараты используют при исследование кровеносной системы человека. Визуализация сердечно-сосудистой системы пациента выполняется методом ангиографии, когда контрастное вещество подсвечивает сосуды на фоне тканей внутренних органов. На снимке во многих случаях сосуды оказываются слабо отличающимися от других тканей (см. пример снимка на Рис. 1.1). Лишь опытный специалист сможет работать с такими снимками. Актуальной стала разработка специальных методов, которые позволяют из серии рентгеновских снимков делать результирующий, на котором остаются только характерные детали [2]. Очевидно, что использование математических критериев IQA может серьёзно упростить процедуру верификации алгоритмов. В таких случаях необходимо разрабатывать узкопрофильный критерий, привлекая квалифицированных и опытных экспертов. Это позволит проводить проверки алгоритмов обработки медицинских изображений [3].
В военной технике активно ведутся разработки беспилотных летательных аппаратов (БПЛА). Их используют при аэрофотосъёмке местности. Полученную серию снимков объединяют, получая тем самым карту местности. Типовой проблемой в таком случае является проявление артефактов на границах снимков. Для устранения подобных дефектов разрабатывают специальные алгоритмы, которые позволяют производить аккуратную «сшивку» кадров или делать постобработку «сшитого» изображения [4] (см. пример на Рис. 1.2). От качества изображения может зависеть результат разведывательной операции. В условиях военных действий это является очень важным.
Пример 1.1.3. В обычных условиях БПЛА может ориентироваться в воздухе по сигналам с датчиков спутниковой навигационной системы ГЛОНАСС или GPS и автономно следовать заданному маршруту. Управляющие сигналы также могут передаваться по каналу радиосвязи из командного центра. В боевых условиях противник может использовать средства радиопомех, так что БПЛА будет дезориентирован, а связь с ним потеряна.
Поэтому другая актуальная задача — это обеспечение автономного перемещения БПЛА. Летательный аппарат должен уметь следовать маршруту по опорным точкам на местности. Опорные точки — это характерные объекты местности, такие как здания, дороги, мосты и естественный ландшафт. Их можно использовать для определения координат и параметров движения [5]. БПЛА делает снимок, далее алгоритм обработки изображения должен выделить опорные участки и вычислить координаты и параметры движения (см. пример на Рис. 1.3). Каждый раз запускать БПЛА и проверять работу Рисунок 1.2 — Пример создания бесшовного изображения по снимкам с БПЛА алгоритмов — слишком дорого. Поэтому такие алгоритмы проще верифицировать специально построенными математическими моделями, а критерий IQA должен использоваться для определения приемлемого сочетания качество-сжатие. Это позволит экономить ресурсы самого БПЛА и упростит процедуру тестирования алгоритмов.
Однако построить критерий IQA оказывается не просто. Этому вопросу посвящена обширная литература [6–10] и др. Обычно исследователи исходят из некоторых естественных идей и пишут достаточно простые критерии. На практике они не очень хорошо совпадают с экспертными оценками. Их начинают усложнять, причем довольно эклектичным образом и при этом вводят ряд свободных (подгоночных) параметров. Итоговые формулы зачастую оказываются весьма громоздкими. Получаются искусственные конструкции, хорошо работающие на той базе экспертных оценок, по которой подбирались их свободные параметры. На других базах результаты могут быть заметно хуже. Для тестирования критериев IQA созданы различные базы тестовых изображений [11–16]. Обычно одному оригиналу соответствует несколько искажённых изображений, для которых известна экспертная оценка. На таких базах производится тестирование критериев и делаются выводы о достоверности получаемых результатов.
Разработка критериев IQA (image quality assesment — оценка качества изображения) — это относительно новая область исследований. Активные работы в данном направлении ведутся с начала 2000-х годов [6, 9, 10, 17, 18]. Поскольку в большинстве случаев человек является конечным пользователем алгоритмов обработки и передачи изображений, то самый надёжный способ оценки качества изображений — это субъективная оценка. Действительно, средняя экспертная оценка (MOS — mean opinion score) давно признана лучшим способом измерения качества изображения. Однако сбор экспертных оценок , как правило, занимает много времени и дорог.
Задача разработки критерия IQA заключается в разработке математической модели, которая способна предсказывать воспринимаемое качество изображения точно и без настроек на конкретную ситуацию. Алгоритм должен прогнозировать то качество изображения, которое в среднем сообщает эксперт. Успешное развитие таких критериев оценки имеет большую перспективу во многих прикладных задачах. Например, в автоматизированных системах передачи изображений или видео. Система автоматически подбирает приемлемое качество в зависимости от загруженности линий связи. Другая область — это тестирование алгоритмов обработки изображений. К ним относятся алгоритмы сжатия, шумоподавления, повышения качества, стеганографии и другие.
Обзор существующих баз
Дальнейшая работа заключается в том, чтобы перевести экспертные значения MOS одной базы в шкалу другой базы. Так как строгих формул для этой процедуры не известно, то нужен другой способ. Предлагается на основе работы одного из критериев произвести перевод шкалы MOS. То есть на первом шаге необходимо выбрать лучший критерий оценки качества, по которому можно сопоставить MOS одной базы и другой. Будем называть его опорным критерием. Для этого нужно, чтобы точечная зависимость была близкой к монотонной.Чем больше облако точек похоже на узкую монотонную кривую, тем адекватнее и стабильнее работает критерий.
2.3.2. Наглядная работа критерия качества. Покажем, как можно оценить работу критерия IQA. Удобнее проводить анализ на базе TID2008, так как здесь можно рассматривать работу критерия по отдельным типам искажений. Хорошую работу критерия IQA для данного типа искажения наглядно показывает точечная зависимость MOS от значений критерия. Если зависимость строго монотонная, то критерий точно предсказывает оценку качества изображения. На примере традиционного критерия PSNR, нашего SGC и двух лучших, выявленных в Главе 1 (PSNRHA и VIF) показано, как можно проводить сравнение.
От критерия требуется, чтобы он хорошо соответствовал экспертной оценке по отдельному типу искажения. Хорошая работа критерия означает выполнение следующих правил:
Для критерия PSNR на Рис. 2.22–2.26, 2.28, 2.32–2.34 и 2.34 зависимость имеет вид столбиков примерно одинаковой высоты. Выделяются 4 характерных столбика, что, очевидно, соответствует четырём уровням интенсивности данного искажения. Группировка точек в столбики присутствует и для других критериев качества на отдельных типах искажений. Иногда эти группы имеют размытую форму, похожую на эллипсы или наклонные столбики, а не вертикальные. По приведённым графикам можно судить о достоверности работы критериев оценки качества. По визуальной оценке зависимостей наилучшее соответствие человеческому восприятию даёт критерий VIF, за ним следует PSNRHA, потом наш SGC и с сильным отставанием традиционный PSNR.
В Табл. 2.4 приводится полный список критериев и типы искажений, на которых критерии дают результаты, сильно не адекватные результаты человеческому восприятию. Скопления точек для этих искажений не укладывалось в основное облако. Большинство критериев дают не адекватный результат на искажениях №12 (сбои в канале передачи JPEG изображения), 14 (перестановки кусков изображения), 15 (наложение однотонных квадратов), 16 (изменение яркости) и 17 (изменение контрастности) из базы TID2008. С этими искажениями не справляются в среднем более половины рассматриваемых критериев.
Такое поведение обусловлено нестабильным экспертным мнением по данным типам искажений. В зависимости от содержания изображений для данной интенсивности искажения получены сильно разные значения MOS. Для равноправного сравнения работы метрик качества эти группы следует исключать из рассмотрения.
Регрессии. В данной работе был рассмотрен другой, более объективный подход к анализу критериев IQA. На каждой из баз строились регрессии по точечной зависимости MOS от критерия IQA. Брались три вида регрессий: константная, линейная и параболическая. Для каждой регрессии вычислялось среднеквадратичное отклонение на каждой базе. При этом исключались точки, которые для большинства критериев не вошли в основное облако согласно Табл. 2.4. База TID2008. Результаты построения регрессионных кривых на базе TID2008 приведены в Табл. 2.5. Критерии упорядочены в алфавитном порядке. В таблице не приведено значение константной регрессии, так как оно одинаковое для всех критериев и составляет 1.35. Критерий VSNR в данном эксперименте дал сбой, поэтому его значения не приведены.
Наилучший результат показал критерий VIF. Наглядно, его работа показана на Рис. 2.39. Точки основного скопления отмечены маркером “X”; оно похоже на эллипс. Ниже эллипса в средней части графика присутствует небольшое скопление точек, обозначенных маркером “”. Для критерия VIF это единственное исключение. Отметим, что есть ряд критериев, которые имеют несколько скоплений точек, выбивающихся из основной массы.
У критерия VIF среднеквадратичные отклонения для константной, линейной и параболической регрессий оказались равными соответственно 1.35, 0.67 и 0.64. Видно, что константная регрессия существенно хуже линейной описывает зависимость. Отличие линейной регрессии от параболической статистически не значимо. Поэтому линейная регрессия
Графики для других критериев на объединённой базе повторили результат Рис. 2.41. Основные облака хорошо накладываются друг на друга. Исключение составляют типы искажений, на которых сами критерии работают плохо, см. Табл. 2.4.
Были проведены аналогичные (очень трудоёмкие) работы по объединению баз на основе других критериев. Для них картины облаков точек оказываются существенно более сложными (например, кометообразными и содержащими несколько боковых выбросов), а плотность распределения точек в облаках является неравномерной. Для ряда критериев облака на базах TID2008 и LIVE сильно отличались друг от друга. Во всех этих случаях не представлялось разумных регрессий, совмещающих облака обеих баз. Объединение баз с помощью таких критериев не разумно. Именно поэтому мы здесь представляем объединение баз только по критерию VIF.
Стандарт объединённой базы. Важной информацией для любой базы является наличие стандартного отклонения для экспертных оценок. MOS базы TID2008 равен 0.140, а для базы LIVE после преобразования (2.3) составляет 0.194. Стандарт объединённой базы
В Главе 1 отмечалось, что наиболее требовательной оценкой является сравнение по PLCC, а сравнение по SRCC и KRCC менее показательны. Сейчас мы пришли к выводу, что сравнение по всем коэффициентам корреляции не является информативным. В самом деле, достаточно смоделировать работу критерия, см. Пример 2.4.1.
Пример 2.4.1. В плоскости возьмём параллелограмм с границами = ±1, = ±. Равномерно заполним его большим количеством точек. Для такого облака оптимальной будет регрессия () = со стандартным уклонением /л/З и коэффициентом парной корреляции Пирсона (PLCC) (1 + 2) . Для = 0.3 и 0.5 коэффициенты корреляции соответственно равны 0.96 и 0.90. Эти значения обычно считают хорошими, хотя по ширине облака на Рис. 2.42 ситуацию вряд ли можно считать даже удовлетворительной. Аналогичные результаты получаются для других форм облака, например, эллиптической.
Поэтому в [43] мы предложили другой подход. Наиболее надёжной оценкой для критерия является значение его стандартного отклонения от регрессионной кривой. Регрессия строится по множеству точек (). Критерий с наименьшим стандартом признаётся лучшим. При этом для оценки его адекватности нужно сравнивать стандарт регрессии и стандарт экспертных оценок базы.
Реализация программы
Если пользователь требует высокого качества от сжатого изображения, то квантовании (3.3) будет слабым и большинство элементов вектора Ут п во всех блоках Ът)П оказываются ненулевыми; почти всегда несколько первых элементов этого вектора являются ненулевыми. Поэтому стандартная схема кодирования (3.10)–(3.12) становится избыточной.
Предлагается изменить схему кодирования так, чтобы несколько начальных элементов ук кодировались аналогично первому у0 согласно (3.7)-(3.9). В этом случае в выходной поток, по аналогии с (3.13), будут записаны следующие коды
Не всякое число элементов целесообразно выделять таким образом. Разумными представляются такое количество элементов: 2, 5, 9 и так далее. Тогда, после обратного свёртывания вектора т п в матрицу по правилу «зигзаг» (см. Рис. 3.3), эти элементы будут точно заполнять некоторый начальный треугольник. Отсюда и предложено название модификации JPEG-IT - initial triangle. Такое изменение позволяет экономить до нескольких бит на блок.
При сильном квантовании (при низком качестве получаемого изображения) встречаются блоки, в которых вектор m,n состоит только из нулевых элементов, быть может за исключением 0. В этом случае в выходной поток записывается код Хаффмана для специальной пары (0,0) - признака конца блока. Стандартная таблица Хаффмана кодирует эту пару четырьмя битами [1010]. Если = 0,1 63, тогда в выходной поток записываются коды
Напомним, что начальная информация блока содержит 512 бит. В практике часто используются сжатие этой информации до 40 и менее бит. Поэтому экономия 3 бит существенна: она в этих условиях составляет более 7 %.
Оба предложения (3.18) и (3.21)–(3.22) дополняют друг друга и являются эффективной модификацией базового кодека JPEG. Нами было получено свидетельство о государственной регистрации программы JPEG-IT [60].
Методика сравнения. Для проведения расчётов была выбрана общедоступная реализация алгоритма JPEG на языке C++ [56]. Описанные выше модификации были реализованы в этом коде. Модификация JPEG-IT затрагивает только этап энтропийного кодирования кодека baseline JPEG, что не влияет на качество сжатого изображения. Поэтому изображения, получаемые кодеками baseline JPEG и JPEG-IT, идентичны по качеству, но отличаются степенью сжатия.
Другие режимы работы кодека JPEG (progressive, optimized, arithmetic, lossless) являются надстройками над baseline JPEG. Поэтому сравнение этих режимов работы кодека с JPEG-IT будет давать такой же результат, что и для baseline JPEG, но с учётом выигрыша в сжатии, который был получен в ходе экспериментов.
Нами проводился эксперимент аналогичный тестированию модификации BigJPEG, см. п. 3.4.3, но только для стандартного размера блока 8x8 пикселей. В ходе эксперимента проводилось сжатие тестовых изображений кодеками baseline JPEG и JPEG-IT. Пользовательский параметр качества менялся во всём диапазоне допустимых значений от 1 до 100. 3.5.3. Анализ результатов. Очевидно, большой набор разнообразных изображений, используемых в экспериментах, позволяет дать объективную, статистически достоверную оценку. В нашем эксперименте сжимались 24 разнотипных тестовых изображений. Результаты сжатия одним и тем же кодеком менялись от изображения к изображению. Поэтому проводился статистический анализ полученного сжатия и качества. Делалось усреднение выигрыша в сжатии при использовании предлагаемой модификации JPEG-IT в сравнении с базовым кодеком JPEG. Дополнительно вычислялось стандартное отклонение выигрыша по сжатию. Эти результаты показаны на Рис. 3.39. Графики аналогичны тем, что были описаны в модификации BigJPEG (см. Рис. 3.6 и Рис. 3.7).
На Рис. 3.39 приведены 4 графика. Каждый график соответствует определённому размеру тестового изображения (см. подписи под графиками). На графиках по оси абсцисс отложено качество сжатого изображения по критерию VIF в линейном масштабе. В п. 2.5.3 делалось сопоставление значений критерия VIF и условных субъективных оценок качества: «плохое» [0.00; 0.25), «удовлетворительное» [0.25; 0.50), «хорошее» [0.50 0.75) и «отличное» [0.75; 1.00]. Значения кривых сжатия при качестве ниже 0.2 не показано, так как не представляет интереса для практического применения. По оси ординат отложен выигрыш в сжатии в процентах для алгоритма JPEG-IT в сравнении со сжатием стандартного JPEG. -5 10 0
Сплошная линия на каждом графике Рис. 3.39 соответствует выигрышу в сжатии усреднённому по 24 изображениям. Светло-серый коридор обозначает интервал стандартного отклонения отдельного изображения.
Все графики имеют схожий вид. Минимум среднего выигрыша и минимум стандартного отклонения приходится на середину диапазона отличного качества (VIF к- 0.85). Влево от минимума средний выигрыш возрастает до 3%, а вправо возрастание превышает 10 % на границе «удовлетворительного» и «плохого» качества. В области «хорошего» и «отличного» качества нижний край полосы стандартного отклонения лежит на уровне нулевого выигрыша или незначительно ниже (до -0.5%). В остальном диапазоне качества нижний край лежит выше нулевого выигрыша.
Тёмно-серым фоном на графиках Рис. 3.39 указан доверительный интервал среднего выигрыша в сжатии, соответствующий доверительной вероятности 68%. Видно, что этот интервал не велик (±0.1% в точке минимума, ±1% на левом краю). Из положения доверительного коридора видно, что средний выигрыш статистически достоверен. Замечание. При использовании других таблиц Хаффмана, оптимизированных для другого уровня качества, форма кривых на Рис. 3.39 сохраняется. При этом минимум смещается в область качества, для которой производилась оптимизация.
Точные количественные значения среднего выигрыша и стандартного отклонения приведены в Табл. 3.5. Каждая строка в таблице соответствует правой границе каждого субъективного диапазона качества. Видно, что в области «отличного» качества модификация JPEG–IT даёт наибольший выигрыш при работе с небольшими изображениями (до 0.5 мегапикселей). На границе «хорошего» и «отличного» качества на отдельных изображениях степень сжатия может даже уменьшаться на 0.5%, но в среднем по большому числу изображений проигрыша нет . В области «удовлетворительного» и «плохого» качества наилучший выигрыш в сжатии (до 20 %) достигается на изображениях размером более 1.0 мегапикселя.
Дальнейшее повышение гладкости
Для квадратного усечения асимптоты линий являются прямыми, а их наклоны хорошо соответствуют теоретическим значениям tga = — (0.5р + 0.25). Для гиперболических усечений асимптотики несколько отличны от прямых благодаря наличию логарифмического члена; но они также близки к прямым с наклоном tga = — (р + 0.5). Видно, что гиперболическое усечение дает гораздо лучшую точность, чем квадратное; именно его стоит использовать в прикладных расчетах.
Заметим, что продолжения высокой гладкости целесообразны при не слишком малом числе членов ряда. При М = 10 увеличение р от 0 до 2 повышает точность. Однако р = 3 оказалось точнее р = 2 только при М 25; зато при М 2500 оно уже много лучше по точности.
В задачах двумерной фурье-аппроксимации метод нечётного продолжения с усечением по гиперболе обеспечивает огромное преимущество в точности перед всеми другими способами и при этом достаточно прост. Гиперболическое усечение предложено в [92] и для него сделан ряд оценок. Однако нам не удалось найти в литературе доказательства и даже утверждения о том, что обрезание по гиперболе являются оптимальным. Косвенным подтверждением этого является тот факт, что в [92] наравне с обрезанием по гиперболе рассматриваются обрезания по ступенчатым линиям, приближающим гиперболу.
Для погрешности в норме C были получены результаты аналогичные Рис. 4.7 за исключением наклонов асимптот линий. В норме C это = -0.5 или = - для разных способов усечения.
Нечётное продолжение в сжатии изображений Цифровое изображение — это двумерная функция заданная на равномерной сетке. Точно известны лишь значения самой функции, а первая производная - не известна. Поэтому построение продолжений лучше первого нечётного практически невозможно.
В данной работе рассматривалась возможность построения нечётного продолжения для сжатия изображений. Строились и сравнивались прототипы алгоритмов сжатия на основе дискретного косинусного преобразования (ДКП) при чётном продолжении и на основе дискретного синусного преобразования (ДСП) для нечётного продолжения. В последнем случае рассматривались три возможных реализации алгоритма.
Для простоты работа велась с одномерными сигналами. В качестве исходного сигнала бралась произвольная строка из изображения 512512 пикселей. Она разбивалась на отрезки одинаковой длины и к каждому отрезку применялся алгоритм сжатия. Длины отрезков менялись от эксперимента к эксперименту. Опишем подробнее сами алгоритмы и полученные результаты.
Алгоритм имеет приемлемую сложность, но он немного сложнее чётного продолжения. При этом проблема блочных артефактов остаётся, так как математической границей является крайняя точка задания функции. На самом деле эта точка является серединой граничного интервала, а не истинного отрезка. Поэтому математические границы соседних отрезков фактически отстоят на один интервал.
Устранение блочного эффекта. Другая идея нечётного продолжения является усовершенствованием предыдущей. Предлагается значениям сигнала S приписывать середины интервалов, а вычитаемую прямую строить так, чтобы она проходила через границы отрезков. В таком случае вычитаемые прямые будут иметь общие точки на границах соседних отрезков
Этот метод требует несколько больше ресурсов, чем предыдущий. Приходится дополнительно запоминать два параметра прямой. Причём фактически на один отрезок приходится лишь один параметр, так как прямые имеют общие точки начала и конца с левым и правым отрезком (см. Рис. 4.10).
Такое построение нечётного продолжения позволяет устранить блочный эффект. Однако оно более трудоёмко. ечётное продолжение со сглаживанием. Предлагается делать предварительное сглаживание сигнала и работать не с значениями, а с -1 сглаженным значением. То есть вычисляются средние арифметические между соседними точками и по ним делается разложение (см. Рис. 4.11).
Прямое преобразование делается для точек на границах интервалов, так же как и в (4.62). Обратное преобразование можно делать сразу для точек в серединах интервалов аналогично (4.68).
Такое построение также убирает блочный эффект, но при восстановление не точно воспроизводятся значения функции в полуцелых узлах. Такое сглаживание эквивалентно подавлению старших гармоник ряда Фурье. Поэтому оно одновременно немного искажает исходный сигнал, уменьшая его градиенты (контрасты изображения).
Результаты численных расчётов. Расчёты делались для четырёх алгоритмов из 4.6.1-4.6.4. Для нескольких сигналов полученных из строк изображения 512x512 выполнялись численные расчёты для разных длин отрезков разбиения и разных уровней квантования. Разбиение делалось на отрезки длинной 512/2р,= 1..7. Квантование коэффициентов разложения делалось числом 2q, = 3..9.
Для каждой пары чисел (длина отрезка разбиения и уровень квантования) вычислялись сжатие и качество восстановленного сигнала. Качество оценивалось по критерию PSNR (см. п. 1.2.1), так как одномерный сигнал имеет мало общего с изображением.