Введение к работе
Диссертация посвящена разработке математических методов и алгоритмов обработки и анализа цифровых изображений для решения задачи обнаружения искусственных искажений данных дистанционного зондирования Земли (ДЗЗ). Актуальность темы
Цифровые изображения является важнейшим способом представления визуальной информации. До конечного пользователя, как правило, доходят изображения, дополнительно подвергшиеся компьютерной обработке в различных целях. Эти цели могут быть относительно безвредными: улучшение качества, приведение к виду удобному для решения конкретных прикладных задач, сжатие данных для сокращения их объёма и т.п. Однако, в ряде случаев обработка может быть произведена и в корыстных целях для искусственного искажения или сокрытия важной информации. В таком случае необходимо знать, были ли произведены какие-либо изменения изображения, а также по возможности определить их тип и параметры. Выявление фактов искусственных искажений визуальной информации актуально в задачах контроля целостности и защиты данных от несанкционированных изменений и копирования, обнаружения подделок изображений.
Первые научные публикации, посвященные разработке алгоритмов обнаружения искусственных искажений или фальсификаций цифровых изображений, появились в 2004-2005 гг. (Н. Farid, А.С. Popescu). Наиболее известным примером фальсификации является сокрытие части изображения (фрагмента) путём копирования фрагмента из другой части того же изображения (наложение дубликата). Пример такой фальсификации приведён на рисунке 1. Задачей обнаружения искусственных искажений в этом случае является выявление факта и, в идеале, способа внесения такого искажения (нахождение положений дубликата-прототипа).
Рисунок 1. Пример исходного изображения (слева) и его искусственного искажения
(справа)
После первых публикаций по указанной тематике в материалах различных международных конференций стали появляться работы авторов S. Prasad, В. Mahdian, S. Saic, J. Fridrich, M. Sridevi, С. Mala и других, продолжавших исследование данной области знаний. Поскольку большая часть работ отмеченных зарубежных авторов опубликована с 2005 по 2012 гг., а на русском языке публикации фактически отсутствуют, то можно говорить о безусловной актуальности выбранной темы исследований. Особенно следует отметить постоянный рост количества зарубежных публикаций на тему обнаружения дубликатов на изображениях (S. Bayram, Н. Farid, В. Mahdian, S. Saic).
В настоящее время выделяют (М. Sridevi, С. Mala) два основных способа обнаружения искусственных искажений цифровых изображений вообще и данных ДЗЗ, в частности: активный и пассивный. Основным элементом активного подхода к обнаружению искусственных искажений изображений являются цифровые водяные знаки (ЦВЗ). Недостатком этого подхода является то, что ЦВЗ должен быть встроен в
изображение во время записи. В отличие от активного, пассивный подход основан на предположении, что даже если искажённое изображение не содержит визуально обнаруживаемых следов изменений, их можно обнаружить путём компьютерного анализа самого изображения. Данная диссертационная работа посвящена вопросам построения метода обнаружения искусственных искажений данных ДЗЗ в рамках пассивного подхода. При этом под данными ДЗЗ понимается пара, включающая собственно цифровое изображение и связанную с этим изображением сопутствующую информацию (время, координаты съёмки, положение спутника и т.п.) -метаданные.
Большинство известных работ (S. Prasad, В. Mahdian, А.С. Popescu и др.) в области обнаружения искусственных искажений изображений сосредоточено на разработке алгоритмов, направленных на решение задач обнаружения совершенно конкретных искажений в изображениях - атак. Примерами атак могут быть: копирование и вставка фрагментов изображения, геометрические преобразования фрагментов изображения и т.п. Для каждой атаки разрабатывается алгоритм, далее называемый элементарным, направленный на её обнаружение: алгоритм обнаружения дубликатов, алгоритм обнаружения межпиксельных корреляций и т.п. Не ставя под сомнение важность этого направления исследований, следует всё же отметить его недостатки:
поскольку алгоритмы разрабатываются для произвольных изображений, они не учитывают специфику их получения. В частности, для данных ДЗЗ вместе с изображением присутствует дополнительная информация о территории и времени съёмки, типе космического аппарата или устройстве регистрации, ориентации камеры и т.п.
большое число различных алгоритмов обнаружения искусственных искажений не даёт ответа на вопрос, какой же алгоритм и/или алгоритмы и как/когда следует использовать для обнаружения искусственных искажений конкретных данных ДЗЗ (или, обнаружения атаки).
Последний недостаток указывает, в частности, также и на необходимость формализации понятия алгоритма обнаружения искусственных искажений и постановки задачи синтеза (мета-) алгоритма обнаружения искусственных искажений данных ДЗЗ, используя множество известных элементарных алгоритмов.
Учитывая все изложенные выше тезисы, как тема настоящей диссертационной работы, так и отдельные выбранные направления исследования являются безусловно актуальными.
Цель и задачи исследований
Целью диссертации является разработка и исследование метода обнаружения искусственных искажений данных ДЗЗ и входящих в его состав алгоритмов.
Для достижения поставленной цели в диссертации решаются следующие задачи:
-
Анализ современного состояния задачи обнаружения искусственных искажений цифровых изображений.
-
Формализация задачи обнаружения искусственных искажений данных ДЗЗ (в рамках пассивного подхода), формализация понятия элементарного алгоритма обнаружения искусственных искажений.
-
Разработка и исследование метода обнаружения искусственных искажений данных ДЗЗ, использующего множество элементарных алгоритмов.
-
Разработка и исследование элементарных алгоритмов поиска дубликатов на изображениях.
-
Разработка и исследование элементарных алгоритмов обнаружения искусственных искажений данных ДЗЗ, учитывающих их специфику.
Поставленные задачи определяют структуру работы и содержание её разделов.
Методы исследований
В диссертационной работе используются методы теории чисел, теории вероятности, цифровой обработки сигналов и изображений, методы распознавания образов. Научная новизна работы
-
Предложен метод обнаружения искусственных искажений данных ДЗЗ, включающий последовательную вычислительную процедуру обнаружения искусственных искажений данных ДЗЗ и алгоритмы её построения.
-
Предложены хэш-функции фрагментов изображений, конструируемые с использованием принципов модулярной арифметики и линейных локальных признаков и допускающие быстрое рекурсивное вычисление.
-
Предложены алгоритмы обнаружения неискажённых дубликатов на цифровых изображениях, не допускающие пропусков дубликатов.
-
Предложен алгоритм обнаружения геометрически-искажённых дубликатов на изображении, основанный на преобразовании Фурье-Меллина. Предложенный алгоритм превзошёл существующий алгоритм на базе дискретного косинусного преобразования в смысле критерия качества обнаружения.
-
Предложен алгоритм обнаружения фрагментов изображения, подвергавшихся сжатию алгоритмом JPEG, позволяющий обнаруживать фрагменты, отличающиеся не только коэффициентом сжатия, но и кратностью его применения. Впервые выявлена зависимость между коэффициентом сжатия JPEG и значениями новых разработанных признаков, используемых при анализе.
-
Предложены новые алгоритмы обнаружения искусственных искажений данных ДЗЗ, основанные на проверке соответствия изображения ДЗЗ условиям съёмки, указанным в метаданных ДЗЗ.
Практическая значимость работы
Разработанные алгоритмы построения последовательной вычислительной процедуры обнаружения искусственных искажений данных ДЗЗ, а также алгоритмы обнаружения искусственных искажений (обнаружение дубликатов, проверка несоответствия условиям съёмки и т.п.) могут быть использованы в цифровых системах оперативного анализа данных ДЗЗ на предмет наличия искусственных изменений (фальсификаций).
Предложенные в диссертационной работе методы и алгоритмы могут использоваться в качестве составных элементов при проведении экспертиз визуальной информации (цифровых изображений и данных ДЗЗ), целью которых является подтверждение отсутствия в ней искусственных искажений.
Реализация результатов работы
Результаты диссертации использованы при выполнении ряда госбюджетных и хоздоговорных НИР в Институте систем обработки изображений РАН, проектов РФФИ № 13-07-12103-офи-м, 13-01-12080-офи-м, 12-07-00021-а, программы фундаментальных исследований Президиума РАН «Фундаментальные проблемы информатики и информационных технологий» (проект 2.12), работ по договору для Министерства образования и науки Российской Федерации (в рамках постановления Правительства Российской Федерации от 09.04.2010 г. № 218: договор № 02.Г36.31.0001 от 12.02.2013). Апробация работы
Основные результаты диссертации были представлены на 9 научных конференциях: международной конференции по автоматизации, управлению и информационным технологиям (ACIT-ICT, Новосибирск, 2010); международной конференции «Перспективные информационные технологии для авиации и космоса» (ПИТ, Самара, 2010); 10-ой и 11-ой международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» («РОАИ», Санкт-Петербург, 2010 и Самара, 2013); 8-ой и 9-ой международных конференциях «Интеллектуализация обработки
информации» (ИОИ, Кипр, Пафос, 2010 и Черногория, Будва, 2012); региональной научно-практической конференции, посвященной 50-летию первого полёта человека в космос (Самара, 2011); научно-технической международной молодёжной конференции «Системы, методы, техника и технологии обработки медиаконтента» (Москва, 2011); 16-ой Всероссийской конференции «Математические методы распознавания образов 2013» (ММРО, Казань, 2013).
Публикации По теме диссертации опубликовано 18 работ. Из них 6 работ опубликовано, 1 принята в печать в изданиях, определённых в перечне ведущих рецензируемых научных журналов и изданий ВАК Министерства образования и науки РФ. 3 работы выполнены без соавторов.
Структура диссертации Диссертация состоит из четырёх разделов, заключения, списка использованных источников из 154 наименований; изложена на 155 страницах машинописного текста, содержит 38 рисунков, 6 таблиц, 4 приложения.
На защиту выносятся
-
Метод обнаружения искусственных искажений данных ДЗЗ, включающий последовательную вычислительную процедуру обнаружения искусственных искажений данных ДЗЗ и алгоритмы её построения.
-
Алгоритмы обнаружения неискажённых дубликатов на цифровых изображениях, не допускающие пропуск дубликатов, и хэш-функции, конструируемые с использованием принципов модулярной арифметики и линейных локальных признаков и допускающие рекурсивное вычисление. Результаты экспериментальных исследований хэш-функций и алгоритмов.
-
Алгоритм обнаружения геометрически-искажённых дубликатов, основанный на преобразовании Фурье-Меллина. Результаты его сравнения с существующим алгоритмом на базе дискретного косинусного преобразования.
-
Новые признаки спектра гистограммы коэффициентов ДКП в задаче обнаружения на изображениях фрагментов, подвергавшихся сжатию JPEG. Зависимость между значениями этих признаков и коэффициентом сжатия JPEG.
-
Алгоритмы проверки данных ДЗЗ на соответствие условиям съёмки, разработанные с использованием модельно-ориентированных дескрипторов изображения.