Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов Елисеев, Алексей Сергеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Елисеев, Алексей Сергеевич. Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов : диссертация ... кандидата технических наук : 05.13.19 / Елисеев Алексей Сергеевич; [Место защиты: Юж. федер. ун-т].- Ростов-на-Дону, 2013.- 173 с.: ил. РГБ ОД, 61 13-5/1743

Содержание к диссертации

Введение

1 Обзор существующих методов внедрения скрытой информации и методов выявления наличия скрытой информации 22

1.1 Теоретическая модель стеганографической системы 22

1.1.1 Основные понятия стеганографии 22

1.1.2 Оценка стойкости стеганографической системы 29

1.2 Практические методы внедрения скрытой информации и методы выявления наличия скрытой информации 34

1.2.1 Метод замены наименее значащих битов и его анализ 37

1.2.2 Гистограммная атака 38

1.2.3 Распределение изменений по контейнеру 41

1.2.4 Анализ пар значений 41

1.2.5 Модуляция наименее значащих битов и ее выявление

1.3 Оценка эффективности практических методов анализа 47

1.4 Анализ связных множеств контейнеров 50

1.5 Выводы 52

2 Проблема оценки стойкости стеганосистем и анализ сокрытий, основанных на перестановках 53

2.1 Анализ существующего подхода к практической оценке стойкости стеганосистем 53

2.1.1 Формализация задач стеганографии и стеганодетекции 54

2.1.2 Классы стойкости стеганографических систем 56

2.1.3 Гистограммы и статистики различных порядков 59

2.1.4 Ложные классы стойкости стеганографических систем 61

2.2 Метод направленного анализа стеганосистем, основанных на

перестановках элементов пространства сокрытия 67

2.2.1 Стеганосистемы, основанные на перестановках

2.2.2 Стеганографический анализ описанной стеганосистемы 69

2.2.3 Графическое представление предлагаемого метода 74

2.2.4 Узор перестановок для групп из трех элементов 76

2.2.5 Обобщение представленного метода 80

2.3 Выводы 82

3 Метод анализа наборов связанных объектов 85

3.1 Формулировка задачи 85

3.2 Анализ наборов контейнеров в случае простого непараметрического базового метода анализа отдельных контейнеров 89

3.3 Анализ наборов контейнеров в случае известных распределений статистики, выдаваемой базовым методом 107

3.4 Выводы 121

4 Экспериментальные исследования 123

4.1 Практическое применение предлагаемого метода анализа сокрытий, основанных на перестановках 123

4.2 Практическое применение идеи анализа связанных наборов контейнеров, а не отдельных контейнеров 132

4.3 Программный комплекс стеганографического анализа 139

4.4 Выводы 152

Заключение 154

Список литературы

Введение к работе

Актуальность темы исследования.

На сегодняшний день в сети Интернет имеется большое количество свободно распространяемых программ, позволяющих осуществлять стеганографическое сокрытие данных в различных типах контейнеров. Данные программы очень легко доступны и применять их может любой.

Такое развитие области скрытой передачи данных, а также легкая доступность стеганографического программного обеспечения привела к появлению нового канала несанкционированного распространения информации, который весьма трудно пресечь. Необходимость защиты различных информационных систем (например, локальных сетей коммерческих предприятий и государственных учреждений) от внутренних угроз, таких как утечки конфиденциальных данных, была очевидна на всех этапах развития средств информационной безопасности. Однако первоначально внешние угрозы считались более опасными. В последние годы на внутренние угрозы стали обращать больше внимания и необходимость использования соответствующих средств защиты стала упоминаться в стандартах и нормативных документах (например, раздел "12.5.4 Утечка информации" в стандарте ГОСТ ISO/IEC 17799-2005). Существуют различные решения для защиты сети предприятия или организации от утечки из нее конфиденциальной информации, не обрывающие при этом необходимые для работы предприятия коммуникации. Данный класс решений получил название DLP (Data Leakage Prevention, Предотвращение утечек данных). Системы, относящиеся к этому классу, перехватывают весь трафик, выходящий за пределы сети предприятия, и сканируют его на наличие в нем конфиденциальных данных. Кроме того, они сканируют всю информацию, записываемую пользователями сети на съемные носители при помощи их рабочих станций. Известные представители данного класса - Websense DSS, SecurIT Zgate и Zlock, Дозор Джет, InfoWatch Traffic Monitor, Symantec DLP. На сегодняшний день подобные системы способны отследить конфиденциальную информацию, передаваемую в открытом или слабо скрытом (например, заархивированном) виде. Они также способны пресечь передачу зашифрованных данных, в которых может содержаться конфиденциальная информация. Однако стеганографические программные средства дают внутренним нарушителям, передающим конфиднециаль- ные данные за пределы сети предприятия, способ преодоления этих систем. Этот способ заключается в сокрытии конфиденциальных данных в широко распространенных и не запрещенных к передаче контейнерах, таких как графические изображения или аудио-файлы.

В настоящее время для борьбы с описанным скрытым каналом утечки данных большинство DLP-систем запрещают установку известных стеганографиче- ских программных средств на рабочие станции пользователей. При этом такие программные средства обычно определяются по известным контрольным суммам или хеш-значениям, вычисляемым по их файлам. Однако, учитывая полиморфизм, присущий современному программному обеспечению, а также легкость реализации по крайней мере примитивных методов сокрытия, вряд ли можно считать такой метод борьбы со стеганографическими каналами утечки надежным. Куда более перспективным выглядит применение методов и алгоритмов стеганографиче- ского анализа, которому должны подвергаться данные, выходящие за пределы защищаемой сети. Однако в настоящее время большинство распространенных версий систем защиты от утечек либо вообще не включают в свой состав модуль сте- ганографического анализа, либо данный модуль поставляется с ними в деактиви- рованном состоянии. Такое положение дел, судя по всему, объясняется слишком большим числом ошибок (в том числе большим числом ложных срабатываний), возникающих при активации или включении данных модулей.

Вместе с тем, сам факт того, что разработчики DLP-систем начинают уделять внимание решению задачи пресечения стеганографического канала утечки конфиденциальных данных, говорит о все большем распространении данного канала. О нем же косвенно говорят и данные, публикуемые как самими разработчиками систем данного класса, так и службами мониторинга утечек персональных данных. Так, по данным InfoWatch в 2008 году, канал утечки не был определен примерно для 13% всех зафиксированных инцидентов утечек. Trustwave сообщает о том, что в 2011 и 2012 годах более 14% случаев утечек данных вообще не были раскрыты. Поскольку задача стеганографии как раз и состоит в сокрытии самого факта передачи информации, то в таких случаях данная задача была успешно решена злоумышленниками. Все это говорит о том, что уже сейчас хорошей DLP- системе необходимо применять методы и алгоритмы стеганографического анализа, от развития которых тем самым, непосредственно зависит эффективность данной системы и ее ценность для потребителей, а также защищенность сети организации от инсайдеров. Поэтому можно сделать вывод о крайней актуальности задачи повышения эффективности обнаружения различных типов сокрытий.

Объектом исследования являются методы сокрытия информации в контейнерах, представляющих собой оцифрованный сигнал естественного происхождения, а также методы выявления наличия сокрытой в таких контейнерах информации.

Предметом исследования являются методы оценки стойкости стеганогра- фических систем, стеганосистемы, основанные на перестановках элементов пространства сокрытия, различные характеристики связанных множеств контейнеров.

Целью работы является разработка методов и средств защиты информации от внешних и внутренних угроз хищения в процессе ее хранения, обработки и передачи, характеризующихся меньшим числом ошибок при выявлении стеганогра- фических вложений, основанных на перестановках элементов пространства сокрытия, а также вложений малого объема.

В соответствии с поставленной целью в работе производится аналитический обзор существующих методов сокрытия информации и методов выявления сокрытой информации. По его результатам были сформулированы следующие задачи исследования, решение которых необходимо для достижения поставленной цели.

Разработка направленного метода стеганографического анализа сокрытий, основанных на перестановках элементов пространства сокрытия.

Разработка методов анализа не только одиночных контейнеров, но и последовательностей контейнеров, связанных единым происхождением, и методов противодействия угрозам нарушения информационной безопасности путем идентификации и классификации пользователей, осуществляющих сокрытие.

Разработка и реализация программного средства стеганографического анализа, реализующего предложенные методы, а также пригодного для противодействия угрозам хищения информации и нарушения информационной безопасности для различного вида объектов защиты.

Методы исследования основаны на использовании теории вероятности, статистики, теории статистической проверки гипотез, цифровой обработке сигналов, теории информации, теории проектирования и программирования модульных программных комплексов, математическом и программном моделировании.

На защиту выносятся следующие основные положения.

    1. Метод стеганографического анализа, использующий статистики, собранные по смежным группам элементов пространства сокрытия, и основанный на сравнении частот встречаемости различных перестановок элементов пространства сокрытия позволяет решить задачу выявления сокрытий, основанных на перестановках смежных элементов контейнера, в контейнерах различных типов.

    2. Алгоритм выявления наличия стеганографических вложений, осуществленных при помощи перестановок яркостей смежных точек в полутоновых изображениях, хранящихся в форматах без потерь, позволяет достичь уровня ошибок первого и второго рода ниже 15%, а также настраивать соотношение уровней ошибок при помощи модификации параметров.

    3. Методика стеганографического анализа, основанная на совместном рассмотрении набора контейнеров, связанных единым происхождением, позволяет выявлять факт использования стеганографических средств при создании данного набора в том числе и при малой плотности сокрытия в каждом отдельно взятом контейнере.

    4. Метод анализа наборов контейнеров, использующий оптимальный выбор базовой точки ROC-кривой базового метода, позволяет при определенных условиях на распределения базового метода при любой ненулевой ошибке первого рода сделать ошибку второго рода как угодно близкой к нулю путем повышения числа контейнеров в анализируемом наборе.

    Научная новизна работы заключается в следующем.

    - Выявлена и впервые доказана связь между свойствами стеганографиче- ских систем сохранять статистики контейнера, собранные по группам элементов пространства сокрытия различного размера.

    1. Предложен новый метод выявления сокрытий, основанных на перестановках пространства сокрытия, который можно рассматривать как обобщение метода анализа пар частот встречаемости элементов контейнера.

    2. На основе нового обобщения анализа пар частот встречаемости впервые разработан алгоритм выявления стеганографических вложений, основанных на перестановках элементов пространства сокрытия, применимый к широкому классу форматов контейнеров, а не только к изображениям в формате JPEG.

    3. Предложен подход к анализу вложений малых плотностей, отличающийся тем, что анализу подвергается не каждый контейнер в отдельности, а множество контейнеров связанных общим происхождением (от одного источника).

    4. Предложены и проанализированы новые методы выявления наборов взаимосвязанных контейнеров, содержащих сокрытия, которые могут строиться как на основе базовых методов анализа отдельных контейнеров, выдающих лишь битовый ответ на вопрос о наличии вложения в контейнере, так и на основе базовых методов, выдающих значение некоторой статистики контейнера.

    Практическая ценность исследования заключается в следующем.

    1. Применение разработанного метода на основе использования статистик, собранных по целым группам элементов пространства сокрытия, дает возможность повысить эффективность выявления сокрытий, основанных на перестановках элементов пространства сокрытия, в растровых графических изображениях, хранящихся в пространственной области (попиксельно), а также цифровых аудиозаписях, хранящихся отсчетами амплитуды.

    2. Практическую ценность представляет тот факт, что для противостояния предложенному подходу к анализу наборов контейнеров, необходимо многократно увеличить объем передаваемых данных, разбавив заполненные контейнеры пустыми, вследствие чего значительно снижается относительное количество данных, которые можно передать скрытно, не вызвав подозрений.

    3. Практическую ценность для разработчика стеганографических систем имеет знание того, что утверждение о стойкости метода перестановок элементов пространства сокрытия опровергнуто в том числе и для форматов контейнеров, отличных от JPEG-изображений.

    Обоснованность и достоверность полученных результатов вытекает из математической формулировки и обоснования выявленных связей и свойств, подтверждается проведенным программным моделированием и результатами экспериментов с программной реализацией предложенных методов и синтезированных алгоритмов.

    Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Девятом Всероссийском симпозиуме по прикладной и промышленной математике (Весенняя сессия, Кисловодск, 1-8 мая 2008 г.), Международной межвузовской научно-практической конференции "Инфоком-2008" (Ростов-на-Дону, 6-7 мая 2008 г.), Седьмой Международной Петрозаводской конференции "Вероятностные методы в дискретной математике" (Петрозаводск, 1-6 июня 2008 г.), Третьей Отраслевой научно-технической конференции-форуме "Технологии информационного общества" (МТУСИ, Москва, 18-20 марта 2009 г.), Девятой международной научно-практической конференция "Моделирование, теория методы и средства" (Новочеркасск, апрель 2009 г.), Седьмой Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь XXI века - будущее российской науки" (ЮФУ, Ростов-на-Дону, 18-21 мая 2009), Первой всероссийской молодежной конференции по проблемам информационной безопасности "Перспектива - 2009" (ТТИ ЮФУ, Таганрог, 22-26 июня 2009 г.), XXXVII международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникации и бизнесе" ("Information Technologies in Science, Education, Telecommunication and Business", IT+SE40, Ялта, май 2010 г.), XI Международной научно-практической конференции "Информационная безопасность" (Таганрог, 2010), Международной заочной научно-практической конференции "Вопросы образования и науки: теоретический и методический аспекты" (Тамбов, 30 апреля 2012г.).

    Публикации. По теме диссертации опубликовано 10 научных работ, из них 4 статьи в журналах из "Перечня ведущих рецензируемых научных журналов и изданий" ВАК и 2 статьи в других научных журналах, зарегистрировано 1 свидетельство об официальной регистрации программы для ЭВМ.

    Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 169 страниц и включает 45 рисунков, 2 таблицы. Список литературы состоит из 87 наименований.

    Практические методы внедрения скрытой информации и методы выявления наличия скрытой информации

    Алиса осуществляет сокрытие сообщения т, которое она хочет незаметно передать Бобу, в некоторый безобидно выглядящий для Евы контейнер В, который при этом, вообще говоря, изменяется и превращается в контейнер Вт. При этом она может использовать ключ к, который известен ей и Бобу и только им (например, они выбрали данный ключ еще до того как сели в тюрьму). Ей необходимо осуществить сокрытие таким образом, чтобы получив контейнер Вт Боб мог извлечь из него сообщение т, используя лишь ключ к (и сам контейнер Вт). Алиса передает контейнер Вт Еве, которая его анализирует на предмет наличия в нем дополнительных сообщений и в случае признания их отсутствия отдает контейнер Бобу. Алиса также может передать контейнер, который не содержит никакой дополнительной информации. Задача Евы состоит в том, чтобы понять, содержит ли передаваемый контейнер дополнительное сообщение.

    Приступим теперь к более строгой формализации используемых известных понятий.

    Контейнером будем называть любую информацию, предназначенную для сокрытия тайных сообщений (чаще всего аудио-файлы или потоки, изображения, видео-файлы или потоки). Множество контейнеров обозначим через В, Пустым контейнером будем называть контейнер без встроенного сообщения; заполненным контейнером или стеганоконтейнером -контейнер, содержащий встроенную информацию.

    Под сообщением будем понимать секретные данные, встраиваемые в контейнер. Множество сообщений обозначим М. Длину сообщения т обозначим через \т\.

    Стеганографический ключ - секретный ключ, необходимый для сокрытия и извлечения информации. Множество ключей обозначим через К.

    Стеганографическим каналом будем называть открытый канал передачи контейнера, в котором данный контейнер может подвергаться анализу (а также, вообще говоря, искажению).

    Для строгой формализации понятия стеганосистемы введем предикат G:MxBxK {0,\}. Прямым стеганографическим преобразованием или функцией сокрытия назовем функцию F:{(m,b,k)eMxBxK\G(m,b,k) = \} B, осуществляющую встраивание (внедрение, сокрытие) сообщения т в контейнер В при помощи ключа к. Т.е. предикат G определяет допустимые сочетания сообщений, контейнеров и ключей, которые можно подавать на вход функции сокрытия. Рассмотрим образ преобразования F на ключе к: Imt F = {b є В13b0 є B,m є M: b = F(m,b0,k)}. Обратным стеганографическим преобразованием или функцией извлечения назовем функцию F1 :{(b,k)\beImkF} M, извлекающую сокрытое в контейнере Ъ сообщение при помощи ключа к. Теперь шестерку S = (M,B,K,G,F,Fl) назовем стеганографической системой {стеганосистемой) или скрытым каналом, если выполняется свойство F-\F(m,b,k),k) = т V(m,b,k) \ G(m,b,k) = 1.

    Заметим, что в данной формализации стеганосистемы ничего не сказано о том, откуда Боб знает, заполнен ли полученный им контейнер. Утверждается лишь, что если контейнер заполнен, то Боб должен иметь возможность извлечь сообщение. Стеганосистему S = (M,B,K,G,F,F l) будем называть регулярной, если G(m,b,k) = g{\m\,b), причем \/b EB(g(l1,b) = Y)&(I2 ll) (g(l2,b) = l). Т.е. в регулярной системе выбор конкретного ключа не влияет на возможность сокрытия данного сообщения в данный контейнер. Кроме того, не влияет на возможность сокрытия и само содержание сообщения, имеет значение лишь его длина, причем если в контейнер можно сокрыть некоторое сообщение, то в него можно сокрыть и все более короткие сообщения (а также сообщения такой же длины).

    Отметим, что большинство рассматриваемых на практике систем обладают свойством регулярности, однако нередки и исключения, к которым можно отнести, например, системы, описанные в работах [13], [16].

    Абсолютной емкостью (capacity) контейнера b в регулярной системе S называют: C(2 ) = max{/g(/,6) = l}, а относительной емкостью: c(b) = C(b)l\ b \.

    Для некоторых систем абсолютная емкость зависит только от длины контейнера. Часто данная зависимость линейна. В таком случае относительная емкость постоянна и называется емкостью стеганосистемы.

    Заметим, что представленная формализация стеганосистемы никак не учитывает возможность стеганографического канала искажать передаваемые через него контейнеры. В том смысле, что поскольку на вход функции извлечения подается тот самый контейнер, который был получен на выходе функции сокрытия, то удовлетворяющая представленному определению система может работать неправильно в случае стеганографических каналов, допускающих искажения. Фактически стеганографический канал представляет собой Еву - противника Алисы и Боба, организующих скрытый канал. Поэтому свойства канала определяются моделью противника, принятой при разработке стеганосистемы. Выделяют два основных класса моделей противника (см. также рисунок 2) [1], [2], [3], [12].

    1. Модели пассивного противника. Пассивный противник (стеганоаналитик) лишь просматривает проходящие по каналу контейнеры, пытаясь определить наличие сокрытых сообщений в них. Он не может изменять контейнеры, подделывать контейнеры, запрещать или задерживать доставку контейнеров, не являющихся, по его мнению, подозрительными.

    2. Модели активного противника, которому разрешены различные операции модификации контейнеров. Можно выделять подклассы данного класса по разрешенным операциям. В частности активному противнику может быть разрешено, например, изменение контейнеров с целью уничтожения потенциально сокрытого сообщения. Кроме того можно строить модели, в которых ему разрешено осуществлять подделку передаваемых Бобу контейнеров, их повторную передачу от имени Алисы.

    Классы стойкости стеганографических систем

    Извлечение можно осуществлять, как и в методе простой замены при помощи процедуры (1.2). На стороне Боба никаких изменений на требуется.

    Достаточно интересные с точки зрения их эффективности методы анализа данного класса сокрытий появились несколько позже, нежели хорошие методы анализа замены НЗБ. В 2004 году Хармсен и Перлман (Harmsen, Pearlman) [42] заметили, что воздействие на гистограмму контейнера от сокрытия при помощи LSB-matching схоже с воздействием при применении к ней фильтра нижних частот: гистограмма становится более сглаженной. На основе этого они предложили метод выявления, известный под названием "HCF" (Histogram Characteristic Function, характеристическая функция гистограммы) - по основной статистике, по которой происходит принятие решения. Данный метод, хотя и оказался лучше случайного гадания, но был весьма мало эффективен на практике, особенно для контейнеров, отличных от цветных изображений, представленных в пространственной области (попиксельно). В 2005 году Кером (Кег) [51] бьши предложены два обобщения HCF, называемые обычно "2D-HCF" (так как в нем вместо гистограммы первого порядка использовалась гистограмма второго порядка, см. раздел 2.1.3) и "2D-HCF-C" ("2D-HCF" Calibrated, "2D-HCF" с применением калибровки, под которой в данном случае подразумевается сравнение статистики "2D-HCF" для наблюдаемого контейнера и контейнера, подвергнутого субдискретизации). Эти обобщения уже куда более интересны с точки зрения их практического применения. Однако точность классификации сильно изменяется не только с изменением типа контейнера, но и для различных контейнеров одного типа. В 2006 году Гольян, Холотьяк и Фридрих (Goljan, Holotyak, Fridrich) [41], [44] предложили еще ряд статистик для выявления LSB-matching и других методов сокрытия. Эти статистики фактически реализуют попытку отличить естественный шум контейнера от шума, добавляемого в процессе сокрытия. Данный метод обычно называют "WAM" (Wavelet Absolute Moment), т.к. используемые статистики представляют собой различные центральные абсолютные моменты вейвлет-представления контейнера. Позже оказалось [30], что WAM сильно улучшает эффективность анализа изображений, которые подвергались JPEG-сжатию, однако полностью бесполезен при анализе прочих контейнеров (почти не отличается от случайного гадания). В 2007 Чжань, Кокс и Доер (Zhang, Сох, Doerr) [75] предложили еще один набор статистик для анализа сокрытий типа LSB-matching. Эти статистики обычно называют "ALE" (Amplitude of Local Extrema). В них используется влияние сокрытия на разницу между локальными минимумами и локальными максимумами гистограмм контейнера. В 2008 Канчелли, Кокс и Доер (Cancelli, Cox, Doerr) [29], подобно Керу, обобщили ALE на собранные различными способами гистограммы второго порядка. Большинство практических реализаций методов анализа LSB-matching используют несколько различных статистик из описанного набора. Для их объединения применяются различные алгоритмы автоматического обучения, в основном -линейный классификатор Фишера, реже и при длинном характеристическом векторе - метод опорных векторов с различными ядрами и параметрами. Причем хорошие результаты на практике получаются только при обучении классификатора на контейнерах в достаточной степени схожих с контейнерами, которые необходимо проанализировать, например полученных с помощью того же или очень похожего устройства для АЦП (изображения с того же сканнера, записи с того же микрофона, фотографии с той же фотокамеры или, по крайней мере, фотокамеры той же модели). В 2009 году Чжань, Ху и Юань (Zhang, Ни, Yuan) [76] добавили в используемый на практике характеристический вектор еще ряд статистик, несколько обобщающих идею ALE. Они использовали не только локальные экстремумы гистограмм, но и их верхние и нижние сплайновые огибающие. Это позволило еще несколько улучшить точность классификации для черно-белых изображений. В 2009 и 2010 годах Певни, Бас и Фридрих (Pevny, Bas, Fridrich) [60], [61] предложили и развили еще ряд статистик для анализа LSB-matching. Соответствующий метод получил название "SPAM" (Subtractive Pixel Adjacency Matrix), т.к. компоненты характеристического вектора получаются из матрицы переходов Марковского процесса разностей пикселей.

    В разделе 1.1.1 было сказано, что у стеганоаналитика, осуществляющего двоичную классификацию контейнеров, могут возникать два вида ошибок (см. таблицу 1). Однако большинство практических статистических методов стеганоанализа приходят к данному бинарному решению не напрямую, а при помощи вычисления одной или нескольких

    статистик, полученные значения которых затем превращаются в битовый ответ при помощи выбранных заранее пороговых значений. Примерами таких статистик служат статистика (1.3) в гистограммной атаке и статистика р" (см. раздел 1.2.4) в атаке SPA. Предикаты для бинарной классификации строятся из этих статистик при помощи некоторых порогов t (см. соотношение (1.4)). При этом можно регулировать ошибки первого и второго рода (а и р соответственно), увеличивая одну из них и уменьшая другую, при помощи перемещения порогового значения. Таким образом, можно считать, что каждый метод анализа, вычисляющий некоторую статистику до фиксации конкретного значения порога принятия решения соответствует целому семейству методов бинарной классификации контейнеров. Общепринятый способ визуализации данного семейства состоит в построении его так называемой ROC-кривой (Receiver Operating Characteristics) или кривой ошибок. Данное понятие заимствовано из теории обработки сигналов. ROC-кривая метода стеганоанализа представляет собой зависимость доли корректно выявляемых контейнеров 1 - (3 от доли ошибок первого рода а при различных значениях порога принятия решения.

    Существует быстрый алгоритм построения ROC-кривой по результатам вычисления статистики на элементах выборки данных для классификации, содержащей элементы обоих типов (как пустые, так и заполненные контейнеры) [36]. Данный алгоритм реализован в разработанном программном комплексе стеганографического анализа, при помощи которого на большой выборке растровых изображений были построены кривые, характеризующие эффективность атаки SPA при различных параметрах сокрытия заменой НЗБ (см. рисунок 9).

    Анализ наборов контейнеров в случае известных распределений статистики, выдаваемой базовым методом

    Гистограммой второго порядка сигнала X над алфавитом А назовем следующее множество: H2(X) = {(ajaj2,hjJ:l jl,j7 \A\, Х\-\ h,, = \{i:\ i \X\-\,x =а ,х =а }} И вообще гистограммой порядка / сигнала Xнад алфавитом А назовем: Ht{X) = {(ah..a3i,hhji):\ ji,...,jl \A\, h l=lx\4+\l{i A-i xl l+Ux-=aj - x +,-i=aj-}l}i2A) При этом, если s є А , то через H,[s] будем обозначать то значение h, которое соответствует слову s: Н, [s \ = ho (s, к)єН,. Статистикой, собираемой по сигналу над алфавитом А, назовем любую вещественно-значную функцию, принимающую на вход сигнал над А: Т : L(A) — 9?. Т.е. на каждом конкретном сигнале X над алфавитом А статистика выдает некоторое вещественное число Т(Х) є 5R.

    Статистику Т над алфавитом А назовем статистикой первого порядка, если она может быть представлена в таком виде, где она использует лишь значения гистограммы первого порядка сигнала, подаваемого ей на вход, т.е. если 3i;HvxeZC4) т(х) = т1н(н1(Х)). Статистику Т над алфавитом А назовем статистикой второго порядка, если она использует лишь значения гистограмм порядков не выше второго подаваемого ей на вход сигнала: ЗТ2" VXeL(A) Т(Х) = Т2Н(НХХ),Н2(Х)). Аналогично, статистику над алфавитом А назовем статистикой порядка /, если она использует лишь значения гистограмм порядков не выше /: ЗТ," VXeL(A) Т(Х) = Т1"(Н1(Х),...Д,(Х)).

    Далее нам понадобиться некоторая мера степени различия двух гистограмм Н) и Я,2 порядка /. Возьмем, например, метрику пространства /,: 3SA1 Обозначим через Г(А) множество сигналов над языком А. Стеганосистема при сокрытии осуществляет преобразование следующего вида: /:Г(А)хКхЕ — Т(А), где К - множество стеганографических ключей, а Е - множество возможных сообщений. С каждой такой стеганосистемой свяжем серию показателей: Д/(У,«0 = х .max. d(H,(X),H,(nx,k,e))). Л є(Л),А єЛ ,еєЕ

    Теперь, вооружившись этими обозначениями, а также задавшись некоторым числом М 0, можно ввести следующую классификацию стеганосистем. Будем говорить, что стеганосистема с функцией сокрытия / относится к классу р, если Ap(f,d) M. Т.е. фактически мы относим стеганосистему к классу стойкости р, если она «мало изменяет» гистограмму порядка р. Заметим, что в этом определении параметрами являются мера степени различия гистограмм d, а также пороговое значение М, при котором различие еще считается малым. Выбор этих параметров и определяет, что мы понимаем под словами «мало изменяет».

    Весьма полезно и поучительно будет рассмотреть, один из самых простых вариантов выбора параметров d и М для построения конкретной классификации [9]. В качестве d возьмем метрику Хэмминга: v [і,я; я,2 и положим М = 0. Тем самым, мы, очевидно, договоримся считать «мало отличающимися» лишь в точности равные гистограммы. Тогда, в соответствии с определением, стеганосистема будет относиться к классу р, если ее функция внедрения ни при каких условиях не изменяет гистограммы порядка р исходного изображения. Далее для удобства будем обозначать все множество стеганосистем, относящихся к классу р с описанным выбором параметров, через НРр.

    Теперь обратим внимание, что полученная классификация является в некотором смысле полной. А именно, для любой стеганосистемы/найдется такое р 0, что / є HP . Так, например, стеганосистемы которые не сохраняют даже гистограмму первого порядка, например "J-Steg" и "F5", относятся к классу НР0. А идеальная и совершенно не практичная стеганосистема, осуществляющая подбор исходного незаполненного контейнера из большого множества незаполненных контейнеров, таким образом, чтобы при данном ключе к и сообщении е в этом контейнере не требовалось вообще никаких изменений, относится к классу НР_п.

    Далее ограничимся рассмотрением только тех стеганосистем, которые не изменяют длину сигнала. Заметим, что большинство предложенных разными авторами алгоритмов сокрытия обладают этим свойством. При таком условии из определения (2.1) гистограммы можно выбросить нормировочный множитель . Это приведет к возможности работать лишь с целыми числами, что, несомненно, удобнее.

    Интуитивная догадка о том, что если стеганосистема сохраняет гистограмму порядка /, то она должна сохранять и гистограмму порядка / -1, оказывается не верна в условиях определения гистограммы (2.1). Данный факт демонстрируется следующим контрпримером. Рассмотрим сигнал X = aba длины 3 над алфавитом {а,Ь}. Предположим, что при внедрении сигнал X перешел в сигнал Y = ЪаЪ. Очевидно, гистограмма второго порядка осталась при этом неизменной: HZ(X) =H2(Y) = {(aa,0),(ab,l),(ba,l),(bb,0)}, в то время как гистограммы первого порядка отличаются: Hl(X) = {(a,2),(b,l)}, Ht(Y) = {(a,l),(b,2)}- Однако автором было доказано следующее утверждение (лемма в [9]), которое показывает, что даже в условиях определения (2.1) при условии сохранения гистограммы порядка / +1, гистограмма порядка / будет изменена лишь не очень сильно. Утверждение-1. Если Д , (f,d) - О, то либо Н = Н , либо 1) 3S с А" : S = 2,Vi є S \ Н p[s] - H p[s] \= 1 2)\/.seS Hp[s] = H p[s] Т.е. в условиях определения гистограммы (2.1) при сохранении гистограммы порядка р +1 гистограммы порядка р пустого и заполненного контейнеров различаются не более чем в двух столбцах не более чем на единицу. Очевидно, что в сигнале X каждая /-ка идущих подряд букв, соответствует в точности одной (/ + 1)-ке, которая начинается с этой /-ки, за исключением одной последней /-ки (см. рисунок 10).

    Практическое применение идеи анализа связанных наборов контейнеров, а не отдельных контейнеров

    Рассмотрим, как влияет на возможность выявления сокрытия предпринятое в работе [20] изменение соответствия перестановок и символов выходного алфавита арифметического декодера. В работе предлагается делать это, изменяя на каждом шаге базовую группу в корзине в соответствии с секретной псевдослучайной последовательностью, полученной с помощью того же шифра, которым шифруется встраиваемое сообщение. Этот подход позволяет сделать конкретную перестановку группы, которая появляется в изображении зависимой не только от сокрытых данных, но и от секретной псевдослучайной последовательности. При этом результирующая перестановка все еще не зависит от исходной перестановки в оригинальном изображении (иначе для извлечения данных понадобилась бы соответствующая информация из оригинального изображения).

    Как мы выяснили, без этой модификации при сокрытии частоты встречаемости различных групп внутри каждой корзины приближаются друг к другу. Посмотрим, что изменилось после модификации. [18] Без потери общности будем снова рассматривать группы из п точек, имеющие / различимых перестановок. При сокрытии происходит модификация/группы с исходной перестановкой а в соответствии со скрываемой порцией данных Ъ и порцией псевдослучайной последовательности с. Поскольку всего имеется / различимых перестановок, то и а, Ь, с могут принимать / значений. Без потери общности будем считать, что 0 а,Ь,с 1 -1. Поскольку, а не влияет на результирующую перестановку, то f(a,b,c) = h(b,c). К сожалению, в работе [20] не описан конкретный вид функции h. Однако можно понять, каким условиям должна удовлетворять эта функция.

    Во-первых, для того чтобы можно было закодировать любые данные Ъ при любой порции с, функция h должна удовлетворять условию \/b\/c3d :0 d l-l,h(b,c) = d. Кроме того, h должна удовлетворять условию однозначной декодируемости: Vc((Z , Ф Ъ2) - {h(bx,С)Ф h(b2,с))). Эти свойства не являются противоречивыми, т.к. им удовлетворяет, например, функция сложения по модулю /. Если представить функцию h в виде матрицы, в /-той строке, у-том столбце которой находится значение h(i,j) (строки и столбцы нумеруются с 0), то последнее свойство будет означать, что в каждом столбце присутствуют все значения от 0 до /-1. Отсюда следует, что каждое значение к,0 к 1 -I, должно встретиться в этой матрице ровно / раз. Из этого становится понятно, что какой бы ни была функция h, в случае независимости потока данных для кодирования и используемой псевдослучайной последовательности, частоты встречаемости различных перестановок на выходе этой функции должны быть примерно одинаковыми.

    Поэтому в этом случае, как и раньше, частоты встречаемости различных групп внутри каждой корзины приближаются друг к другу в процессе сокрытия, и описанная модификация стеганографической системы никак не влияет на результативность предложенного метода ее анализа.

    Однако, как уже упоминалось выше, в работе [20] предлагается использовать псевдослучайную последовательность, полученную при помощи того же шифра, при помощи которого осуществляется шифрование информации для внедрения. Поэтому возможна ситуация, при которой поток данных для кодирования и псевдослучайная последовательность не являются независимыми. В действительности все зависит от класса применяемого в реализации стеганографической системы шифра и режима его использования.

    Например, в случае блочного шифра, для генерации псевдослучайной последовательности этот шифр обычно используется в режиме OFB (Output Feedback, режим обратной связи по выходу), либо в режиме CTR (Counter, режим счетчика). Оба эти режима фактически порождают псевдослучайную последовательность путем шифрования некоторых данных, не имеющих отношения к данным для внедрения. Статистические свойства современных блочных шифров позволяют в этом случае считать псевдослучайную последовательность и зашифрованные данные практически независимыми. Поэтому при такой реализации анализируемой стеганографической системы описанная модификация фактически никак не влияет на работу предлагаемого метода анализа.

    Если же в реализации системы используется произвольный поточный шифр, который осуществляет сложение выходной кодовой комбинации криптостойкого генератора псевдослучайных чисел (ГПСЧ) с шифруемыми данными, то соответствующая псевдослучайная последовательность обычно представляет собой просто соответствующий выход ГПСЧ. В этом случае шифрованные данные и последовательность нельзя считать независимыми. Для анализа такой модификации описываемой стеганографической системы становится важным конкретный вид функции И.

    В данной главе проведено исследование распространенного подхода к оценке скрытности стеганографических систем, основанного на сравнении порядка сохраняемых в ходе их работы гистограмм. На примере стеганосистем, основанных на перестановках элементов контейнера показано, что данный подход не всегда приводит к адекватной классификации систем по уровням стойкости. Кроме того, в результате проведенного анализа стеганосистемы, основанной на перестановках [20], предложен эффективный метод выявления соответствующих стеганографических вложений. В целом представленная в главе работа позволяет сделать следующие выводы.

    1. Вопрос о степени скрытности передачи данных в практически значимых случаях приобретает смысл, только начиная с некоторого значительного объема этих данных. В частности, верным является популярное утверждение (судя по всему, принадлежащее автору [54]) "You can always send a bit".

    2. Во многих работах по теории стеганографии (например, [14], [58]) ставится вопрос об ограничении плотности сокрытия данных в пакетах подверженного контролю канала связи, позволяющем сохранить определенный уровень скрытности. Имеется, однако, еще один, обычно игнорируемый вопрос - об ограничении на количество передаваемой информации. Проверка сложных гипотез о статистических характеристиках процессов, происходящих в информационном канале (например, проверка соответствия этих процессов заранее выстроенной модели марковского процесса) требует от контролера сбора большого количества данных.

    3. Актуальным является не только вопрос о плотности сокрытия подлежащей передаче информации в характеристиках происходящих в канале процессов, не позволяющей построить состоятельные критерии для различения естественного и модифицированного состояния канала, но и вопрос о максимальном объеме скрываемой информации, при котором объем статистических данных, еще не "размывающий" эффекты от модификации, оказывается меньше необходимого для построения принятой контролером модели и применения состоятельных статистических критериев. С учетом вышесказанного, речь может идти об установлении условий на объем скрываемой информации, при выполнении которых происходит переход стеганосистемы из одного класса стойкости в другой.

    Похожие диссертации на Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов