Содержание к диссертации
Введение
ГЛАВА 1. Анализ существующих угроз в интернет сфере 13
1.1 Классы угроз в информационных системах 13
1.2 Стадии реализации угроз в информационных системах 14
1.3 Проблема обнаружения аномальных запросов 16
1.4 Системы обнаружения и предотвращения вторжений
1.4.2 Функциональное наполнение СОВ 21
1.4.3 Анализ методов применяемых в СОВ
1.4.3.1 Неадаптивные методы в СОВ 23
1.4.3.2 Адаптивные методы
1.5 Наборы данных как критерий эффективности адаптивных методов 26
1.6 Требования к адаптивным алгоритмам для обнаружения аномальных запросов 28
1.7 Выводы по первой главе. Цели и задачи исследования 30
ГЛАВА 2. Разработка моделей и формализация задачи обнаружения аномальных запросов 32
2.1 Формализация задачи обнаружения аномальных запросов 32
2.2 Анализ экземпляров аномальных и не аномальных запросов
2.2.1 Набор данных NSL-KDD Dataset 33
2.2.2 Набор данных CSIC 2010 HTTP 37
2.2.3 Набор данных Enron Dataset 39
2.3 Оценка влияния атрибутов на конечный результат 41
2.3.1 Механизм анализа соответствий 42
2.3.1.1 Анализ соответствий. Понятия и определения 43
2.3.1.1.1 Профили 43
2.3.1.1.2 Веса 46
2.3.1.1.3 Метрика 46
2.3.1.1.4 Снижение количества атрибутов запросов 47
2.3.1.1.5 Алгоритм реализации SVD метода
2.4 Практический аспект оптимизации количества атрибутов у наборов данных механизмом анализа соответствий 53
2.5 Выводы по второй главе 68
ГЛАВА 3. Разработка искусственной иммунной системы 70
3.1 Требования к искусственной иммунной системе 70
3.2 Элементы искусственной иммунной системы 71
3.2.1 Метрика для -элеметов 72
3.2.3 Операции в искусственной иммунной системе 73
3.2.4 Механизм внешнего воздействия в ИИС 74
3.3 Описание формальной реализации искусственной иммунной
системы 75
3.3.1 Константы искусственной иммунной системы 76
3.3.2 Реализация искусственной иммунной системы 76
3.4 Вывод по третьей главе 79
ГЛАВА 4. Реализация исследовательского прототипа системы обнаружения аномальных запросов 81
4.1 Архитектура системы обнаружения вторжений 81
4.2 Определение мер эффективности алгоритмов машинного обучения 86
4.3 Анализ эффективности алгоритмов машинного обучения на наборах данных 89
4.4 Анализ эффективности системы обнаружения вторжений с внедренными алгоритмами машинного обучения 94
4.4.1 Модель клиент-серверного приложения при практической реализации 94
4.4.2 Практическая схема работы СОВ в ИС 97
4.5 Вывод по четвертой главе 100
Заключение 101
Список сокращений и условных обозначений 103
Список литературы 105
- Системы обнаружения и предотвращения вторжений
- Анализ экземпляров аномальных и не аномальных запросов
- Практический аспект оптимизации количества атрибутов у наборов данных механизмом анализа соответствий
- Анализ эффективности алгоритмов машинного обучения на наборах данных
Введение к работе
Актуальность темы исследования
В настоящее время, задача обеспечения информационной безопасности крайне актуальна и востребована. С каждым годом растет количество угроз, связанных с основополагающими принципами информации: доступностью, целостностью и конфиденциальностью. Постоянный прогресс в развитии антивирусов, систем обнаружения и предотвращения вторжений, межсетевых экранов, сканеров безопасности радикально не меняет общую картину в лучшую сторону.
Выделяют два сектора работы систем безопасности информации: программное обеспечение (ПО), работающее на границе «Интернет/Интранет», и ПО, работающее в локальных вычислительных сетях (ЛВС). Если для первой группы ПО существует множество рекомендаций и спецификаций, позволяющих снизить вероятность возникновения и эскалации угрозы, то для второй группы наличие высокоэффективных решений не велико.
Существует большое количество программно-аппаратных решений,
позволяющих обеспечивать безопасность в ЛВС. Среди таковых решений можно выделить: комплексные системы управления безопасностью, пассивные и активные средства мониторинга доступности сетевых ресурсов, системы обнаружения и предотвращения вторжений (СОВ и СПВ). Сегодня, использование этих средств ограничено рядом факторов: сложность поддержки, высокие финансовые затраты, высокий порог вхождения специалистов, низкая эффективность перед уязвимостями «нулевого дня», высокое потребление вычислительных ресурсов и т.д.
В связи с этим, разработка более эффективных реализаций программно-аппаратных комплексов для защиты информации в ЛВС, лежащих в плоскости создания средств проактивной защиты и активного аудита, является наиболее перспективной.
Степень разработанности темы
В настоящее время в данной предметной области ведутся активные
разработки как отечественных (Н.Н. Безруков, Ю.В. Бородакий, В.И. Васильев,
Ю.А. Гатчин, П.Н. Девятин, В.Г. Дождиков, П.Д. Зегжда, И.В. Котенко,
М.В. Кузнецов, В.Ю. Пирогов, В.А. Семеренко, Л.А. Станкевич, В.В. Сухостат, А.О. Тараканов, Л.М. Ухлинов, В.Ф. Шаньгин и др.), так и зарубежных (С. Аллексон, Д. Аллен, Д. Андерсон, Д. Деннинг, К. Лендвер, Т. Лунт, Б. Меткалф, К. Скарфоне, С. Хайкин и др.) ученых.
В то же время, выделение направления проактивной защиты позволяет решить несколько из обозначенных выше проблем путем использования технологий интеллектуального анализа данных, модульности, масштабируемости и многоагентности подхода. Поэтому выбранное для исследования направление является актуальным и представляет научный и практический интерес в области защиты информации в сетях телекоммуникаций.
Объектом исследования являются поступающие внешние запросы из Интернет пространства в локальные вычислительные системы.
Предмет исследования: искусственная иммунная система,
функционирующая в качестве адаптивного компонента сетевой системы обнаружения вторжений, на примере решения задачи обнаружения аномальных запросов.
Целью диссертационной работы является повышение эффективности обнаружения угроз, представленных в виде запросов, поступающих от внешних систем в ЛВС через Интернет, на основе разработки компонента адаптивной защиты в виде искусственной иммунной системы (ИИС) для систем обнаружения вторжений.
Для достижения указанной цели в диссертации были поставлены и решены следующие задачи:
-
Исследование классов угроз, стадий их реализации, а также методов их обнаружения в рамках систем обнаружения вторжений, формулирование требований к адаптивным алгоритмам с целью обнаружения аномальных запросов.
-
Определение наборов данных аномальных и не аномальных запросов, исследование зависимости влияния атрибутов на общее представление запросов в наборах данных, разработка метода оптимизации атрибутного пространства у представленных экземпляров запросов.
-
Разработка метода кластеризации запросов с атрибутами, представленными в номинальных значениях с последующим выделением центров кластеров.
-
Разработка алгоритма искусственной иммунной системы для обнаружения аномальных запросов, с последующей интеграцией модели в СОВ.
5. Разработка программного комплекса системы обнаружения вторжений с
внедренными адаптивными алгоритмами для детектирования аномальных
запросов, анализ полученных результатов, представление рекомендаций по его
практическому применению в реальных условиях эксплуатации.
Методы исследования. В работе использовались методы теории
распознавания образов, теории искусственных нейронных сетей и нечеткой логики, искусственных иммунных систем, теории принятия решений и анализа соответствий, системного анализа, технологии объектно-ориентированного программирования. Для обработки результатов экспериментов использовались методы математической статистики и теории вероятностей.
Научная новизна результатов диссертации заключается в следующем:
-
Предложен метод оптимизации количества атрибутов в запросах, с помощью механизма анализа соответствий и вероятностных методов с получением репрезентативного набора данных для алгоритмов машинного обучения, позволяющий снизить количество анализируемых атрибутов не менее чем в 1,5 раза для эталонных наборов данных протоколов TCP, HTTP/1.1 и SMTP и не менее чем в 2 раза для формируемых наборов данных.
-
Предложен метод кластеризации аномальных запросов с представлением атрибутов в номинальных шкалах со снижением анализируемого множества в среднем не менее чем в 2.7 раза для эталонных наборов данных протоколов TCP, HTTP/1.1 и SMTP.
3. Предложен алгоритм ИИС по обнаружению аномальных запросов для протоколов TCP, HTTP/1.1 и SMTP с применением механизма анализа соответствий, позволяющий повысить эффективность обнаружения угроз, по сравнению с алгоритмом логистической регрессии не менее чем на 5% и алгоритмом искусственной нейроной сети не менее чем на 4%, и уровнем ложного срабатывания не более 6%.
Теоретическая и практическая значимость результатов диссертации
состоит в возможности использования разработанной системы обнаружения аномальных запросов при построении систем защиты противодействия угрозам.
Программный комплекс СОВ с интегрированной в качестве адаптивного механизма ИИС реализован для предотвращения угроз, возникающих при генерации запросов к системе через протоколы передачи информации TCP/UDP/ICMP, HTTP /1.1 и SMTP. Комплекс позволяет защитить пользователя в части обеспечения доступности, целостности и конфиденциальности данных, а также:
-
с высокой степенью эффективности (более 91%) обнаруживать новые, ранее неизвестные аномальные запросы по сравнению с иными применяемыми механизмами машинного обучения;
-
с высоким значением полноты и точности классификации аномальных запросов (более 96%) повысить вероятность их обнаружения.
Полученные результаты применимы как в системах обнаружения вторжений аномальных запросов, так и в системах предотвращения вторжений.
Внедрение результатов диссертационной работы.
Результаты диссертационной работы были внедрены в:
ОАО «Оренбургнефть», г. Оренбург.
ООО «Интеркаскад», г.Бузулук.
ООО "Урал-Быт-Сервис", г. Бузулук.
ООО "Ютек-НН", г. Нижний Новгород.
АО "Институт по проектированию и исследовательским работам в нефтяной промышленности "ГИПРОВОСТОКНЕФТЬ", г. Самара.
Исследовательский прототип искусственной иммунной системы мониторинга и аудита ИС зарегистрирован в Федеральной службе по интеллектуальной собственности (№2013618955 от 09.10.2013, № 2014617066 от 10.07.2014).
Соответствие диссертации паспорту научной специальности. Содержание диссертации соответствует пункту 3 паспорта специальности 05.13.19 - «Методы и системы защиты информации, информационная безопасность» - Методы, модели и средства выявления, идентификации и классификации угроз нарушения информационной безопасности объектов различного вида и класса.
Достоверность результатов работы обеспечивается сравнением результатов, полученных после реализации предложенного подхода и существующих аналогов ПО, проведенным тестированием разработанного ПО в части точности вычислений и времени выполнения, корректностью математических выкладок, использованием квалифицированных экспертных оценок для проведения
вычислительных экспериментов, а также положительным эффектом от внедрения результатов работы.
Апробация работы. Основные научные и практические результаты диссертационной работы докладывались и обсуждались на международных научно-технических конференциях:
9-я Всероссийская школа семинар аспирантов и молодых ученых "Актуальные проблемы науки и техники", г. Уфа (2014 г.).
XV Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности», г. Иркутск (2014 г.).
Международная научно-техническая конференция «Перспективные информационные технологии», г. Самара (2014 г., 2016 г. и 2017 г.).
Конференция "Информационные технологии и нанотехнологии", г. Самара (2016 г. и 2017 г.).
XXIV Всероссийская конференция «Структура и динамика молекулярных систем», г. Йошкар-Ола (2017 г.).
Публикации по теме диссертации. Результаты диссертационной работы отражены в 19 публикациях, в том числе 5 публикациях в рецензируемых журналах из перечня ВАК и 1 публикация в рецензируемом журнале из перечня Scopus. 2 свидетельства о регистрации ПО в ФИПС. Результаты по направлению диссертационной работы были представлены на Областном конкурсе «Молодой ученый года-2015» Министерства образования и науки Самарской области, где автор стал победителем.
Личный вклад автора. В диссертационной работе использованы результаты, в которых автору принадлежит определяющая роль. Часть опубликованных работ написана в соавторстве с сотрудниками научной группы. Соискатель непосредственно разработал модель искусственной иммунной системы с применением механизма анализа соответствий. Также лично автором разработаны основные методы и алгоритмы комплекса программ.
Положения, выносимые на защиту:
1. Метод оптимизации количества атрибутов запросов, основанный на
применении механизма анализа соответствий и вероятностных методов с
получением репрезентативного набора данных для алгоритмов машинного
обучения, позволяющий снизить количество анализируемых атрибутов не менее
чем в 1,5 раза для эталонных наборов данных протоколов TCP, HTTP/1.1 и SMTP
и не менее чем в 2 раза для формируемых наборов данных.
-
Метод кластеризации аномальных запросов с представлением атрибутов в номинальных шкалах позволяющий снизить размер анализируемого множества в среднем не менее чем в 2.7 раза для эталонных наборов данных протоколов TCP, HTTP/1.1 и SMTP.
-
Алгоритм ИИС по обнаружению аномальных запросов для протоколов TCP, HTTP/1.1 и SMTP с применением метода анализа соответствий, позволяющий повысить эффективность обнаружения угроз, по сравнению с алгоритмом
логистической регрессии не менее чем на 5% и алгоритмом искусственной нейроной сети не менее чем на 4%, и уровнем ложного срабатывания не более 6%.
4. Программный комплекс обнаружения аномальных запросов, позволяющий повысить защищенность информационной системы в части обнаружения новых угроз с использованием адаптивного механизма ИИС.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 152 наименований, 5 приложений. Общий объем работы составляет 127 страниц, в том числе 13 рисунков и 37 таблиц.
Системы обнаружения и предотвращения вторжений
В разделе 1.5 рассматриваются наборы данных (Datasets) как один из важнейших способов обучения и оценки работы адаптивных алгоритмов в рамках систем обнаружения вторжений.
В качестве рассматриваемых наборов были выбраны те, что отвечают за работу с наиболее популярными протоколами: NSL-KDD ISCX Dataset (протокол работы TCP, UDP, ICMP). CSIC 2010 (протокол работы HTTP/1.1). Enron Dataset (протокол работы SMTP). Каждый набор данных несет в себе конечное множество атрибутов, характерных для конкретного протокола вида "ключ (атрибут)-значение".
С точки зрения задачи классификации, каждый запрос можно отнести к одному из двух классов: о normal - класс запросов, которые потенциально не опасны для конечной системы; о abnormal - класс запросов, выполнение которых может привести к некорректной работе конечной системы. Формально задача обнаружения аномальных запросов сводится к задаче классификации, т.е. разработке функции-гипотезы: (2.1) где является отображением множества признаков Р = {pj запросов на множество С = { normal , abnormal } классов, а в - вектор параметров объекта машинного обучения. При этом является вектором в и-мерном пространстве признаков запроса, , Рг - вектором признаком, а числовым кодом класса. Тогда для решения задачи классификации запросов требуется решить следующие подзадачи:
1. Выбор алгоритма, реализуемого функцией h(x). В данной работе роль функции h(x) реализует технология искусственного интеллекта с применением механизма анализа соответствий, а набор параметров определяется итеративно с помощью алгоритма машинного обучения.
2. Выбор множества признаков P, характеризующих запросы к конечной системе.
Перед разработкой адаптивного алгоритма искусственной иммунной системы необходимо разработать формальную модель запроса, позволяющую вывести из неё необходимые признаки для решения задачи классификации. При выборе обозначенных выше наборов, необходимые для классификации признаки уже присутствуют.
Как было указано выше, все наборы данных состоят из минимум двух подмножеств: o обучающая выборка (training dataset) - на котором осуществляется подбор параметров с целью получения максимального результата в процессе формирование адаптивного алгоритма; o тестовая выборка (testing dataset) - на котором осуществляется проверка качества обучения адаптивного алгоритма. В каждом из этих множеств метрика объектов одинакова. Рассмотрим формальные модели запросов (метрики) в выбранных наборах данных.
Предшественником набора данных NSL-KDD Dataset является множество KDD99 Dataset. KDD99 де-факто является первым стандартом в области Dataset для систем обнаружения вторжений, созданным для проведения сравнительного тестирования адаптивных алгоритмов в системах обнаружения вторжений [100, 101].
В силу развития систем обнаружения вторжений, в реализации KDD99 было обнаружено большое количество недостатков [102], которые впоследствии были устранены путем реализации NSL-KDD Dataset. NSL-KDD DataSet содержит в себе ряд преимуществ по сравнению с KDD99 среди которых можно выделить такие как: o удаление ряда записей с целью устранения влияния частотных характеристик (избыточность, дублирование) на адаптивный механизм; o более продуманный подход к формированию тестовых и обучающих множеств и т.д.
Наименование Количество множества Записей Нормальных запросов DoS Probe U2R R2L KDDTrain+20% 25192 13449 9234 2289 11 209 53.39% 36.65% 9.09% 0.04% 0.83% KDDTrain+ 125973 67343 45927 11656 52 995 53.46% 36.46% 9.25% 0.04% 0.79% KDDTest+ 22544 9711 7458 2421 200 2754 43.08% 33.08% 10.74% 0.89% 12.22% Объекты в NSL-KDD Dataset представляют из себя соединения последовательность (TCP, UDP, ICMP)-пакетов, зафиксированную в определенный промежуток времени, в которую заключен поток данных от IP-адреса источника к IP-адресу назначения в соответствии с некоторым определенным протоколом [103]. Набор данных содержит 4 категории угроз: Denial of Service (dos). Набор атак, в которых злоумышленник ограничивает доступ верифицированным пользователям к конкретному сервису через определенный протокол (Back, Land, Neptune, Pod, Smurf,Teardrop,Apache2, Udpstorm, Processtable, Worm). Remote to Local (r2l). Набор атак, в которых злоумышленник пытается получить доступ извне к локальной машине пользователя (Guess_Password, Ftp_write, Imap, Phf, Multihop, Warezmaster, Warezclient, Spy, Xlock, Xsnoop, Snmpguess, Snmpgetattack, Httptunnel, Sendmail, Named). User to Root (u2r). Набор атак, в которых злоумышленник имея доступ к машине жертвы пытается получить права более привилегированного пользователя (Buffer_overflow, Loadmodule, Rootkit, Perl, Sqlattack, Xterm, Ps). Probe. Набор атак, в которых злоумышленник пытается получить сведения об инфраструктуре пользователя (Satan, Ipsweep, Nmap, Portsweep, Mscan, Saint).
Хотя размерность вектора (количество атрибутов в запросе) в NSL-KDD Dataset ровняется 43, для реальной работы используется 41 атрибут. 42-ой атрибут представляет категорию угрозы, а 43-ий - о сложности реализации атаки (от самого простого к самому сложному). Таким образом, формальная модель запроса для набора данных NSL-KDD Dataset представляет из себя вектор размерности 41.
Анализ экземпляров аномальных и не аномальных запросов
В рамках искусственной иммунной системы классы информации это наборы популяций искусственных иммунных клеток [137].
В теории искусственных иммунных систем выделяют понятие 5-клетки (/?-клетки, далее / -элемент) как элемента (объекта) исследуемого множества [138]. Наиболее характерным представлением /?-клетки является вектор, однако элемент может быть задан, например, в виде матрицы [138]. Дополнительно выделяют понятие 5-клетки с памятью (ВТ клетка, уГ-клетка, далее уГ-элемент) как элемента (объекта) имеющего в своей структуре элемент стабильного решения исследуемого множества. Под стабильным решением может пониматься, например, удачная комбинация атрибутов вектора. Множество уГ-элементов называется генной библиотекой G. Количество уГ-элементов по общему представлению всегда строго меньше количества / -элементов. Соотношение /?-элементов и //"-элементов различно в зависимости от решаемой задачи, зачастую слабо связано с природной оценкой в 20-30% [139] и находится эмпирически. Конечной целью работы любой искусственной иммунной системы является создание генной библиотеки минимизирующей ошибки первого и второго рода на стадии тестовых испытаний. Таким образом, любая искусственная иммунная система W представляет собой множество и элементов, W = B U Br = (p1.../]k) U (fi1m.../]sm).
В настоящей работе, -элемет представляет собой дуплет р = (с, Р), где - класс клетки, - вектор в w-мерном Евклидовом пространстве, лежащий внутри единичной гиперсферы И =1. С целью выявления только аномальных запросов, предполагается, что значение класса с всегда определено и однозначно идентифицирует угрозу (класс аномальных запросов).
В качестве метрики в искусственных иммунных системах используется понятие аффинности1 (Affinity или ). Аффинность двух элементов есть отношение между количеством общих сущностей, из которых состоят эти элементы к норме. Норма двух элементов - минимальное количество сущностей, образующих каждым из элементов. Другими словами, аффинность в ИИС - есть значение расстояния между элементами. -элемент "узнает" -элемент, если оба элемента относятся к одному и тому же классу и расстояние между ними меньше или равно пороговому значению (порог аффинности AT - Affinity Threshold). В настоящей работе, в качестве метрики в силу наличия построенного метрического пространства предлагается использовать формулу расстояния 2.9.
В качестве AT предлагается использовать среднеарифметическое расстояние между элементами кластеров и мнимыми центрами. При расчете коэффициента AT не берутся кластеры, в которых количество элементов равно одному, т.к. в данном случае элемент и является центром кластера. Существует два правила поведения иммунной сети W при работе с параметром AT Апоптоз - если клетка Vt "узнает" клетку V}-, то Vt удаляется из W; Аффинность - мера сходства между антигеном и антителом [140]. Иммунизация - если Vi является ближе к Vj, чем все остальные клетки иммунной сети W, то Vi добавляется к множеству W.
То есть, вокруг каждого -элемента образуется область радиуса AT, в которой все элементы (блоки) будут считаться аномальными, а элементы не попадающие в данный «шар» - не аномальными. С учетом того, что величина аффинности указывается одинаково всем / -элементам, мы имеем дело с «шарами» одинакового радиуса AT.
Таким образом, процедура классификации на основе иммунных вычислений сводится к проецированию входного образа в пространство формальной иммунной сети и присвоение ему класса ближайшей клетки ИИС.
С целью поддержания вариативности алгоритма и увеличения числа новых -элементов, в искусственной иммунной системе существуют операции мутация (Mutating) и клонирование (Cloning) [142]. Под мутацией элемента понимается процесс случайного изменения значений части его атрибутов. Под коэффициентом мутации понимается значение, указывающее количество атрибутов от общего числа, которое будет изменено. Другими словами, операция мутации (Mutating) определяется в виде функции: (3.1) где - k атрибутов вектора /?- элемента, которое будет изменено, - коэффициент мутации. В качестве исходного значения для аномальных запросов можно применить следующую формулу: (3.2) где – количество атрибутов в рамках объекта запросов. Данная формула справедлива в силу того, что как минимум один атрибут из вектора запроса будет подвержен изменению.
Под операцией клонирования (Cloning) понимается функция простого поэлементного "копирования" -элементов. Применяется сразу после операции мутации и заключается в создании дубликатов новых полученных -элементов во множество уже имеющихся элементов. С точки зрения практической реализации, операция клонирования означает создание вртуальной копии объекта -элемента в оперативной памяти компьютера.
Таким образом, операция мутация обеспечивает создание новых элементов, потенциально способных распознавать новые аномальные запросы, а клонирование отвечает за их «распространение» в рамках системы. Постоянное создание новых -элеметов и присутствующий механизм их ликвидации через расстояние до других элементов придает системе динамичность и вариативность. Клонирование и мутация производятся только над m – элементами, с целью дальнейшего создания уже зарекомендовавших себя в процессе обнаружения угроз элементов.
Таким образом, существует механизм балансировки -элементов и m-элементов. Докажем утверждение зависимости количества m-элементов от -элементов при применении операций мутации и клонирования с фиксированным значением возраста для -элемента. После рассмотрения характеристических параметров рассмотрим пример формальной реализации искусственной иммунной системы.
Практический аспект оптимизации количества атрибутов у наборов данных механизмом анализа соответствий
Модуляция "произвольного числа" в процедуре клонироаниеМутация основана на «Вихре Мерсенна»2. Выбор данного генератора основан на изначальной практической реализации алгоритма ИИС на языке программирования PHP 7.0 и наличии единственной функции качественной генерации псевдослучайных чисел - mt_rand(), которая и основывается на "Вихре Мерсенна". УМ определяется из соотношения (3.4). С другой стороны, УК определяет сколько будет создано новых элементов в рамках одного запроса. Для проведения эксперимента предлагается использовать величину равную размерность кортежа запроса. Мутация обеспечит изменения как минимум одного среднего длины слова, а клонирование распространение измененного варианта в рамках генной библиотеки G на длину, не превышающую размерности запроса [149-151].
В таблице 4.6 приведены показатели эффективности классификатора с рассчитанным порогом аффинности. Также для каждого эксперимента показано отношение числа -элементов к m-элементам.
С другой стороны, после применения методов уменьшения атрибутов в запросах качество классификации незначительно снизилось (не более чем на 2% для C0 и 1% для C1), при незначительном увеличении уровне ложных срабатываний (не более чем на 1%).
Относительно проведенных исследований можно заключить следующие выводы: 1. Применение методов оптимизации атрибутов у аномальных запросов методом множественного анализа соответствий (глава 2) незначительно влияет на общую эффективность обучения и дальнейшего тестирования адаптивных алгоритмов. Таким образом, можно заключить, что использование данного метода имеет смысл с целью дальнейшей оптимизации ресурсов. 2. Эффективность классификатора на основе предложенной искусственной системы с использованием механизма анализа соответствий выше на основе алгоритма логистической регрессии в среднем на 5-10% и на основе искусственной нейронной сети в среднем на 4-8%. 3. Выбранные алгоритмы показали свою эффективность при работе с разными наборами данных, что говорит об их универсальности и возможности применения в рамках любого протокола передачи данных, где требуется процесс бинарной классификации данных (мультипротокольность). 4. Также можно заключить, что чем меньше количество атрибутов в запросе конкретного протокола, тем больше уровень ложных срабатываний. Также можно сделать выводы относительно качества классификации и параметров алгоритма искусственной иммунной системы: 1. При анализе набора данных искусственной иммунной системы, чем меньше аффинное расстояние, тем выше эффективность распознавания. 2. Общее количество m-элементов в среднем варьируется в диапазоне около 10-15% от количества -элементов.
Помимо выбранных множеств было проведено исследование работы алгоритма в рамках системы обнаружения вторжений на предприятии. Для этого были проведены исследовательские и опытно-конструкторские разработки.
Для проведения тестирования в рамках работы алгоритмов машинного обучения в системе обнаружения вторжений была выбрана корпоративная сеть с передаваемыми по ней данными в рамках протоколов SMTP и HTTP/1.1. С целью первичного внедрения системы обнаружения вторжений, была предложена модель клиент-серверного приложения.
В рамках практической реализации была выбрана корпоративная система с внедренной системой обнаружения вторжений, имеющая в качестве структуры три базовых элемента (три уровня):
1. Сервера баз данных, реализующего все структуры баз данных для хранения информации, необходимой для работы системы обнаружения вторжений (серверная часть). Реализация: сервера баз данных MySQL, Oracle, Postgre, SQLite, MariaDB (далее на базе именной этой БД осуществляется практическая реализация системы).
2. Сервера приложения, на базе которого многоуровневая система обнаружения вторжений функционирует (серверная часть). Реализация: отдельная программа или сервис, реализованный на языках программирования (C++, ASM, JAVA, PHP). 3. Сервера отображения, реализующего интерфейсы взаимодействия как оператора, так и внешних систем с системой обнаружения вторжений (клиентская часть). Реализация: в качестве реализации сервера отображения было выбрано веб-серверное решение (Apache+NGINX), а основным языком обработки стал (PHP). Общая схема, иллюстрирующая трехуровневую архитектуру клиент-серверного приложения системы обнаружения вторжений, представлена на рисунке 4.4.
Под провайдером базы данных, в данном случае, понимается программно-аппаратный комплекс, реализующий функционал взаимодействия (как прием, так и передачу информации) сторонних приложений с базой данных. - СОВ с помощью адаптивных алгоритмов проводит анализ этих запросов, взаимодействуя через провайдер БД (MariaDB); - провайдер БД (MariaDB) отправляет и получает необходимые данные из базы данных (MariaDB); - клиент (оператор или иная сторонняя система система) используя тот же провайдер базы данных (MariaDB) формирует запрос к базе данных, используя при этом либо визуальный компонент отображения (клиентская часть клиент-серверного приложения), либо API; - используя интерпретатор (PHP) и веб-сервер производится отображение (отдача) необходимой информации на сторону клиента (оператора или сторонней системы). Реализация, организующая принцип клиент-серверного приложения обладает как своими плюсами, так и минусами. В качестве положительных моментов можно выделить:
Анализ эффективности алгоритмов машинного обучения на наборах данных
Представленное клиент-серверное приложение реализует следующую последовательность передачи информации в ходе функционирования СОВ:
Сервер СОВ - Сервер Apache (веб-серверное решение)– Провайдер базы данных3 (MariaDB)– Сервер баз данных (MariaDB) - Провайдер базы данных (MariaDB) - Интерпретатор (PHP)- Веб-сервер (Apache + NGINX).
Последовательность передачи информации включает в себя следующие шаги: - В СОВ, через обработчик логов веб-сервера, поступают запросы из сети Интернет на КП. Запросы, с помощью ПО приводится к виду экспивалентному тому, который имеют запросы в наборе данных CSIC 2011 и Enron Dataset; 3 Под провайдером базы данных, в данном случае, понимается программно-аппаратный комплекс, реализующий функционал взаимодействия (как прием, так и передачу информации) сторонних приложений с базой данных. - СОВ с помощью адаптивных алгоритмов проводит анализ этих запросов, взаимодействуя через провайдер БД (MariaDB); - провайдер БД (MariaDB) отправляет и получает необходимые данные из базы данных (MariaDB); - клиент (оператор или иная сторонняя система система) используя тот же провайдер базы данных (MariaDB) формирует запрос к базе данных, используя при этом либо визуальный компонент отображения (клиентская часть клиент-серверного приложения), либо API; - используя интерпретатор (PHP) и веб-сервер производится отображение (отдача) необходимой информации на сторону клиента (оператора или сторонней системы). Реализация, организующая принцип клиент-серверного приложения обладает как своими плюсами, так и минусами. В качестве положительных моментов можно выделить: 1. Обслуживание. Клиент-серверное приложение включает в себя функционал по распределению функций анализа информационных потоков между несколькими независимыми элементами ИС в рамках ЛВС. 2. Кластерная защита. Системы обнаружения вторжений защищены гораздо лучше, нежели анализируемые ими узлы. Точка входа на сервер, откуда производится управление СОВ, одна, и используется либо оператором, либо сторонней системой. 3. Низкие требования к производительности и техническим характеристикам клиентов (терминалов), и как следствие снижение их стоимости. Терминалом может выступать не только компьютер, но и, например, смартфон или мобильный телефон. 4. Единый клиент для всех СОВ.
В качестве отрицательных моментов можно выделить: 1. Сложность реализации. Для каждого узла или протокола передачи данных требуется написание отдельного провайдера, проведение нормализации данных, корректировка и адаптация атрибутов, для дальнейшего взаимодействия с адаптивными алгоритмами СОВ. 2. Неработоспособность узла управления системами обнаружения вторжений, может сделать неработоспособной всю систему безопасности ИС. Рассмотрим применение клиент-серверной модели в рамках работы СОВ в ЛВ предприятия. 4.4.2 Практическая схема работы СОВ в ИС Для проведения практических испытаний была взята ЛВС предприятия с выбором двух узлов (mail сервер и web сервер), в которые были имплементированы СОВ1 и СОВ2 соответственно. Апробация проводилась в течение 30 дней, где, данные полученные за 10 дней использовались для обучения и тестирования адаптивных алгоритмов, работающих в рамках СОВ. Из полученной информации были сформированы наборы данных, представленные в таблицах 4.7 и 4.8. Таблица 4.7 – Наборы множеств согласно формату запросов из CSIC 20 №12 3 Наименование множества Кол-во записей Описание Anomalous test 4786 Множество аномальных запросов Normal training 15618 Множество тестовых запросов "Full" dataset 59843 Полное множество аномальных и тестовых запросов (обычный трафик) Таблица 4.8– Наборы множеств согласно формату запросов из Enron Dataset № Наименование множества Кол-во записей Описание 1. Spam 1755 Множество аномальных запросов 2. Ham 2375 Множество тестовых запросов 3. Raw dataset 12539 Полное множество аномальных и тестовых запросов (обычный трафик) К обозначенным СОВ была применена клиент-серверная модель с единым центром управления, находящимся у Оператора. Практическая схема интеграции СОВ в ЛВС предприятия представлена на рисунке 4.5. В качестве решаемой задачи бралась задача классификации входящих данных на классы аномальных и не аномальных запросов. В случае получения любых запросов вход СОВ (СОВ1 или СОВ2), происходит их первичная обработка и приведения согласно видам из набора данных CSIC 2010 HTTP/1.1 и Enron Dataset соответственно, с последующей классификацией. Рисунок 4.5 – Инсталляционная модель После применения полученных алгоритмов в рамках работы в ЛВС предприятия были получены следующие значения (таблицы 4.9, 4.10 и 4.11). Таблица 4.9 – Результаты работы классификатора на основе алгоритма логистической регрессии Оптимизация атрибутов С0(%) С1(%) RTp(%) RFP(%) P(%) F(%) СОВ1 - 86 79 87 14 89 + 84 77 86 16 84 87 СОВ2 - 86 90 91 14 89 + 82 89 89 18 86 90 Таблица 4.10 – Результаты работы классификатора на основе искусственной нейронной сети Оптимизация атрибутов С0(%) С1(%) RTp(%) RFP(%) P(%) F(%) СОВ1 - 88 79 87 12 89 + 87 77 86 13 84 87 СОВ2 - 87 91 91 13 89 + 86 90 89 14 86 90 Таблица 4.11 – Результаты работы классификатора на основе искусственной иммунной системы Aff /Г//? (%) Оптимизаци я атрибутов С0(% ) С1(% ) RTp(%) RFF(% ) P(%) F(%) СОВ1 0.01 22 - 97 96 96 3 92 95 + 96 94 94 4 91 0.05 19 - 95 94 93 5 90 93 + 95 92 91 5 88 0.1 16 - 94 91 90 6 88 91 + 94 90 88 6 87 90 СОВ2 0.01 21 - 94 93 94 6 92 93 + 94 92 93 6 91 0.05 20 - 93 91 92 7 90 91 + 92 90 90 8 89 0.1 19 - 92 89 90 8 89 89 + 91 88 89 9 87 88 Таким образом, полученные расчеты целиком и полностью согласуются с результатами, полученными в предыдущей главе. Исходя из этого, можно утверждать, что системы обнаружения вторжения, работающие на предложенных адаптивных алгоритмах, в том числе и искусственная иммунная система могут быть применены в рамках работы ЛВС предприятия.
Из общего анализа оператором классифицированных запросов, и как следствие, оценки результатов, отображенных в таблицах 4.9, 4.10 и 4.11 следует, что искусственная иммунная система обеспечивает наиболее оптимальный баланс между процентом аномальных запросов от общего числа запросов и актуальной точностью.