Содержание к диссертации
Введение
ГЛАВА 1. Классификация сетевых аномалий и анализ существующих методов их обнаружения 13
1.1 Классификация сетевых аномалий
1.1.1 Удаленное сканирование сетевых ресурсов 14
1.1.2 «Отказ в обслуживании» 15
1.1.3 Удаленное «переполнение буфера» 15
1.1.4 Аппаратные сбои сетевых устройств 16
1.1.5 Программные сбои сетевых приложений 16
1.1.6Вирусы, сетевые черви 17
1.1.7 Скрытые люки 17
1.2 Особенности аномалий, распределенных во времени 18
1.3 Обзор существующих методов обнаружения аномалий 21
1.3.1 Методы выявления аномалий, реализованные в современных системах. 22
1.3.2 Обзор результатов исследований, проводимых в зарубежных научно-исследовательских центрах 29
1.4 Требования к создаваемой методике и ее программной реализации 42
1.4.1 Требования к методу обнаружения аномалий 42
1.4.2 Требования к технической реализации. 43
1.4.3 Пользовательские требования 44
Выводы 45
ГЛАВА 2. Разработка методики обнаружения аномалий 47
2.1 Схема обработки сетевого трафика 48
2.2 Выбор объекта анализа 49
2.3 Модель сетевого устройства 54
2.4 Структуризация сетевого трафика 61
2.5 Формирование шаблона нормального поведения сетевого устройства
2.6 Методика выявления распределенных во времени аномалий 67
Выводы 72
ГЛАВА 3. Разработка системы принятия решений по выявлению аномалий, распределенных во времени 73
3.1. Исследование математических свойств характеристик сетевых устройств 73
3.1.1 Описание тестовой среды... 73
3.1.2 Анализируемые массивы данных 75
3.1.3 Результаты анализа математических свойств отдельных характеристик (одномерный анализ) 77
3.1.4 Результаты анализа математических свойств совокупности характеристик (многомерный анализ) 82
3.2 Система принятия решений для выявления аномалий 88
3.2.1 Основные принципы, лежащие в основе системы принятия решений 88
3.2.2 Построение системы принятия решений, оценивающей степень аномальности отдельных событий 90
3.2.3 Построение системы принятия решений, оценивающей степень аномальности множества событий 98
3.3 Вопросы автоматизации системы принятия решений и анализа ее эффективности 104
Выводы 116
ГЛАВА 4. Разработка программной системы выявления аномальных состояний компьютерной сети
4.1 Архитектура САВС 119
4.1.1 Принципы функционирования 119
4.1.2. Соотнесение принципов архитектуры САВС с требованиями к методике выявления аномалий 120
4.1.3 Вопросы повышения эффективности работы отдельных компонент 122
4.2 Структуры таблиц базы данных 124
4.3 Сетевой агент 125
4.4 Система управления ресурсами 128
4.5 Система отображения и анализа данных 142
4.6 Интеграция компонент САВС 150
Опытная эксплуатация САВС 151
Выводы 152
Заключение 154
Библиография 157
Приложения 165
- Особенности аномалий, распределенных во времени
- Модель сетевого устройства
- Результаты анализа математических свойств отдельных характеристик (одномерный анализ)
- Соотнесение принципов архитектуры САВС с требованиями к методике выявления аномалий
Введение к работе
Актуальность проблемы. Важнейшим атрибутом нашего времени является глобальная информационная интеграция, основанная на построении компьютерных сетей масштаба предприятия и их объединении посредством сети Internet.
Сложность логической и физической организации современных сетей приводит к объективным трудностям при решении вопросов управления и защиты сетей. В процессе эксплуатации компьютерных сетей администраторам приходится решать две главные задачи:
Диагностировать работу сети и подключенных к ней серверов, рабочих станций и соответствующего программного обеспечения;
Защищать информационные ресурсы сети от несанкционированной деятельности хакеров, воздействий вирусов, сетевых червей и т.п., то есть обеспечивать их конфиденциальность, целостность и доступность.
При решении задач, связанных с диагностикой и защитой сетевых ресурсов, центральным вопросом является оперативное обнаружение состояний сети, приводящих к потере полной или частичной ее работоспособности, уничтожению, искажению или утечке информации, являющихся следствием отказов, сбоев случайного характера или результатом получения злоумышленником несанкционированного доступа к сетевым ресурсам, проникновения сетевых червей, вирусов и других угроз информационной безопасности. Раннее обнаружение таких состояний позволит своевременно устранить их причину, а также предотвратит возможные катастрофические последствия.
Для их обнаружения используется большой спектр специализированных систем. Так, при решении проблем диагностики сетей применяются средства систем управления, анализаторы сетевых протоколов, системы нагрузочного тестирования, системы сетевого мониторинга. Проблемы защиты информационных ресурсов сетей решаются с помощью межсетевых экранов (firewall), антивирусов, систем обнаружения атак (IDS), систем контроля целостности, криптографических средств защиты.
Характерными особенностями использования этих систем является либо их периодическое и кратковременное применение для решения определенной проблемы, либо постоянное использование, но с довольно статическими
6 настройками. Так, методы анализа, используемые в современных системах, направлены на обнаружение известных и точно описанных типов воздействий, но зачастую оказываются не в состоянии обнаружить их модификации или новые типы, что делает их использование малоэффективным,
Таким образом, на сегодняшний день очень актуальной задачей является поиск более эффективных методов выявления недопустимых событий (аномалий) в работе сети, являющихся следствием технических сбоев или несанкционированных воздействий. Основным требованием к этим методам является возможность обнаружения произвольных типов аномалий, в т.ч. новых, а также воздействий, распределенных во времени.
Это направление научных исследований является очень молодым. Первые работы, посвященные данной проблеме, были опубликованы в 90-х годах прошлого столетия.
В настоящий момент, исследования в этой области ведутся как крупными зарубежными коммерческими компаниями (Cisco [18,19], Computer Associates [21], ISS [74], Symantec [80] и др.), так и университетскими научно- исследовательскими центрами (Columbia University [26,50,70], Florida Institute of Technology [17,56,57,58], Purdue University [46], Ohio University [5,13,72,73] и др.). К сожалению, в свободном доступе представлено очень мало информации по аналогичным российским исследованиям.
Общий подход, лежащий в основе этих исследований, заключается в поиске методов анализа, позволяющих выявлять аномальные состояния информационных ресурсов в виде отклонений от обычного («нормального») состояния. Эти отклонения могут являться результатами сбоев в работе аппаратного и программного обеспечения, а также следствиями сетевых атак хакеров. Такой подход теоретически позволит обнаруживать как известные, так и новые типы проблем. От эффективности и точности аппарата, определяющего «нормальное» состояние и фиксирующего отклонение, зависит в целом эффективность решения вопросов диагностики и защиты сетевых ресурсов.
Особую важность на текущий момент представляет проблема обнаружения аномальных состояний в работе сети, имеющих распределенный во времени характер (АРВ), АРВ могут являться следствиями: специально маскируемых
сетевых атак злоумышленников, скрытых аппаратно-программных сбоев, новых вирусов и т.п.
Цели работы. Целью работы являлась разработка методики выявления АРВ компьютерной сети на основе анализа сетевого трафика и создание программной системы, реализующей предложенную методику.
Основные направления работы сводятся к решению следующих задач:
Разработка принципов структуризации сетевого трафика;
Выбор объекта анализа, обоснование выбора;
Разработка принципов и механизмов формирования характеристик объекта анализа;
Исследование статистических свойств сетевых потоков, характеризующих поведение объекта анализа на сетевом и транспортном уровнях TCP/IP, выявление закономерностей в их поведении и степени влияния па них АРВ;
Разработка математической модели объекта анализа, позволяющей задать шаблон его «нормального» поведения;
Разработка СПР, позволяющей фиксировать переход объекта анализа в аномальное состояние (по степени отклонения от шаблона «нормального» поведения) и корректировать собственные параметры при объективно «нормальных» изменениях в сетевой среде (свойство адаптивности);
Разработка принципов использования математической модели объекта анализа и системы принятия решений для выявления сетевых аномалий;
Разработка архитектуры программной системы, реализующей предложенную методику;
Создание прототипа CAB С,
Сетевой трафик выбран в качестве информационных данных для выявления сетевых аномалий не случайно. Он является наиболее полным источником данных о происходящих в сети взаимодействиях.
Другими источниками данных могут выступать данные, накапливаемые активным сетевым оборудованием в собственных базах МІВ (Management Information Base) или данные, содержащиеся в лог-файлах операционных систем и приложений. Это также очень важные источники информации, но эффективность
8 выявления аномалий на их основе будет ниже вследствии изначально более низкой информационной насыщенности.
Выбор TCP/IP в качестве анализируемых протоколов обусловлен их повсеместным распространением при построении современных сетей.
Методы исследований. В теоретических исследованиях применены современные методы теории вероятностей, математической статистики, кластерный анализ.
При разработке программной системы использовались методы объектно-ориентированного проектирования и программирования.
Достоверность научных результатов. Достоверность научных результатов подтверждена результатами статистических исследований реального сетевого трафика, а таюке результатами внедрения и практического использования в действующих компьютерных сетях.
Научная новизна диссертации заключается в следующем:
Впервые предложена методика решения важной научно-технической задачи выявления аномальных состояний сетевого устройства, имеющих распределенный во времени характер;
Создана новая математическая модель функционирования сетевого устройства на основе интегральных показателей, извлекаемых из полей сетевых пакетов;
Предложена система принятия решений, выявляющая распределенные во времени аномалии в функционировании сетевого устройства, описываемого указанной математической моделью;
Получены сравнительные результаты статистических исследований интегральных показателей работы сетевого устройства при «нормальном» функционировании и в случае наличия АРВ, позволившие разработать решающие правила системы принятия решений.
Замечание. В источниках, доступных в свободном доступе, автору не удалось обнаружить результатов исследований, делающих акценты на выявлении АРВ на основе анализа сетевого трафика. Поэтому можно утверждать, что приводимые в работе результаты получены впервые.
Разработаны и обоснованы методы структуризации сетевого трафика и последующего формирования интегральных показателей сетевого устройства, позволяющие снизить объем обрабатываемых данных без существенной потери степени информативности с точки зрения обнаружения АРВ;
Предложена распределенная архитектура программной системы, автоматизирующая методику выявления АРВ;
Разработаны и реализованы алгоритмы работы отдельных программных модулей, протокол сетевого взаимодействия между компонентами программной системы. Создан ее прототип.
Положения, выносимые на защиту:
Методика выявления аномальных состояний сетевого устройства, имеющих распределенный во времени характер;
Математическая модель функционирования сетевого устройства на основе интегральных показателей, извлекаемых из полей сетевых пакетов;
Система принятия решений, выявляющая распределенные во времени аномалии в функционировании сетевого устройства, описываемого указанной математической моделью;
Результаты статистических исследований интегральных показателей работы сетевого устройства при «нормальном» функционировании и в случае наличия АРВ, позволившие разработать решающие правила системы принятия решений.
Методы структуризации сетевого трафика и последующего формирования интегральных показателей сетевого устройства, позволяющие снизить объем обрабатываемых данных без существенной потери степени информативности с точки зрения обнаружения АРВ;
Архитектура распределенной программной системы, автоматизирующая методику выявления АРВ;
Алгоритмы работы отдельных программных модулей, протокол сетевого взаимодействия между компонентами системы.
Практическая ценность. Основной практический результат: создание научно - обоснованной методики выявления аномальных состояний сетевого устройства, имеющих распределенный во времени характер.
Разработаны и внедрены алгоритмы структуризации сетевого трафика и формирования интегральных показателей функционирования СУ,
Разработаны и внедрены алгоритмы визуализации истории сетевых взаимодействий.
Разработаны и внедрены алгоритмы решающих правил для оценивания степени аномальности поведения сетевого устройства на временных интервалах различной длительности.
Предложенные методы могут быть использованы при построении систем, предназначенных для выявления аномальных состояний компьютерных сетей.
Реализация результатов. Методы и алгоритмы, предложенные в диссертации, были реализованы в виде программного комплекса, получившего название «Система Аудита Вычислительной Сети» (САВС).
САВС внедрена в сети МИФИ, а также в представительствах коммерческих компаний "Bcauty&Co" и "Aria" (что подтверждено соответствующими актами о внедрении (см. приложение 8)).
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались:
На научных сессиях МИФИ с 2001 по 2004 гг.;
На Х1-ом и ХП-ом Международных научно-технических семинарах «Современные технологии в задачах управления, автоматики и обработки информации» (г. Алушта 2002,2003 гг.);
Работа участвовала в конкурсе молодых ученых «Ползуновскис гранты'2002» (Барнаул, 2002г.) и стала ее лауреатом. В результате был получен грант на проведение исследовательских работ от Фонда поддержки развитию малых форм предприятий в научно-технической сфере,
На ХШ-ой ежегодной конференции «Техникон'2003» (г.Москва 2003г.).
В начале 2004 года данная работа в виде проекта по созданию программного комплекса «Система Аудита Вычислительной Сети»
II прошла конкурсный отбор по программе «СТАРТ», проводимой Фондом поддержки развитию малых форм предприятий в научно-технической сфере для поддержки малых предприятий, занимающихся наукоемкими разработками. Для ее реализации в виде инновационного коммерческого программного продукта были выделены финансовые средства. В настоящий момент продолжается реализация и доведение до совершенства всех предложенных в работе идей в рамках этой программы. Публикации, По теме диссертации опубликовано 13 печатных работ. Далее кратко изложено содержание диссертации.
Первая глава посвящена анализу текущего состояния решения в мире проблемы выявления аномальных состояний компьютерный сетей на основе анализа сетевого трафика.
В ней приводится классификация известных типов сетевых аномалий, анализируются результаты анализа методов обнаружения аномалий, реализованных в коммерческих системах.
Рассматриваются и анализируются доступные в свободном доступе результаты исследований по данной проблеме в крупнейших западных научно-исследовательских центрах и университетах.
Приводятся выявленные недостатки существующих подходов и методов обнаружения сетевых аномалий и формулируются основные требования к программной реализации системы выявления аномальных состояний компьютерной сети.
Вторая глава посвящена разработке методики выявления распределенных во времени аномалий.
В ней рассматриваются и обосновываются входные данные для обнаружения АРВ, принципы структуризации сетевого трафика, общие идеи выявления АРВ, принципы создания и модификации шаблона «нормального» поведения сетевых устройств, ключевые идеи, связанные с автоматизацией методики в целом.
Третья глава посвящена разработке системы принятия решений (СПР), реализующей принципы выявления АРВ,
В ней приводятся результаты исследований математических свойств характеристик сетевых устройств. Исследования осуществлялись на основе реальных данных, полученных при захвате и структуризации трафика в течении нескольких месяцев в сети МИФИ с помощью прототипа САВС. Анализ был направлен как на выявление свойств отдельных характеристик, так и их совокупности.
Кроме этого, в третьей главе предлагаются и обосновываются алгоритмы работы СПР по выявлению распределенных во времени аномалий сетевых устройств, приводится оценка их эффективности и рассматриваются результаты проверки их реальной работоспособности.
Четвертая глава диссертационной работы описывает практические аспекты разработки и создания Системы Аудита Вычислительной Сети (САВС). В этой главе рассматривается программная архитектура САВС.
Детально описываются отдельные программные компоненты САВС: сетевой агент, система управления ресурсами (СУР), система отображения и анализа данных (СОАД).
Рассматриваются вопросы программной реализации, связанные с воплощением конкретных положений методики и оптимизацией работы отдельных компонент.
Приводятся результаты опытной эксплуатации САВС.
Особенности аномалий, распределенных во времени
В процессе эксплуатации компьютерных сетей администраторы сталкиваются с большим спектром их аномальных состояний. К ним относятся технические (или программно-аппаратные) сбои, отказы, вызванные непреднамеренными причинами (сбои в электрическом питании, случайные ошибки проектирования и реализации) и сетевые аномалии, являющиеся результатом преднамеренных действий. К последним относятся такие известные сетевые атаки, как удаленное сканирование сетевых ресурсов, вызов «отказа в обслуживании» сетевых служб и устройств, удаленное проникновение в компьютерную систему на основе «переполнения буфера» сетевых приложений, вирусы.
Это множество сетевых аномалий может быть классифицировано по степени значимости. Очевидно, что наибольшую потенциальную опасность представляют собой аномалии преднамеренного характера, так как их последствия могут быть самыми разнообразными, начиная от утечки данных и заканчивая преднамеренным уничтожением критически важной информации. Существуют целые работы уровня Master s Thesis и Ph.D Thesis в которых отдельно рассматривается классификация сетевых атак [41], [46]. Далее рассмотрим множество наиболее характерных сетевых аномалий более подробно. Удаленное сканирование сетевых ресурсов Как правило, удаленное проникновение в компьютерную сеть злоумышленником подразумевает проведение действий по всестороннему исследованию цели. Для осуществления такого рода исследований существует технология называемая сканированием. Сканирование удаленных ресурсов компьютерных сетей позволяет: Определить реально работающие сетевые устройства; Выявить тип и версию запущенного сетевого приложения; Выяснить тип и версию запущенной операционной системы; Определить реально настроенные и работающие типы сетевых протоколов. Полученные в результате сканирования сведения позволяют злоумышленнику оценить степень уязвимости удаленной системы. Технологии сканирования основываются на возможностях и особенностях реализации сетевых протоколов. В их основе лежит отправка на исследуемую систему специально сформированных сетевых пакетов и анализ ответных пакетов. Программные системы, реализующие сканирование, как правило, содержат множество специфических опций, позволяющих пользователю влиять на характер сканирования. Это позволяет осуществлять маскировку действий злоумышленника. Например, существуют возможности по заданию различных временных задержек между сканирующими пакетами, введению в пакеты фиктивных адресов отправителя. Существует возможность изменять размеры полей данных пакетов, фрагментировать пакеты и так далее. Все это позволяет сканирующему уменьшить множество признаков в сетевом трафике, указывающих на его действия. Аномалия типа «отказ в обслуживании» (или Denial of Service, DoS) является, как правило, сетевой атакой, проводимой злоумышленником в отношении сетевого объекта, чье функционирование он желает нарушить (например, замедлить или прекратить). Наиболее характерным проявлением DoS является «затопление» канала связи или конкретного сетевого устройства огромным количеством сетевых пакетов. В зависимости от типа пакетов, это может приводить к повышенной загрузке канала и, как следствие, невозможности прохождения по нему легитимного трафика, либо к повышенной загрузке устройства (заполнению доступного объема оперативной памяти и загрузке ресурсов процессора). DoS может быть проведен не только на основе отправки огромного числа пакетов. Возможны ситуации, когда его можно вызвать малым числом пакетов. Это возможно в случае наличия специфической уязвимости в программной или аппаратной реализации устройства. Обнаружение DoS с случае отправки огромного числа пакетов не представляет трудностей, в отличие от DoS, проводимого на основе их малого числа. Необходимо отметить, что существует еще разновидность DoS, называемая распределенная DoS (Distributed Denial of Service, DDoS). Этот тип DoS характерен участием огромного числа атакующих сетевых устройств для его осуществления. 1.1.3 Удаленное «переполнение буфера» Удаленное переполнение буфера является сетевой атакой, позволяющей злоумышленнику, используя программную уязвимость атакуемой системы, получить доступ к устройству с правами атакуемого программного обеспечения. Проведение этой атаки основано на архитектурных и логических особенностях, лежащих в основе выполнения программы в памяти компьютера, В частности, на принципах использования части оперативной памяти, называемой стек, в процессе вызова дополнительных подпрограмм из основной программы. Возможность ее осуществления возникает в случае наличия программных ошибок в сетевом приложении, связанных с некорректной обработкой данных в оперативной памяти. Так, отсутствие корректной проверки размера передаваемого массива данных из одной области оперативной памяти в другую (меньшего размера) может привести к нарушения содержимого стека и, как следствие, к ошибке сегментации. Это может позволить злоумышленнику внедрить специальный программный код в стек и выполнить его с привилегиями текущего приложения. 1.1.4 Аппаратные сбои сетевых устройств Аппаратные сбои СУ могут быть выражены в самых разнообразных формах. Это может быть сбой в сети электропитання, выход из строя отдельных аппаратных составляющих (жесткие диски, сетевые платы). Проявление аппаратных сбоев также может быть весьма специфичным. Оно может быть выражено в полном отключении СУ, в генерировании и отправке в сеть искаженных пакетов сетевой платой, искажении сетевых пакетов вследствие проблем СКС и т.д. Учитывая весьма широкий спектр аппаратных сбоев, очень важно их быстро и точно обнаруживать. Как правило, аппаратные сбои возникают непреднамеренно. Они связаны как с изначальным браком отдельных электронных компонент, так и с их естественным старением. Однако, аппаратный сбой может являться следствием аппаратных закладок, активизируемых удаленно злоумышленником. 1.1.5 Программные сбои сетевых приложений Программные сбои сетевых приложений являются либо следствием ошибок, допущенных на этапе разработки и создания приложений, и не выявленных на этапе тестирования, либо следствием специально встроенных с различными целями программных закладок. Так как современные программные системы могут насчитывать огромный объем программного кода, создаваемого усилиями большого числа разработчиков, выявление ошибок является сложной задачи. Ошибки могут возникать как в отдельных модулях, так и на их стыке. Их проявление может заключаться во внезапных «зависаниях» сетевых приложений, изменении времени отклика па запросы, некорректном разрыве сетевых соединений и так далее. Выявление и устранение программных сбоев и является одной из ключевых задач администрирования, поэтому очень важно своевременно диагностировать их наличие.
Модель сетевого устройства
Рассмотрим данные, которые могут быть проанализированы при захвате сетевого трафика TCP/IP. К ним относятся поля заголовков протоколов IP, TCP, UDP, ІСМР и содержимое полей данных. Выделим из этих полей потенциально значимые с точки зрения выявления АРВ (предлагаемая в работе методика выявления АРВ не учитывает содержимое полей данных сетевых пакетов).
Анализируя заголовок IP существует возможность проанализировать: От кого и кому был направлен пакет (т.е. поля IP-source и IP-destination). Значения этих полей принципиальны для анализа, так как они идентифицируют СУ и являются адресами как источника АРВ, так и I возможной мишенью, на которое осуществляется направленное воздействие. Удаленность СУ, сформировавшего пакет, от места его захвата (поле Time to Live, TTL). Это поле имеет важное значение, так как характеризует местоположение инициатора/мишени ЛРВ. Является ли пакет фрагментом (поля Identification, Flags, Fragment Offset). Это также важное поле, так как фрагментация является одним из способов маскировки злоумышленником своих действий [71]. Запрашиваемый пакетом тип сервисного обслуживания (поле Type of Service, ToS). Это поле, как правило, при обычных условиях в современных сетях используется незначительно, но оно может активно использоваться, например, для исследования особенностей реализации стека TCP/IP удаленного объекта, поэтому имеет смысл иметь информацию о ее значениях. Общую длину IP-пакета (поле Total Length). Это поле важно, так как по нему мы можем судить об объеме принимаемого/передаваемого трафика. Версию протокола IP (поле Version). Поскольку это поле содержит просто информацию о версии используемого IP-протокола, на наличие АРВ оно не должно оказывать влияние. Длину заголовка (поле Header Length). Это поле имеет довольно важный Лі смысл, так как заголовок может расширяться при наличии в нем специальных опций (поле Options). В свою очередь, наличие опций может служить указанием на наличие АРВ. Поэтому информацию об этом значении лучше иметь в наличии. Тип протокола транспортного уровня, инкапсулированного в IP (поле Protocol). Информацию о значении этого поля необходимо обязательно иметь, так как оно является указателем на тип соединения и может являться указанием на способ обработки пакета. Целостность пакета по контрольной сумме заголовка (поле Header Checksum). Это поле важно, так как указывает на целостность доставленных данных, т.е. фактически на качество каналов связи. 1 Анализируя заголовок протокола TCP можно выяснить: Порт отправителя/получателя пакета (поле Source/Destination Port). Эти поля идентифицируют приложение, отправившее/принявшее пакет, поэтому эту информацию важно иметь в наличии. Смещение поля данных в TCP-пакете (Data Offset). Теоретически, это поле может использоваться злоумышленником при реализации аномалии, связанной с отправкой некорректного пакета с целью введения в заблуждение целевого устройства или выявления типа его отклика. Поэтому, информацию о нем целесообразно учитывать при выявлении АРВ. Значения резервных полей (Reserved Bits). Некоторые аномалии (например, сетевые атаки типа «сканирование») связаны с наличием некорректных комбинаций в этих полях, поэтому, их необходимо использовать для выявления АРВ. Состояние текущего соединения по контрольным битам пакета (иоле Control Bits (URG, АСК, PSH, SYN, FIN)). Данные поля выполняют очень важную функцию. Они позволяют создавать, поддерживать и закрывать TCP-соединения. Эти свойства очень часто используются злоумышленниками, поэтому наличие информации о существовавших сочетаниях этих бит очень важно при выявлении аномалий. Анализируя заголовок UDP существует возможность проанализировать: Порт отправителя/получателя пакета (поле Source/Destination Port). Эти поля аналогичны соответствующим полям протокола TCP; Длину UDP-дейтаграммы. Это поле определяет принципиальную характеристику взаимодействий: объем передаваемых данных. Таким образом, его необходимо обязательно учитывать. Анализируя заголовок протокола ICMP можно выяснить: Тип передаваемого ІСМР-сообщения. Содержимое этого поля позволяет оценить тип и значимость произошедшей в сети проблемы, таким образом требует однозначного анализа в дальнейшем. Код сообщения. Это поле более подробно характеризует возникшую проблему, поэтому также требуется для дальнейшего анализа. Таким образом, очевидно, что из полей сетевых пакетов можно почерпнуть очень много информации для последующего выявления аномалий. Возникает вопрос: характеристики какого объекта следует извлекать из присутствующих в сетевом трафике данных Существует три варианта ответа на данный вопрос: Рассматривать сам пакет и анализировать непосредственно значения его полей [15], [45], [51]. Это самый тривиальный вариант. Он имеет логические и технические недостатки. Так, интуитивно ясно, что анализ отдельных пакетов не позволит эффективно оценить ситуацию в сети в целом, т.е в любом случае потребуется их некоторая агрегация. По информации, содержащейся в единственном пакете, можно выявить только аномалии протоколов (а это выявляется очень простыми методами), соответственно, задача выявления АРВ не будет решена. Кроме того, необходимость сохранения истории взаимодействий повлечет в этом случае сохранение всего сетевого трафика, что будет абсолютно неэффективно как с точки зрения его обработки, так и хранения. Можно взять в качестве объекта анализа понятие соединения (или потока) [8], [70], [72]. Это означает (для протоколов TCP и UDP) группировку пакетов, имеющих одинаковые значения четверки чисел v. (IP-адресов и портов). Но такой способ группировки также имеет принципиальные ограничения. Дело в том, что агрегация пакетов по соединениям предусматривает работу некоторого вычислительного процесса по его осуществлению. Если одновременно будет «собираться» несколько соединений, то это рано или поздно приведет к истощению ресурсов машинной памяти. Возникновение большого числа соединений может происходить по ряду причин.
Результаты анализа математических свойств отдельных характеристик (одномерный анализ)
Вычисление оценки средЕіеквадратического отклонения по приведенной выше формуле оправданно, поскольку статистические характеристики сходятся по вероятности к соответствующим математическим характеристикам и при достаточном N могут быть приняты приближенно равными им [93].
В приложении 2 (см. табл. 2.1) приведены полученные результаты сопоставления точечных оценок математических ожиданий для нормальных выборок и выборок, содержащих следы АРВ.
Ее визуальный анализ указывает на то, что оценки математических ожиданий отдельных характеристик для нормальных выборок принимают меньшие значения по сравнению с данными, содержащими АРВ. Это видно и по отдельным значениям средних для разных выборок (отмечены жирным шрифтом для выборок с АРВ), и по их итоговым средним. Для некоторых характеристик (например, CntServerPortsExt, RecvSynFin, SendSynFin) в итоговых средних возникает расхождение в 2 и более раз. Это свидетельствует о том, что наличие в сетевом трафике следов АРВ вызывает изменение вероятностных свойств в поведении СУ и факт увеличения среднего выборочного может указывать на наличие АРВ.
В табл. 2.2 (см. приложение 2) приведены результаты сопоставления точечных оценок среднеквадратических отклонений. В ней несложно заметить, что, как и в случае выборочного среднего, значения среднеквадратических отклонений для данных, содержащих АРВ, выше, чем для нормальных. При этом, сопоставление табл. 3.1.1 и 3.1.2 демонстрирует одновременное увеличение выборочных средних и дисперсий. Это указывает на легко объяснимый факт; в случае появления АРВ к общему «нормальному» фону функционирования СУ подмешиваются значения, большие по абсолютной величине, что вызывает «расслоение» данных и является причиной увеличения дисперсии. В таблице 2.3 (см. приложение 2) приведены интервальные оценки генеральной средней двух выборок. Одна из них включает в себя все «нормальные» выборки, а вторая- выборки со следами ЛРВ. Для интервального оценивания генеральных средних использовалась формула (3.1.2) [111,112]: где - 0 - генеральное среднее, X - выборочное среднее, у - аргумент функции Лапласа, соответствующий задаваемой доверительной вероятности у, S -выборочное среднеквадратическое отклонение, П - объем выборки. Оценивание проводилось для = 0,95. Анализ табл. 2.3 (см. приложение 2) показывает, что доверительные интервалы генеральных средних для отдельных характеристик не пересекаются. Это указывает на высокую степень разделения нормальных данных и данных, содержащих АРВ по генеральным средним или, иначе, подчеркивает разницу между генеральными совокупностями значений характеристик, формирующихся на нормальных данных и данных, содержащих следы АРВ. Таким образом, сопоставляя результаты, можно сделать вывод, что диапазоны значений характеристик, не содержащих следов АРВ, имеют относительное постоянство оценок математических ожиданий и дисперсий. При возникновении АРВ аналогичные оценки по различным характеристикам изменяются существенно. Более полное представление о характере поведения характеристик СУ было сформировано на основе построения и анализа их функций плотностей распределения. С этой целью для характеристик, приведенных выше выборок, были построены гистограммы распределений. В приложении 3 приведен пример сопоставления гистограмм распределений характеристик двух произвольных выборок, одна из которых принадлежит массиву «нормальных» данных (1-3.12.2003г. 14-20 чч,), а другая (11.11.2003 г. 14-20 чч.) - массиву, содержащему АРВ (распределенное XMAS сканирование). Приведем результаты экспертного заключения, сделанного на основе визуального анализа гистограмм, представленных в приложении 3. Выборку «1-3.12.2003г. 14-20 чч.» будем называть первой, а «11.11.2003 г. 14-20 чч.» - второй. Визуально легко заметить, что распределения характеристик обеих выборок схожи. Так, большинство из них проявляет свойство одпомодальности (достигают максимума только в одной точке) и имеет положительную асимметрию. Для некоторых характеристик заметны проявления пол и модальности (TCP_SENDSYN_FIN, TCP_CNTSENDPSH, TCP_CNTRECVFIN), при этом, таких проявлений заметно больше для второй выборки (TCPCNTSES, TCP_CNTCLIENTPORTSOWN, TCP_CNTSERVERPORTSEXT, TCP_RECVSYN_FIN, TCP_CNTSENDRST и др.). Акцентируем внимание на распределениях характеристик, для которых должно быть характерно изменение статистических свойств при возникновении данного типа АРВ. Рассмотрим ее особенности. Данная АРВ представляет собой ХМ AS сканирования TCP портов в диапазоне 1-1024 с 5-секундной задержкой. Сканирование осуществлялось с исследуемого сетевого устройства. Ее проявление заключалось в генерации пакетов с выставленными TCP флагами FIN, URG и PUSH. «Выброс» пакетов в сетевую среду производился с интервалом 5 сек. Общее время сканирования составляло 1 час. Такое поведение СУ должно вызывать изменение многих интегральных показателей. Наиболее заметно по общей статистике это должно проявиться на значениях следующих интегральных показателей: Числе сетевых сессий (TCP_CNTSES), т.к. каждый новый пакет будет определять новую сессию; Числе уникальных значений серверных ( 1024) TCP-портов для сетевых устройств, взаимодействовавших с исследуемым (TCP_CNTSERVERPORTSEXT); Числе, характеризующем разницу между отправленными пакетами с установленным TCP флагом SYN и с установленным TCP флагом FIN (TCP_CNTRECVSYN_FIN). Для него должно быть характерно превышение числа отправленных пакетов с флагом FIN пакетов числа пакетов с флагом SYN; Кроме них, естесственно, будут увеличены и другие показатели, но приведенные являются наиболее чувствительными к такому типу АРВ. Анализ гистограмм характеристик второй выборки демонстрирует существенное отличие по отношению к первой. Так, для распределений характеристик TCP_CNTSES, TCP_CNTSERVERPORTSEXT и TCP_CNTRECVSYN_FIN резко выделяется наличие полимодальности, которое проявляется в «расслоении» гистограммы на две части (характерно заметное отклонение дополнительной точки максимума функции плотности распределения от основной моды). Наличие полимодальности в законе распределения для выборки, содержащей следы АРВ, хорошо объясняет полученные ранее различия в оценках выборочных средних и дисперсий. Это указывает на возможность фиксации АРВ по факту возникновения полимодалыюсти. Замечание: подобные рассуждения были также проведены в отношении других выборок и были получены аналогичные результаты. При этом, естесственно, иные типы АРВ вызывали изменения как рассмотренных выше характеристик, так и других. В, силу схожести рассуждений и выводов, необходимость их приведение в работе опускается. По гистограммам также была проведена аппроксимация значений отдельных характеристик различными стандартными законами распределения (нормальным, бета, экспоненциальным, гамма, геометрическим, Лапласа, логнормапъным, Пуассона, Релея, Вейбулла). Для этого была осуществлена статистическая проверка гипотез о модельном виде закона распределения вероятностей с помощью критерия согласия %2 Пирсона. Этот критерий позволяет проверять гипотезы как для дискретных, так и для непрерывных случайных величин [85, 114].
Соотнесение принципов архитектуры САВС с требованиями к методике выявления аномалий
Требование распределенности достигнуто в САВС на основе возможности размещения сетевых агентов в различных сегментах сети (в том числе и удаленных). Сетевые агенты предоставляют данные в СУР по сети при помощи специально разработанного протокола прикладного уровня, работающего на основе протоколов TCP/IP. Это позволит централизованно решать вопросы диагностирования и защиты большой корпоративной сети, имеющей удаленные филиалы.
Требование минимизации возможных потерь сетевых пакетов достигается в С А на основе использования для программного захвата пакетов положительно зарекомендовавшей себя свободно-распространяемой библиотеки libpeap, ставшей стандартом при разработке сетевых приложений, анализирующих сетевой трафик, а также на основе оптимизации структур данных для хранения структурированных данных в оперативной памяти, выделенной СА.
Дополнительно это требование может быть достигнуто на этапе внедрения системы путем эффективного выбора и оптимальной настройки аппаратной и программной платформы компьютера с устанавливаемым СА. Требование минимизации времени анализа обеспечивается в СЛВС на основе проектирования рациональных структур поддержки данных в базе данных и создании индексов для таблиц, минимизацией времени взаимодействия с базой данных на уровне СУР и реализацией эффективных алгоритмов обработки данных в СО А Д. Также это требование обеспечивается на уровне С А эффективной реализацией принципов структуризации. Обеспечение требования минимизации объемов хранимых данных взаимосвязано с предыдущим требованием и достигается на уровне С А реализацией разработанных принципов структуризации сетевого трафика на основе задаваемых ключевых параметров сетевых соединений и использованием соответствующих структур данных в базе данных. Требование защищенности обеспечивается в САВС на уровне СУР, позволяющей разграничивать доступ к данным о сетевом трафике и результатах анализа, хранящимся в базе данных, на основе реализации модели управления доступом к данным. Дополнительно это требование может быть обеспечено шифрованием каналов связи между отдельными компонентами САВС с помощью штатных средств создания VPN (Virtual Private Network), используемых в компании. Требование расширяемости САВС достигается использованием при ее разработке и создании объектно-ориентированных принципов проектирования и программирования [91], позволивших реализовать модульную структуру для отдельных компонент, что позволит в дальнейшем подключать к САВС дополнительные функциональные модули. Требование централизованного анализа состояния сети в САВС обеспечивается реализацией единого пользовательского интерфейса в СОАД для доступа ко всем данным, собранным из разных сегментов сети и результатам их анализа. Требование управления процессом анализа в терминах сетевых объектов достигается как на уровне самой методики (выбором в качестве объекта анализа СУ), так и на уровне пользовательского интерфейса СОАД, предоставляющего администратору возможность управлять процессом анализа на основе карты сети, создаваемой в виде древовидной структуры, отдельными элементами которой являются СУ. Требование самостоятельной проверки администратором корректности работы алгоритмов обнаружения обеспечивается реализацией в пользовательском интерфейсе СОАД возможности визуального анализа истории сетевых взаимодействий. Требование простоты настройки и использования САВС обеспечивается созданием инсталляторов для отдельных компонент, предусматривающих наличие простых принципов их установки и конфигурации. В ходе дальнейшего изложения материала технические принципы обеспечения этих требований будут рассмотрены более подробно. Функционирование САВС должно осуществляться в режиме реального времени. Поэтому, на этапе проектирования и создания САВС решался вопрос обеспечения приемлемой скорости обработки данных отдельными ее компонентами. В качестве критерия приемлемости скорости обработки был принят факт синхронизации скоростей поступления сетевого трафика и его обработки. Иными словами, скорость обработки должна быть меньше или равна скорости поступления трафика. Общий анализ программной архитектуры, приведенный в п.4.1.1, позволяет выявить «узкие» (ресурсоемкие) места в каждом из компонентов, которые могут оказать существенное влияние на производительность САВС в целом и, поэтому, изначально требуют повышенного внимания к оптимизации их алгоритмов. К ним относятся: Процесс структуризации сетевых пакетов в СА; Взаимодействие с базой данных (загрузка/извлечение данных). Повышение производительност процесса структуризации Результатами структуризации сетевого трафика являются наборы записей для соответствующих таблиц базы данных. Наиболее удобным видом структур данных для хранения этих записей в оперативной памяти, используемой СА, являются линейные динамические списки. Структуризация сетевых пакетов предполагает либо внесение новой информации в списки, либо изменение данных для уже существующих элементов списков. Этот процесс требует выполнения большого количества операций поиска необходимых элементов в линейных списках.
Таким образом, задача повышения производительности структуризации сетевых пакетов должна решаться применением алгоритмов, ускоряющих поиск. В данном случае наиболее быстрым способом поиска данных в таких списках является индексация их элементов с помощью хеш-таблиц. Проведение однозначной индексации возможно благодаря наличию ключевых элементов, идентифицирующих уникальным образом каждый элемент списка.
Если сделать ключом хеш-таблицы уникальное число, удентифицирующсс уникальный объект структуризации, а значением - ссылку (указатель) на соответствующий элемент списка, то можно выполнять операцию поиска элемента за один шаг.
Это решение было реализовано в СА на основе стандартных библиотек языка Си, реализующих хеш-функции. Опыт эксплуатации СА (PC Intel РІП, CPU 500 MHz, RAM 500Mb, HDD 240Gb (software raid-0)) в высоко-нагруженном 100 Мбитном сегменте сети МИФИ продемонстрировал эффективность данного решения. СА оказался в состоянии обрабатывать трафик в течении шага структуризации.