Содержание к диссертации
Введение
ГЛАВА 1. Современное состояние методов и средств решения задачи выявления аномальной сетевой активности 13
1.1 - Интернет-трафик и его количественные характеристики. Архитектура сетевых протоколов 13
1.2. Математические модели Интернет-трафика 26
1.3. Технологии сбора информации о сетевой активности 36
1.4. Классификация сетевых аномалий 39
1.5. Классификация программного обеспечения для выявления сетевых аномалий 45
1.6- Математические методы выявления сетевых аномалий 57
1.7- Постановка задачи исследования 67
Глава 2. Оценка работоспособности математических методов анализа временных рядов в задаче выявления аномалий интернет-трафика по экспериментальным результатам 69
2,1. Методика получения экспериментальных реализаций Иитерпет-трафика 69
2.2- Применение методов классического статистического анализа в задаче выявления аномалий Иитерпет-трафика 74
2.2.1. Анализ функций распределения реального Интернет-трафика 74
2.2.2. Анализ возможности использования корреляционного анализа для выявления аномалий Интернет-трафика 81
2.23. Анализ возможности использования кластерного анализа для выявления аномалий Интернет-трафика 86
2.2.4- Сравнительный анализ энтропии нормального и аномального Интернет-трафиков 89
23. Применение методов спектрального анализа в задаче выявления аномалий Интернет-трафика 91
2 А Анализ особенностей вейвлет-спектров нормального и аномального Интернет-трафиков 99
2.5. Применение методов нелинейной динамики в задаче выявления аномалий Интсрнст-трафика 104
2.6. Прогнозирование сетевого трафика на основе моделирования временных рядов 110
ВЫВОДЫ 115
Глава 3. Комплексная методика выявления аномалий интернет-трафика 117
3.1. Сравнительный анализ методов выявления аномалий Интернет-трафика 117
3.2. Комплексная методика выявления аномалий Интернет-трафика 124
3.3- Программная реализация комплексной методики выявления аномалий Интернет-трафика 125
3.4. Экспериментальная проверка комплексной методики выявления аномалий Интернет-трафика 129
Заключение 132
- Классификация сетевых аномалий
- Анализ функций распределения реального Интернет-трафика
- Применение методов нелинейной динамики в задаче выявления аномалий Интсрнст-трафика
- Комплексная методика выявления аномалий Интернет-трафика
Введение к работе
Практические разработки в области выявления нарушений информационной безопасности и сетевых аномалий ведутся как университетскими научными центрами (Ohio University, Columbia University, МГУ, УГТУ-УПИ и др.)5 так и крупнейшими коммерческими компаниями (Cisco, СА, ISS, Symantec и др.).
Однако задача надежного выявления сетевых аномалий окончательно не решена, о чем свидетельствуют аналитические отчеты центров Интернет-безопасности, крупнейших операторов и координаторов связи, производителей сетевого оборудования и систем обнаружения вторжений, а также опыт эксплуатации компьютерных сетей и магистральных Интернет-каналов.
Это объясняется следующими обстоятельствами:
Во-первых, существует определенный разрыв между теоретическими исследованиями телетрафика и проблемами выявления сетевых аномалий, заключающийся, например, в недостаточной изученности фрактальных свойств аномального трафика а также в вопросе исследования влияния современных инженерных механизмов обеспечения качества обслуживания на свойства аномального трафика.
Во-вторых, в настоящее время для отрасли связи наиболее актуальным является мониторинг состояния магистральных каналов, обслуживающих большое количество агрегированных потоков и высокие скорости передачи данных, в то время как большинство известных методик использует параметры отдельных составляющих сетевого трафика (содержимое кадров, пакетов). В этих условиях наиболее востребованными становятся методы выявления сетевых аномалий по интегральным характеристикам трафика.
В-третьих, большинство исследований сводится к изучению отдельных методов выявления сетевых аномалий, в то время как на практике остро необходимы комплексные методики, комбинирующие наиболее эффективные подходы к решению данной задачи.
Таким образом, на текущий момент актуальной задачей является разработка эффективных комплексных методов выявления сетевых аномалий по интегральным характеристикам трафика на основе современной теоретической базы.
Объект исследовании: методы анализа информации о состоянии телекоммуникационных сетей.
Предмет исследования: методы выявления сетевых аномалий.
Цель диссертационной работы: разработка комплексной методики выявления сетевых аномалий в магистральных Интернет-каналах по интегральным характеристикам трафика.
Для достижения поставленной цели требуется решить следующие основные задачи:
1. Разработать методику регистрации Интернет-трафика,
2. Провести оценку работоспособности математических методов анализа Иптерпет-трафика в задаче выявления сетевых аномалий по интегральным характеристикам трафика Разработать комплексную методику выявления аномалий Интернет-трафика по интегральным характеристикам.
3. Провести оценку эффективности комплексной методики выявления аномалий Интернет-трафика по интегральным характеристикам.
Методы исследований.
В работе были использованы методы теории вероятности, математической статистики, анализа временных рядов, нелинейной хаотической динамики, вейвлет-анализа.
Научная новизна полученных результатов,
В работе получены следующие новые научные результаты:
1. Проведен сравнительный анализ работоспособности ряда математических методов (статистический анализ, спектральный анализ, вейвлет-анализ, методы нелинейной динамики, методы моделирования временных рядов) в задаче выявления сетевых аномалий по реализациям Интернет-трафика, определены отличительные интегральные признаки сетевых аномалий и наиболее эффективные методы выявления для различных источников диагностируемой аномалии.
2. Экспериментально установлена связь между значениями масштабных коэффициентов вейвлет-преобразований параметров входящего и исходящего потоков Интернет-трафика,
3, Разработан диагностический критерий аномальности сетевого трафика, основанный на вычислении значений функции кросскорреляции параметров потоков Интернет-трафика,
4. Разработана комплексная методика выявления аномалий Интернет- трафика, основанная на комбинировании методов корреляционного анализа параметров потоков трафика и моделирования временных рядов Хольта- Винтерса, позволяющая выявлять наиболее значимые для операторов связи аномальные состояния трафика по интегральным характеристикам.
5, Проведена экспериментальная проверка комплексной методики выявления аномалий Интернет-трафика и получены оценки ее эффективности.
Практическая значимость работы.
1. Создано программное обеспечение, реализующее комплексную методику выявления сетевых аномалий,
2. Проведена экспериментальная проверка и осуществлено внедрение созданного программного обеспечения в учебном процессе (ГОУ ВПО УГТУ-УПИ) и на предприятиях отрасли связи (ЗАО "Корус ИСП", ООО "СЦС Совинтел").
3. Результаты, полученные в ходе выполнения настоящей диссертационной работы, представляют интерес для разработчиков новых систем выявления сетевых аномалий и мониторинга пакетных сетей передачи данных.
На защиту выносятся:
1, Результаты сравнительного анализа работоспособности ряда математических методов (статистический анализ, спектральный анализ, вейвлет-анализ, методы нелинейной динамики, методы моделирования временных рядов) в задаче выявления сетевых аномалий по интегральным характеристикам Интернет-трафика, определяющие отличительные признаки сетевых аномалий.
2, Комплексная методика выявления аномалий Интернет-трафика, основанная на комбинировании методов корреляционного анализа параметров потоков Интернет-трафика и моделирования временных рядов, позволяющая выявлять наиболее значимые для операторов связи аномальные состояния трафика по интегральным характеристикам.
3, Результаты экспериментальной апробации комплексной методики выявления аномалий Интернет-трафика по интегральным характеристикам, подтверждающие ее эффективность- Достоверность полученных результатов обеспечена обоснованным применением методов теории вероятности, математической статистики, анализа временных рядов, нелинейной хаотической динамики, вейвлет-анализа и подтверждена экспериментальными результатами.
Апробация работы.
Основные положения и результаты диссертации представлялись на Международной научно-практической конференции "СВЯЗЬ-ПРОМ 2005", проводимой в рамках 2-го Евро-Азиатского международного форума "СВЯЗЬ-ПРОМ ЭКСПО 2005м; Международной научно-практической конференции "СВЯЗЬ-ПРОМ 2006" в рамках 3-го Евро-Азиатского международного форума "СВЯЗЬ-ПРОМ ЭКСПО 2006м; научных семинарах УГТУ-УПИ; технических совещаниях ЗАО "Корус ИСП" и ООО "Совинтел". Работа поддержана Российским фондом фундаментальных исследований (проект 06-08-00218-а).
Публикации.
По результатам исследований опубликовано 11 работ, из них 3 входит в перечень изданий, рекомендованных ВАК РФ для публикации материалов, отражающих основные результаты на соискание кандидатских и докторских диссертаций.
Структура диссертационной работы.
Текст диссертационной работы состоит из введения, трех глав, заключения, приложений и списка литературы.
Классификация сетевых аномалий
На сегодняшний день нет общепринятого определения термина "сетевая аномалия" (СА). Чаще всего под СЛ понимается состояние сети, отличное от нормального [3, 134, 150-160, 166, 189], Следует отметить, что известные СА настолько разнообразны, что их единой общепринятой классификации не существует. Одна из попыток решения данной задачи предпринята в [3]. Здесь предложено разделять аномалии на: активные и пассивные, внешние и внутренние, умышленные и неумышленные аномалии и т.д. Однако данный подход не учитывает всех аспектов изучаемого явления и потому является ограниченным. Автор предлагает провести классификацию СА с точки зрения объекта воздействия - информационной системы (ИС), включающей программно-аппаратный комплекс и сетевую инфраструктуру.
Следуя выбранному подходу можно разделить СА на две основные группы: программно-аппаратные отклонения и нарушения безопасности (Рис. L20).
К программно-аппаратным отклонениям автор относит: аппаратные неисправности, ошибки конфигурирования, ошибки в программном обеспечении и нарушения производительности оборудования.
Нарушения сетевой безопасности включают в себя следующие аномалии; сканирование, атаки на отказ в обслуживании, вирусная активность, распространение программных "червей", эксплуатация уязвимостей, анализаторы трафика и сетевые модификаторы. Следует отметить, что анализаторы трафика выполняют пассивные сетевые функции, но тем не менее приводят к нарушению безопасности ИС, поэтому в соответствии с рекомендациями, изложенными в [174], они включены в данную классификацию.
По мнению автора, наибольший экономический ущерб операторам связи наносят атаки с целью перегрузки сетей или сервисов, а так же сетевая вирусная активность. Программно-аппаратные отклонении
Ошибки в программном обеспечении компонентов ИС могут повлечь за собой перевод в нештатный режим с последующим прекращением предоставления сервисов.
Ошибки конфигурирования переводят функциональные возможности компонентов ИС в несоответствие штатным проектным параметрам, что нарушает общую работоспособность.
Нарушения производительности влекут за собой выход параметров ИС за пределы расчетных значений, что сопровождается нарушением обеспечеішя предоставления сервисов.
Аппаратные неисправности могут повлечь за собой как полный выход из строя отдельных компонентов ИС? так и деградирующее влияние отдельной подсистемы на весь комплекс. Нарушения безопасности
Сетевое сканирование (Network scan) производится с целью анализа топологии сети и обнаружения доступных для атаки сервисов- В процессе сканирования производится попытка соединения с сетевыми сервисами методом обращения по определенному порту- В случае открытого сканирования сканер выполняет трехстороннюю процедуру квитирования (см, раздел 1-1), а в случае закрытого (Stealth) - не завершает соединение. Так как при сканировании отдельного хоста происходит перебор сервисов (портов), то данная аномалия характеризуется попытками обращения с одного IP адреса сканера на определенный IP адрес по множеству портов. Однако, по опыту автора, чаще всего сканированию подвергаются целые подсети. Это проявляется в наличии в атакованной сети множества пакетов с одного IP адреса сканера по множеству IP адресов исследуемой подсети, иногда даже методом последовательного перебора. Наиболее известными сетевыми сканерами являются; Nmap, ISS, Satan, Strobe, Xscan [112].
Анализаторы трафика или снифферы предназначены для перехвата и анализа сетевого трафика. В простейшем случае для этого производится перевод сетевого адаптера аппаратного комплекса в прослушивающий режим и потоки данных в сегменте, к которому он подключен, становятся доступны для дальнейшего изучения. Так как многие прикладные программы используют протоколы, передающие информацию в открытом, незашифрованном виде, работа снифферов резко снижает уровень безопасности. Отметим, что выраженных аномалий в работе сети снифферы не вызывают. Наиболее известными снифферами являются: Tcpdump, Ethereal, Sniffit, Microsoft network monitor, Netxray, Lan explorer [3].
В компьютерной безопасности термин уязвимость (англ. Vulnerability) используется для обозначения слабозащищенного от несанкционированного воздействия компонента ИС. Уязвимость может являться результатом ошибок проектирования, программирования или конфигурирования. Уязвимость может существовать только теоретически или иметь эксплуатирующую программную реализацию (эксплоит), В сетевом аспекте уязвимостям могут быть подвержены информационные ресурсы, такие как операционные системы и ПО сервисов.
Вирусная сетевая активность является результатом попыток распространения компьютерных вирусов и червей, использующих сетевые ресурсы. Опыт автора показывает, что чаще всего компьютерный вирус эксплуатирует какую-нибудь единственную уязвимость в сетевой прикладной службе, поэтому вирусный трафик характеризуется наличием множества обращений с одного зараженного IP адреса ко многим IP адресам по определенному порту, соответствующему потенциально уязвимому сервису. Примеры нескольких широко известных сетевых вирусов приведены в табл. 1.1 [П2].
Анализ функций распределения реального Интернет-трафика
Основной характеристикой трафика на канальном уровне передачи данных (Layer 2 OSI) является размер кадра. Для изучения данной характеристики автором осуществлялось получение данных о трафике, проходящем через магистраль Интернет провайдера городского масштаба (по методике, описанной в разделе 2.1). Напомним, что технология Ethernet, на основе которой выполнена магистраль, ограничивает диапазон размеров кадров от 64 до 1500 байт [1, 2]- Анализ распределений кадров по размерам позволяет сделать вывод о преобладании кадров размерами 64, 500 и 1500 байт в большинстве экспериментальных реализаций нормального трафика. Соответствующий пример приведен нарис. 2.5. В случае наличия аномалий наблюдается асимметрия распределений кадров по размеру в зависимости от направления трафика. В качестве примера рассмотрим аномальный трафик, содержащий вирусную сетевую активность (рис. 2.6). В данном случае число исходящих кадров с размерами в диапазоне от 64 до 600 байт превышает число входящих кадров в 10 раз, что позволяет считать источник аномалии внутренним. Важнейшей характеристикой трафика является интенсивность поступления данных, т.е. число кадров (Layer 2 OSI) или пакетов (Layer3-4 OSI) за единицу времени (кадры/с, пакеты/с). Гиетоіраммьі распределений интенсивности пакетов всех исследуемых автором экспериментальных реализаций нормального трафика и аномального трафика при уровне агрегации ДГ = 100мс, содержащего сканирования и вирусную активность, как показала
проверка по критерию х аппроксимируются логнормальными функциями распределения, что согласуется с современной теорией телетрафика (см. раздел 1.2). Соответствующие примеры распределений представлены на рис. 2.7 и рис. 2,8.
Экспериментальные реализации нормального Интернет-трафика характеризуются равенством соответствующих параметров аппроксимирующих функций распределения интенсивности пакетов исходящего и входящего трафиков (рис. 2.7), Аномалии типа вирусной активности и сканирования демонстрируют явную асимметрию распределений (рис. 2.8).
Распределение интенсивности пакетов анеш&шшт трафш&ї (дакетьї/е); - входящим В качестве примера в табя. 2,1 приведены порученные по методу максимального правдоподобия }б, 47] характеристики распределений, изображенных на рис- 2,7 и рис, 2.8.
Применение методов нелинейной динамики в задаче выявления аномалий Интсрнст-трафика
Современная теория телетрафика однозначно СЕидвтеяъетйует о его с юполобин (см. раздел 1.2). Поэтому, о точки зрения ангора, несомненный интерес представляет исследование возможности использования в ч&д «е детектирований аном&ийй сетевого трафика .методов нелинейной дешамиш. В частности, представляется «елееообразнш пропарить гипотезу о сн$ш между аномалиями трафика и его фрактальной размерностью [24].
Для щкшсденші шадшш испод ьзоншшсь вршявньїе ряды интенсивности шшггов, полуденные обработкой з&шерименталышш реализаций трафика по методике, изложенной в разделе 2Л с уровнем агрегации лг=100ме. При использовании уровней агрегации дг, отличных от данного значения, получить непротиворечивые результаты автору не удалось.
Рассмотрим временные ряды, соотвеїттауюшие нормальному (рис. 233) ш аномальному трафику, содержащему вирусную а&хивдиеть и сканирования (рис. 234).
Визуальный анализ графиков позволяет сделать предположение о высокой изменчивости порождающих временные рядя процессов. Для отнесения шадшируедаїх временных рядов к обобщенному броуновскому движению принимая во внимание свойства фрактального броуновского движошя (см. раздел 1.2), необходима провести проверку на нормалыюсть закона ржіЩіх%жітя дервых разностей (рис. 2.35, рис. 236), используя для 2 того любой из известных критериев согласия, например Гистограммы первых разностей и ашіра&симирукмцие функции распределения представлены па рис 237, 2,38. 2.38. Гистограмма первых разностей аномального трафика Проверка законов распределений первых разностей с помощью критерия согласия х показала, что с вероятностью близкой к 95% может быть принята гипотеза о нормальном распределении. Следовательно, анализируемые временные ряды адекватно описываются моделью обобщенного броуновского движения, поэтому для их анализа допустимо использовать методы анализа фрактальных временных рядов.
Для оценки фрактальных свойств временных рядов автор использовал показатель Херста Я, определяемый по R/S методу (см. раздел 1.2) [24], Анализ показал, что сетевой трафик обладает эффектом самоподобия (рис. 2.39, 2.40).
Параметр Херста во всех случаях превышает 0,5, Гипотеза о количественном отличии параметра Херста для независимых измерений штатного и аномального сетевого трафика не подтвердилась. результат: параметр Херста для трафика, содержащего аномалии, всегда больше соответствующего значения для того же трафика после удаления аномалий, которое осуществлялось удалением из файла данных пакетов, принадлежащих к ГР адресам, которые относились к зараженным вирусами (рис. 2.41). а - для трафика с аномалиями, №=0,93; б - для трафика с удаленными аномалиями, Н=0,67
Обнаруженный факт требует теоретического обоснования. Можно предположить, что усиление самоподобия является характерным для сетевой активности вирусных и сканирующих программ, выполняющих в программном цикле процедуры заражения и сканирования.
Методы анализа ВР Временным рядом (ВР) называется упорядоченная по времени последовательность наблюдений. Общепринятым подходом к изучению ВР является; анализ, построение модели, оценивание модели и прогнозирование с ее помощью [19].
Комплексная методика выявления аномалий Интернет-трафика
Учитывая общий источник данных ;шя аіадшза н вадиминезависимисть методов обработки, в качестве к имїигек сной методика автором предложено параллельное использование корреляционного шалша д моделирования временных рядов для выявления аномалий (рис. 3-5}, ( деланный кыбор обусловлен тем, что корреляционный анализ позволяет ішибодде эффективно детектировать сканирования, вирусную актйниость и атаки на отказ в обслуживании, а моделирование временных рядов нарушения производится внести (см. табл. 3-і). етектирования жюжіяш Даним методика, как ожидалось, была призвана обеспечить эффокгавиоез выявление всех исследуемых аномалий та счет гамбияировайия методов анализа м их одновременного исЕшль Юкания.Программная реализация комплексной МІЛОДЕШН выявления гдоошмшй Нитернет-трафнка основе предіштас-май методики детектирования автором разработана ее цроїрішїишая реализация - специализированное ПО "Анализатор Интернет Трафим" (АИТ), МО ЛИТ выполнено в вит набора программ на языках Shell fl35 и Per! [13 исполняемых дод управлением операционном системы (ОС) UN DC (FreeBSD [1371), Выбор данной ОС продиктован ее высокой надежностью и широкой распространенностью в телекоммуникашюнной сфере. Выбор интерпретируемых языков программирования обусловлен необходимостью оперативной модификации кода в процессе отладки, простотой синтаксиса п общепринятой практикой программирования в среде UNIX. Стжут отметить, что предлагаемая методика оперирует временными рядами интегральных &Еракт рйСтик трафика и отличается пониженными требованиями к вычислительным ресурсам, чю допускает использование интерпретируемых щышв мрОЕрзм&шродашия без потери быстродействия,
ІЮ ЛИТ состоит да двух программ, реализующих отдельные методики детектирования (ад- рВД 3.6)- Первая программа Process- Lsh осуществляет коррслядиоиньш штт вторая Proeess 2.sh - моделирование врежшшх рядов.
ОС обеспечивает периодический параллельный запуск данных программ каждые 5 минут (средствами системного планировщика сгоп) (см. приложение 2, листинг 1).
Программа Process-l.sh (см, приложение 2, листинг 2} при старте производит сбор данных средствами внешней программы (Tcpdump, см. раздел 1.3), разделяет трафик по направлениям (с помощью внешней программы Tcpdump), преобразует в эквидистантную форму (с помощью внешней программы Tethereal) и вызывает программу Ait-packets-correlation.pl? выполняющую корреляционный анализ потоков трафика (см. рис. 3,7).
Программа Ait-packets-correlation.pl (см, приложение 2f листинг 4) вычисляет коэффициент кросскорреляции между ВР интенсивности пакетов потоков трафика и возвращает его значение вызывающей программе Process-l.sh (см. рис. 3.9). Process-l.sh записывает значение коэффициента кросскорреляции в журнал.
Программа Process-2.sh (см. приложение 2, листинг 3) при старте производит сбор данных о трафике средствами внешней программы (snmp, см. раздел 13) и вызывает отдельную программу Ait-forecast.pl, выполняющую моделирование ВР (см. рис. 3-8).
Программа Ait-forecast.pl (см. приложение 2, листинг 5) производит обработку входного массива данных, вычисляет прогнозируемое значение, СКО (см. раздел 2.6) и возвращает результат прогноза вызывающей программе (см. рис. 3.10). Process-2,sh записывает результат в журнал.