Введение к работе
Актуальность темы исследования
В последнее десятилетие обработка и эффективное использование информации стало невозможным без использования современных вычислительных технологий. В то же время произошло и резкое увеличение числа преступлений, связанных с атаками на информационные компьютерные системы, попыток фальсификации, кражи, искажения критически важных цифровых данных. По этой причине все больше компаний внедряют серьезные меры по обеспечению своей информационной безопасности, но применяемые меры не спасают, по приблизительным оценкам, каждую десятую компанию. Многие исследователи констатируют, что в настоящее время не существует универсальной системы или подхода, позволяющей выявлять все виды неизвестных вторжений. Усугубляет ситуацию и постоянное появление новых видов атак, в связи с чем дальнейшее совершенствование сигнатурных методов выявления злоупотреблений стало невозможным без дополнения их методами интеллектуального анализа данных (ИАД). При этом, говорить о полной безопасности сетевых систем все равно не приходится, можно говорить лишь о заданном уровне вероятности, что очередная атака не будет успешной. Большая актуальность состоит в повышении данной вероятности в условиях того, что задача распознавания сетевых злоупотреблений до сих пор не решена. Это следует из того, что общая задача проверки функциональной эквивалентности программ относится к числу алгоритмически неразрешимых проблем. Следовательно, требуется повышать инструментарий для обнаружения аномалий, дополняя современные системы обнаружения вторжений (СОВ) новыми методами выявления сетевых атак.
Разработкой СОВ занимается много компаний, однако большинство предлагаемых ими решений являются коммерческой тайной и их воссоздание или модифицирование, зачастую, практически невозможно. По этой причине большую теоретическую и практическую ценность имеет разработка и программная реализация эффективных методов обнаружения новых видов атак на основе методов ИАД, успешно конкурирующих с «закрытыми» аналогами, но при этом имеющих открытый программный код и подробно описанный алгоритм функционирования.
Современные методы, анализирующие статистическое состояние системы и воспроизводящие ее нормальный профиль функционирования, имеют дело с данными, накопленными за продолжительный период времени, и обновляются в реальном времени по мере поступления новых событий. Однако они работают не с самими характеристиками событий, а с их обобщенными выборочными значениями, такими как средняя величина, среднеквадратичное отклонение и др., т.е. параметрами накапливающего типа. Таким образом, в процессе прямого вычисления сетевых характеристик и хранении их в памяти за продолжительные интервалы времени, нагрузка на компьютерную систему, занимающуюся ИАД, сильно возрастает, что приводит к «пропусканию» некоторых событий, которые могут являться ключевыми, и общем замедлении реакции СОВ. Необнаруженные или не вовремя обнаруженные события являются причиной серьезных информационных и финансовых потерь. Повышение нагрузки на системные ресурсы становится еще больше, когда, имея сетевые данные за определенный интервал времени, возникает необходимость рассчитать некоторые характеристики за иной период на основе этих данных. Например, для выявления циклических колебаний нагрузки на сеть, связанных с чередованием рабочих, выходных дней, времени суток и т.п. потребуется наряду с анализом недельных и дневных графиков учитывать и часовые, минутные графики. Другими словами, потребуется использо-
вать специальное окно, «вырезающее» интересующий нас произвольный интервал времени из набора собранных данных. В подобных ситуациях в обязательном порядке придется хранить в памяти и все, анализируемые по заданному интервалу времени, сетевые события. В связи с этим трудно переоценить актуальность создания математического алгоритма, позволяющего компактно представлять большие объемы сетевых характеристик, поступающих и обрабатываемых в реальном масштабе времени, и за счет этого снизить нагрузку на вычислительные ресурсы (оперативную память, кэшпамять, дисковые накопители) и повысить реактивность СОВ.
Цель работы
Целью диссертационного исследования является разработка и развитие методов эффективного представления сетевых характеристик при выявлении аномальной сетевой активности, используя интеллектуальный анализ данных.
Научная задача
Научная задача состоит в создании нового математического аппарата весовых функций, обеспечивающего снижение потребления памяти.
Задачи исследования
Поставленные цели обуславливают необходимость решения следующих задач:
Провести анализ предметной области, изучить существующие подходы к обеспечению информационной безопасности в сети, выявить перспективные направления методов интеллектуального анализа данных.
Разработать новый математический аппарат для вычисления специальных видов весовых функций, позволяющих компактно представлять сетевые данные в реальном масштабе времени, определить исходные положения метода, провести оценку его погрешности.
Разработать на основе аппарата предложенных весовых функций новые и усовершенствовать существующие методы интеллектуального анализа данных с обучением «без учителя», выявляющие аномальную сетевую активность.
Разработать программную реализацию всех предложенных методов и алгоритмов.
Провести теоретическую и практическую оценку эффективности всех предложенных в диссертационном исследовании методов на основе весовых функций, используя разработанные программные решения.
Объект исследования
Объектом исследования являются методы интеллектуального анализа данных, выявляющие аномальную сетевую активность.
Предмет исследования
В качестве предмета исследования выступают механизмы повышения эффективности существующих методов интеллектуального анализа данных, решающих задачи выявления аномальной сетевой активности.
Научная задача
Научная задача состоит в создании нового математического аппарата весовых функций, обеспечивающего повышение эффективности выявления сетевых аномалий.
Методологическая основа исследования
При решении поставленных в работе задач, были использованы методы математического анализа, дифференциального исчисления, аналитической геометрии, теории вероятности, математической статистики и кластерного анализа.
Информационная база исследования
При работе над диссертационным исследованием были использованы современные научные публикации по изучаемой проблематике. В качестве статистического источника данных были использованы базы KDD CUP'1999 и NSL-KDD'2009. Также был проведен собственный эксперимент по сбору, классификации и анализу сетевых событий в ЛВС одного из факультетов ЮФУ.
Научная новизна работы
Научная новизна диссертации определяется следующими положениями:
Разработан новый метод весовых функций на основе рекуррентных соотношений, избавляющий от необходимости хранения всех сетевых характеристик, позволяя держать в памяти и использовать лишь ограниченный набор параметров, при этом показатели метода не зависит от объема анализируемой информации.
Разработана новая сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, реализованная на основе предложенных весовых функций.
Разработан новый метод выявления аномальной сетевой активности на основе критериев согласия, использующий предложенный метод весовых функций, который позволяет строить нормальный профиль функционирования сети только на основе распределения пакетов по IP адресам.
Основные положения, выносимые на защиту
На защиту выносятся следующие основные научные положения:
Разработанный метод весовых функций позволяет в реальном масштабе времени компактно представлять последовательность наблюдаемых сетевых характеристик в виде ограниченного набора специальных коэффициентов.
Разработанный метод весовых функций позволяет варьировать точность и ресур-соемкость своей работы в зависимости от типа выбранной весовой функции и числа используемых специальных коэффициентов.
Разработанная сеточная модель кластерного анализа данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, используя метод весовых функций при выявлении аномалий, в отличие от аналогов, дает высокое число правильно выявленных сетевых атак уже при малой величине числа ложных тревог.
Разработанный метод выявления аномальной активности на основе критериев согласия, используя метод весовых функций, позволяет только по информации о распределении IP адресов выявлять сетевые аномалии с заданным уровнем значимости.
Экспериментальные оценки, подтверждающие эффективность разработанных и программно реализованных алгоритмов и методов.
Практическая ценность работы
Практическая полезность диссертации состоит в следующих аспектах:
Разработанный метод весовых функций может быть использован в широком спектре программно-аппаратных систем обнаружения вторжений, в которых ведется сбор и анализ большого объема статистических характеристик в реальном масштабе времени. При этом средняя погрешность при использовании предлагаемого математического аппарата не превышает 1%-3% в зависимости от типа весовой функций и размера ограниченного набора коэффициентов.
Разработанные методы выявления аномальной сетевой активности и их программная реализация могут быть использованы при усовершенствовании существующих
систем на основе интеллектуального анализа данных. При этом метод адаптивных сеток обеспечивает 64.5% правильно выявленных аномалий уже при 1% ложных срабатываний системы, что превосходит показатели других методов. 3. Предлагаемые алгоритмы универсальны и могут быть с успехом использованы в различных областях науки и техники, в том числе при интеллектуальном анализе финансовой, статистической информации, анализе текстов, при оценке подлинности художественных произведений и т.п.
Достоверность и обоснованность научных положений и результатов
Достоверность сделанных выводов и обоснованность научных положений подтверждается систематизацией значительного числа актуальных публикаций по исследуемой проблематике, обеспечивается повторяемостью результатов на больших объемах экспериментальных данных, обладающих репрезентативностью современных видов сетевых аномалий, что не противоречит строгим математическим выкладкам, сделанным в работе, и подтверждается апробацией всех научных результатов на всероссийских и международных конференциях.
Реализация и внедрение результатов
Положения диссертации использовались в учебном процессе Южного федерального университета при чтении курсов «Защита информации в компьютерных сетях» и «Информационная безопасность и защита информации». Результаты диссертации приняты к внедрению в Федеральном государственном унитарном предприятии «Всероссийский научно-исследовательский институт "ГРАДИЕНТ"» (г. Ростов-на-Дону), Научно-производственном предприятии «"ТЕСТ" радиотехника - специальные технологии» (г. Ростов-на-Дону), ООО «АРК Коммерсаль» (г. Москва). Также работа стала лауреатом ЮФУ и была использованы при подготовке конкурсной документации на грант в рамках ФЦП «Научные и научно-педагогические кадры инновационной России». Имеются соответствующие акты о внедрении.
Апробация работы
Результаты диссертационной работы были представлены и обсуждались на научно-технической конференции «Информационные системы и технологии 2007» (ИА-ТЭ, Обнинск, 2007); IX, XI международных научно-технических конференциях «Информационная безопасность» (ТРТУ, Таганрог, 2007, 2010); I Всероссийской молодежной конференции по проблемам информационной безопасности «ПЕРСПЕКТИ-ВА-2009» (ТРТУ, Таганрог, 2009) на которой конкурсной комиссией доклад был признан лучшим и отмечен дипломом I степени.
Личный вклад автора
Все научные результаты получены автором лично.
Публикации
По теме диссертации опубликовано 11 научных работ, из них 3 статьи в журналах, рекомендованных ВАК.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав, заключения и списка литературы из 147 наименований.
Работа содержит 13 таблиц, 25 рисунков и изложена на 153 страницах машинописного текста.