Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Баранов Петр Александрович

Обнаружение аномалий на основе анализа однородности параметров компьютерных систем
<
Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем Обнаружение аномалий на основе анализа однородности параметров компьютерных систем
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Баранов Петр Александрович. Обнаружение аномалий на основе анализа однородности параметров компьютерных систем : диссертация... кандидата технических наук : 05.13.19 Санкт-Петербург, 2007 155 с. РГБ ОД, 61:07-5/2850

Содержание к диссертации

Введение

Глава 1. Аномалии как обобщение нарушений безопасности 18

Систематизация нарушений безопасности в распределенных сетях20

Обобщение понятия аномалии 30

Основные положения предлагаемого метода обнаружения аномалий 35

Глава 2. Выбор объектов наблюдении, характеризующих нормальное и аномальное состояния системы 45

Построение теоретико-вероятностной модели поведения системы 47

Классификация характеристик системы 51

Выбор наблюдаемых характеристик системы и его обоснование 63

Глава 3. Математическое описание и теоретико-вероятностные основы алгоритма обнаружения аномалий 74

Критерий однородности данных 76

Алгоритмы выявления неоднородности , 85

Средние и дисперсия применяемых статистик 96

Глава 4. Программная реализация статистических методов обнаружения Аномалий 114

Алгоритмы работы и принципы программирования программного комплекса обнаружения

Аномалий 116

Результаты работы программного комплекса на клиентских машинах 132

Результаты работы программного комплекса на сервере 142

Заключение 148

Литература 150

Введение к работе

На сегодняшний день не существует общего подхода к решению задачи обнаружения аномальных ситуаций в процессе функционирования компьютерных систем (КС). Однако в условиях бурного развития информационных технологий и как следствия постоянной модернизации программного и аппаратного обеспечения КС, решение частных задач обнаружения аномалий не может обеспечивать безопасность системы [22]. Необходим более универсальный и вместе с тем научно обоснованный метод отслеживания состояний системы.

При решении задачи обнаружения аномалий область рассматриваемых событий, происходящих в системе, а следовательно, и область обнаруживаемых аномалий, существенно ограничивается [7][11-13]. Процесс нахождения решения для такой частной подзадачи состоит из следующих этапов. В первую очередь выделяется некоторый спектр свойств системы, среди которых необходимо производить наблюдения. Эти свойства подвергаются анализу с целью выявления общих тенденций в их изменениях, характера этих изменений и предположительных законов, которым эти изменения удовлетворяют. На основании результатов этого анализа производится выбор области методов, пригодных для эффективного отслеживания аномалий в поведении выделенных свойств. Далее осуществляется апробация конкретных методов из выбранной области или ищутся результаты опыта их применения в уже существующих системах обнаружения аномалий. В конечном итоге для обнаружения аномалий используется метод, способный наиболее полно учитывать все изменения свойств выбранной области и в то же время обеспечивающий оптимальную точность при отличии аномального их поведения от нормального.

Принципы обнаружения аномалий часто применяются для решения задач обнаружения атак на вычислительные системы. Таким образом, методы обнаружения аномалий выбираются применительно к конкретному набору параметров системы и их эффективность гарантирована исключительно для этого набора параметров.

Основа для этого направления обнаружения атак заложена в работах таких известных отечественных ученых как В. Будзко, В. Левин, Б. Поспелов, В. Пярин, А. Стрельцов, В. Шерстюк, и зарубежных ученых Д. Деннинг, Н. Кресси, Т. Рида, Ю. Спаффорда, Б. Шнаера и других.

Предлагаемая автором математическая модель и разработанная на ее основании методика предполагает применение для решения широкого класса задач информационной безопасности.

Автором рассматриваются аномалии в работе программного обеспечения системы, однако предложенные методики могут применяться и для аппаратной составляющей.

Актуальность проблемы подчеркивается еще и тем, что даже в случае более или менее полного покрытия всей области наиболее важных проблем, связанных с обнаружением аномалий в системе частными решениями, интеграция этих решений, представляет собой трудноразрешимую комплексную задачу.

Целью диссертационной работы является разработка математической модели сетевого и внутрисистемного поведения КС и методики выявления аномалий системы на основании статистического исследования изменений характеристик системы.

В соответствии с поставленной целью основными задачами исследования являются:

1. Анализ существующих видов аномалий в КС и их систематизация;

2. Разработка алгоритмов обнаружения аномалий и построение математической модели поведения системы;

3. Выбор объектов наблюдения, анализ и классификация характеристик ПО КС, в совокупности формирующих поведение системы;

4. Теоретико-вероятностное обоснование алгоритмов обработки данных;

5. Разработка методики обнаружения широкого класса аномалий на основе оценки однородности данных наблюдения;

6. Тестирование применимости предлагаемых статистических методов обнаружения аномалий на практике для различных типов КС.

Решение сформулированных задач строилось с помощью аппарата теории вероятности и математической статистики. Применялся также анализ научных разработок и результатов испытания систем, реализующих существующие подходы для решения частных задач обнаружения аномалий, Практическая применимость разработанных алгоритмов и методик исследовалась при помощи специально разработанного соискателем программного обеспечения в условиях моделирования разных типов поведения КС и применения его на эксплуатируемых в штанном режиме системах.

Научная новизна диссертационной работы состоит в следующем:

1. Предложена обобщенная модель аномалии как специфического признака нарушения безопасности информационных систем;

2. Впервые разработана математическая модель поведения информационных систем и методика, позволяющая обнаруживать широкий класс аномалий на основе анализа однородности наблюдаемых параметров системы;

3. Исследованы и обоснованы алгоритмы обнаружения аномалий;

4. Обоснован набор наблюдаемых характеристик, достаточных для обнаружения аномалий.

Практическая ценность работы состоит в том, что ее результаты позволяют:

• Проводить анализ защищенности информационных систем с точки зрения нового подхода к определению аномалии в системе, выявляя широкий класс нарушений безопасности;

• На основании предложенной методики разработать самостоятельную систему обнаружения аномалий в КС, ориентированную на анализ поведения элементов защищаемой системы и нацеленную на решение целого комплекса задач по защите информации.

Практическая ценность и новизна работы подтверждаются двумя актами внедрения: от ЗАО «Голлард» (результаты применены при проектировании защищенных систем обработки информации) и от ЗАО «Институт проблем информатики РАН» (результаты применены при анализе защищенности ведомственной компьютерной сети в связи с плановым обновлением обслуживающего ПО).

Основные теоретические и практические результаты работы обсуждались на XIV и XV общероссийских научно-технических конференциях «Методы и технические средства обеспечения безопасности информации» (С-Петербург, 2005-2006), на XIV Всероссийской научно-практической конференции "Проблемы информационной безопасности в системе высшей школы" (Москва, 2007).

По теме диссертации опубликовано 11 работ, в их числе 8 научных статей и 3 доклада на конференциях.

Основные положения, выносимые на защиту:

1. Предложено понятие обобщенной статистической модели аномалий поведения КС;

2. Подход к обнаружению аномалий путем применения статистического критерия степени рассеивания выборок при большом числе испытаний;

3. Метод отображения поведения произвольных характеристик системы на множество случайных выборок;

4. Исследование асимптотического поведения статистик различных критериев однородности выборок применительно к задаче обнаружения аномалий;

5. Теоретико-вероятностная модель поведения защищаемой системы и программные, реализующие выявление аномалий в соответствии с принятой моделью.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы из 43 наименований.

Первая глава содержит постановку задачи исследования и разработки предлагаемого подхода к обнаружению аномалий. Для этого анализируются основные типы аномалий, возникающих в КС, проводится их систематизация и формулируются основы построения обобщенной модели аномалий.

Глава содержит описание возможностей применения подходов, основанных на обнаружении аномалий для решения задач информационной безопасности. Даются определения аномалии и штатной работы наблюдаемой системы. Кроме того, приводятся основные принципы применяемого метода обнаружения аномалий.

Аномалии, возникающие в КС классифицируются по причинам возникновения: аномалии работы ПО, аномалии, возникающие как следствие сетевых атак, аномалии поведения пользователя, аномалии в работе аппаратной составляющей и т.д., - все они имеют отношение к безопасности КС. Повышенный интерес вызывают обычно аномалии, связанные с сетевыми атаками. Действия, связанные с атакой на вычислительную систему связаны с аномалиями в работе отдельных частей функционирующего в системе ПО. При корректно сформулированном профиле нормального поведения определенных программных компонент и эффективном методе обнаружения отклонений от этого профиля проблема обнаружения атак является частным случаем задачи обнаружения аномалий.

Основная гипотеза предлагаемого подхода состоит в том, что штатной работе системы соответствует однородность наблюдаемого поведения. Выбор характеристик, отражающих поведение системы, представляет собой отдельную задачу, решение которой также предлагается в работе. В этой связи неоднородность поведения рассматривается как предпосылка угрозы штатной работе системы. В соответствии с основной гипотезой неоднородность связывается с аномалией, и обнаруживать аномалии представляется именно в виде неоднородностей в работе системы. Исходя из описанных предположений, в работе предлагается определение аномалии как отклонения в поведении системы от однородности, наблюдавшейся при штатной работе.

Для решения поставленной задачи в работе предлагается формализация понятия однородности в терминах математической статистики. Модель поведения системы формируется на основании выборочных наблюдений характеристик системы.

Каждая выборка характеризует поведение наблюдаемой компоненты или параметров системы на протяжении некоторого временного интервала наблюдений. Выборки формируются на основании показаний совокупностей датчиков, отражающих изменения характеристик системы. В результате наблюдений за системой в течение определенного интервала времени получим распределение частот состояний срабатывания датчиков, из которого вычисляем результирующую выборку. Однородность таких выборок и выявление отклонений в распределении частот состояний датчиков исследуется в настоящей работе.

В диссертационном исследовании принято соглашение о том, что штатной называется такая работа КС, при которой на систему не производится атак, ПО работает без сбоев, окружение системы постоянно и глобальные свойства ПО остаются неизменными.

Обнаруживаемые отклонения в поведении программного обеспечения от назначенного для профиля нормального поведения могут означать возникновение целого ряда классов проблем в наблюдаемой системе. Это могут быть разного рода сбои в работе самого программного обеспечения, нештатная работа аппаратных составляющих, неисправности удаленных устройств или КС, с которыми налаживает связь наблюдаемая система. Кроме того, отклонениями от нормального шаблона характеризуется и не наблюдавшаяся ранее активность пользователей системы, таким образом, возможно решение задач выявления внутренних нарушителей политики безопасности.

Для решения задач, поставленных в работе, необходима разработка математической модели поведения наблюдаемой системы, классификация и метод отбора исходного материала исследований. Этим проблемам посвящена вторая глава диссертации.

Под наблюдаемой системой будем понимать набор параметров программных компонент КС. Необходимо решить проблему выбора характеристик, отражающих поведение системы и в то же время таких, для которых возможно проведение статистического анализа на аномальность.

Построим математическую модель функционирования системы. Пусть выбраны некоторое количество параметров системы, подлежащих наблюдению. Пусть также имеется s датчиков, фиксирующих состояние каждой из характеристик. Пронумеруем датчики от 0 до s-\.

Наблюдение за системой состоит из интервалов наблюдений - отрезков времени заданной длины. На интервалы наблюдения могут быть наложены дополнительные условия: помимо общей продолжительности они могут иметь общее в течение дня начало наблюдения, список пользователей, имеющих доступ к системе на протяжении очередного интервала и т.д. Интервал наблюдений разбивается на более мелкие промежутки наблюдений. По окончании каждого промежутка наблюдений специальным образом формируется величина, характеризующая совокупность активности бинарных датчиков за этот промежуток.

По окончании всего интервала на основании наблюдений на отдельных промежутках составляется т.н. результирующая выборка на выбранном множестве характеристик и датчиков. Каждый элемент этой выборки содержит информацию о частоте, с которой значения датчиков изменялись на протяжении данного интервала и номерах изменявшихся датчиков. Таким образом, в виде результирующей выборки имеем формализованное математическое представление характера изменений параметров системы на протяжении интервала наблюдений.

Однородность выборок, сформированных указанным образом, исследована в данной работе с помощью критериев однородности. В результате применения критерия однородности к множеству выборок получаем численное значение критерия, на основании анализа которого делается вывод об однородности или неоднородности выборок, что в соответствии с основной гипотезой работы свидетельствует о наличии или отсутствии аномальной активности на заданных временных интервалах. Анализ применяемых критериев проведен в третьей главе.

Эффективность обнаружения аномалий во многом зависит от выбора наблюдаемых параметров.

Систематизируем характеристики КС с точки зрения их статистического анализа. В работе предлагается разделить все пространство характеристик наблюдаемой системы на следующие категории, исходя из задачи обобщения аномалий:

• Характеристики, описывающие использование локальных ресурсов системы. Сюда относятся свойства системы, на которые напрямую оказывают влияние исключительно локально обрабатываемые программные процессы.

• Характеристики, описывающие взаимодействие системы с внешним миром. К этой категории относятся свойства системы, изменения которых обусловлены в первую очередь процессами взаимодействия системы с другими подобными системами.

Характеристики первой категории отражают состояние ресурсов системы на момент наблюдения.

Наблюдаемые параметры первой категории подразделяются по принципу осуществления наблюдения, т.е. по акцентам, расставляемым при осуществлении контроля тех или иных характеристик.

• Контроль свободного количества ресурсов;

• Контроль абсолютного использования;

• Контроль временных характеристик;

• Контроль шаблонов использования конкретных ресурсов;

• Контроль взаимосвязей.

Данные наблюдений, входящих во вторую категорию, в работе разделят в связи с понятием «период наблюдения», то есть применительно к измерению изменений тех или иных величин, произошедших за временной промежуток, равный установленному значению. Это значение именуется периодом наблюдения. Рассматриваются следующие подгруппы этих величин:

• Объемы передачи данных;

• Количество передаваемых пакетов данных;

• Количество соединений;

• Продолжительность соединения.

В соответствии с введенной классификацией выбераются наборы характеристик, использующихся для проверки гипотез работы на практике. Выделяется два множества элементов присутствующего в системе ПО:

• Множество элементов, характеристики которых могут быть затронуты в результате сетевого взаимодействия наблюдаемой системы с другими системами и/или сетевым оборудованием;

• Множество элементов системы, характеристики которых могут быть затронуты только в результате действий локально запущенных процессов.

Эти множества соответствуют двум основным группам классификации. Внесем конкретику в требования к наблюдениям: наблюдение производится на отдельно взятом сетевом интерфейсе передачи данных, в рамках протокола ТСРЛР, мониторинг ресурсов системы ограничим оценкой расхода виртуальной памяти и загрузкой центрального процессора.

В качестве датчиков для первого множество выберем количество переданных пакетов и количество соединений, установленных для заранее выбранных TCP-портов передачи данных. Для второго множества вводится шкала загрузки ресурса. Полная загрузка принимается за 100% использования ресурса, состояние, при котором загрузка минимальна - за 0% использования. Бинарные датчики загрузки связываются с относительным уровнем загрузки по выбранной шкале с шагом 10%.

Введенная математическая модель предполагает использование критерия однородности выборки для обнаружения аномалий. Теоретические основы предлагаемых к рассмотрению критериев предложены и исследованы в третьей главе настоящей работы.

В третьей главе рассматривается многопараметрическая математическая модель наблюдений над поведением ПО, называемая обычно в литературе полиномиальной схемой. Каждый отрезок наблюдений моделируется отдельно последовательностью независимых случайных величин, соответствующих своей полиномиальной схеме. В этой математической модели рассматривается асимптотическое поведение многих статистик различных критериев, в том числе критерия однородности, являющегося базовым в работе. Асимптотика обычно применяется там, где имеются большие значения параметров и тогда допредельные, сложные и нерассчитываемые распределения заменяются на более простые предельные. Этот принцип применен и в данной работе.

Дополнительно для подтверждения возможности подобной замены произведен численный расчет допредельных средних и дисперсий используемых статистик. Известные в настоящее время результаты носят асимптотический характер, а скорости сходимости в применяемых представлениях средних и дисперсий не оценены.

Серии последовательностей наблюдений над работой системы моделируются реализациями серии независимых случайных величин.

В частности, так поступают в исследованиях по статистической лингвистике, когда последовательность слов в смысловом тексте моделируется последовательностью независимых случайных величин. В нашем случае hdu—drd- последовательность состояний совокупности датчиков за промежутки наблюдений одного интервала. При этом в отдельности каждый из датчиков будет иметь свое распределение, однако это распределение будет постоянным при переходе от одного интервала всей серии наблюдений к следующему.

Подобные серии наблюдений в математической литературе называют схемами независимых полиномиальных испытаний или полиномиальными схемами.

Рассмотрим случай однородности распределений /. Для выявления гипотезы Н0 :Р1 =... = РГ, обычно используется критерий однородности хи квадрат.

Эффективность критерия хи-квадрат оценивается асимптотически при ТХ,...,ТГ -»соt N=const и фиксированном распределении Р РХ = ... = Pr, не имеющем нулевых координат. Пусть справедливо соглашение о том, что координаты, которые по окончании очередного интервала наблюдений приобрели нулевое значение, не учитываются. Знание параметра NQ (количество ненулевых координат) необходимо для замены допредельного сложного выражения распределения статистики Хт на предельное.

Для решения поставленных в работе задач воспользуемся предложенным Кресси и Ридом обобщением критерия хи-квадрат, основанным на статистике мощности рассеивания 1Т (Я) с некоторым параметром Л.

В настоящей работе эти критерии предлагается использовать в качестве основных для фиксации однородности состояния. В связи с тем, что при изменениях параметра X можно ожидать увеличения точности определения однородности для разных типов распределений, необходимо исследование различных свойств приведенных критериев в зависимости от значений этого параметра.

Наличие неоднородности, т.е. обнаружение аномалии можно рассматривать как отсутствие однородности и в этом смысле, ограничиваясь изложенными методами, делать заключение о наличии аномалии в виде вторжения или изменении поведения ПО в случае несоответствия гипотезе Н0 наблюдаемых г выборок наблюдений объемов ТХ,...,ТГ. Предложенная модель позволит получить оценку вероятности ошибки первого рода, т.е. вероятности события: критерий ошибочно отверг однородные выборки. Если подобные события случаются часто, то это вредит работе программной системы, ведущей наблюдения в смысле реализации заложенного в нее функционала.

Ошибку второго рода, т.е. вероятность пропуска вторжения или посторонних действий оператора рассчитать без конкретизации альтернативной для #0 гипотезы #,, невозможно. Вместе с тем, при обнаружении несоответствия требованию однородности существует проблема выявления места несоответствия, что связано с определением периода наблюдений, где имеет место неоднородность, т.е. с выявлением номера или номеров выборок, в которых распределение вероятностей исходов отличаются от остальных.

Таким образом, проведенный анализ показывает возможность эффективного применения критерия по выявлению неоднородности выборок, основанного на статистике 1Т (Я).

Для применения критерия в практике выявления аномальной работы ПО важными являются параметры среднего Е1Т(Л) и дисперсии DIT(X). В предположениях N = const, 7],...,Г, -« находятся выражения для среднего и дисперсии с оценками остаточных членов.

Реализация предложенной методики и экспериментальное исследование обнаружения аномалий освещены в четвертой главе. Задачи 4 главы: в данной главе представлены результаты разработки комплекса программных средств, обеспечивающего сбор и обработку статистических данных, позволяющих осуществить экспериментальную проверку предложенных методов.

Для получения статистических данных и преобразования их в результирующие выборки, а также для применения к полученным выборкам спектра критериев, был разработан программный комплекс, состоящий из нескольких модулей. Каждый из модулей выполняет задачу получения данных из системы или от других модулей и преобразования их в вид, пригодный для восприятия исследователем или другим модулем программы. Кроме того, такая организация позволяет разделить кроссплатформенные участки кода и модули, чья реализация зависит от целевой ОС.

Программа состоит из модулей трех типов: сенсор сетевой активности, сенсор внутрисистемных изменений и модуль статистической обработки. Для успешной совместной работы, а также с целью обеспечения возможностей расширяемости программного средства, необходим интерфейс взаимодействия модулей. Таким интерфейсом служат жестко зафиксированные множества параметров и входных-выходных данных для пограничных методов C++, а также заранее определенные структуры данных, с помощью которых осуществляется передача информации о наблюдавшихся изменениях характеристик системы.

Исследования практической применимости критериев однородности проводились для трех классов систем типа «рабочая станция» Аномалии в отношении сетевой активности моделировались с помощью атак на наблюдаемые системы (применялись атаки типа SynFlood, MS03-39 Kaht2 (135), MS03-043 Remote SYSTEM, HOD-ms04011-lsasrv-expl LSASS (MS04-011) и другие) и заражения их вредоносными программами, такими как VBS LoveLetter, Cassandra, RedZONE 7Л и Melissa. В отношении использования внутренних ресурсов системы аномалии моделировались путем установки дополнительного ПО, создающего нагрузку на процессор или повышающего объемы использования виртуальной памяти.

Первые 10 дней наблюдалось штатное поведение системы, на 11-й день моделировалась аномалия.

Результаты наблюдений за системой типа «сервер» проводились на сервере локальной сети, осуществляющем функции межсетевого экрана. Сервер установлен в Институте Проблем Информатики РАН и выполняет роль фильтра входящего/исходящего трафика ведомственной сети насчитывающей более 100 рабочих станций. В качестве программного обеспечения, реализующего доступ пользователей локальной сети в Internet, использовался продукт Microsoft ISA server 2000.

Наблюдение проводилось за взаимодействием систем локальной вычислительной сети с Интернет с использованием служб электронной почты, мгновенного обмена сообщениями, удаленного доступа к базам данных, службам защищенной передачи данных и других.

Наличие атак кроме модуля статистической обработки фиксировалось штатной системой защиты и обнаружения атак. Наблюдения за штатной работой сервера производились в течение 2 месяцев.

Таким образом, основные направления диссертационных исследований заключаются в следующем:

1. Изучение обобщенного понятия аномалии в КС.

2. Разработка математической модели поведения системы, представляющая системную активность выборками значений случайных величин.

3. Разработка алгоритма обнаружения аномалий на основе математического аппарата проверки однородности с применением критерия степени рассеивания выборок,

А. В соответствии с введенной моделью разработка методики обнаружения аномалий в работе ПО, то есть:

• Математическое обоснование применимости предлагаемого математического аппарата для задач обнаружения аномалий;

• Исследование чувствительности метода для обнаружения неоднородности;

• Оценка необходимых для эффективного обнаружения объемов материала наблюдений;

• Проведения апробации подхода в условиях реальных КС и при моделировании аномальной активности.

5, Создание средства сбора и анализа статистики на основе наблюдения за системами, функционирующими под управлением ОС семейств Linux и MS Windows, реализующего основные разработанные научные положения в виде программного комплекса.

Обобщение понятия аномалии

Аномалия (греч.) - уклонение от обычного, несходство с обыкновенным; изъятие, исключение, уклонение, причуда, необычайность, странность. Аномальный, аномалический, или анормальный, составляющий изъятие, исключение, уклонение от правила, порядка.

Приведенное определение является общефилософским, в этом параграфе дается его интерпретация применительно к компьютерным системам, а точнее - применительно к поведению отдельных элементов этих систем.

В первом параграфе этой главы описано применение методов обнаружения аномалий для решения задач обнаружения атак. Однако класс проблем, для решения которых исследуется применимость предлагаемых методов обнаружения аномалий, шире, и не ограничивается обнаружением разного рода сетевых атак на вычислительные системы. Более того, возможно применение предлагаемых методов и для обнаружения аномалий в аппаратной части компьютерной системы, однако описываемые исследования концентрируются на программной составляющей, которая, в свою очередь, может отражать те или иные особенности поведения аппаратной среды.

Отклонения в поведении компоненты программного обеспечения от назначенного для нее профиля нормального поведения могут означать возникновения целого ряда классов проблем, возможно возникших в наблюдаемой системе. Для дальнейших исследований необходимо соглашение о правилах составления шаблона нормального поведения. Будем считать, что составленный шаблон нормального поведения составлен корректно, если:

а) В процессе его формирования использовалась «чистая» система (на систему в это время не проводилось попыток атак, ПО, установленное в системе, функционировало без ошибок, влияющих на работу наблюдаемой компоненты и т.п.)

б) Набор внешних по отношению к наблюдаемой компоненте условий не изменялся (например, если наблюдаемая компонента относится к ПО, регулирующему или так или иначе зависящему от некоторого взаимодействия с внешней средой, скажем, сетевого взаимодействия, потребуем, чтобы характер этого взаимодействия оставался неизменным на протяжении всего процесса формирования профиля нормального поведения).

в) Глобальные внутренние свойства системы, изменение которых может повлиять на показания датчиков наблюдения, также оставались неизменными, (Под глобальными понимаются свойства, относящиеся сразу к целому комплексу характеристик элементов системы, т.е. права и списки пользователей системы, набор установленного ПО, порядок загрузки ПО в память при старте системы и т.д.)

Кроме того, необходимо требование того, чтобы компонент ПО, в отношении поведения которого проводится исследование использовался достаточно интенсивно для того, чтобы выявление закономерностей в его работе стало возможным. Профиль нормального поведения формируется в том числе на основании данных об интенсивности и регулярности использования ПО. Точность формирования профиля будет также зависеть от выбранных промежутков наблюдения, их продолжительности и ориентировки во времени по отношению к моменту запуска системы или астрономическому времени.

В настоящей работе исследуются возможности отслеживания отклонений от составленного шаблона поведения и анализируется их значимость. В связи с решением этой задачи возникает ряд вопросов, а именно: проблема выделения области наблюдений, проблема нахождения метода математической формулировки нормального и аномального поведений, проблема представления области наблюдения в выбранных математических терминах, проблема формулировки теоретически обоснованного математического аппарата, предназначаемого для различения типов поведения, проблема определения порога отклонения наблюдаемого поведения от нормального профиля, при котором поведение будет считаться аномальным, проблемы, связанные с оптимизацией и адаптацией сформулированного подхода к различным классам ситуаций и наблюдаемых профилей поведения.

Следует подчеркнуть тот факт, что проблема поиска причины отклонения выходит за рамки ряда решаемых в работе вопросов. Само наличие аномалии свидетельствует о том, что в наблюдаемой системе произошли изменения, не наблюдавшиеся ранее. Следовательно, произошли некие, отличные от наблюдавшихся в процессе формирования нормального профиля, события» а значит, для этого имеется причина. Выяснение этой причины представляет собой отдельную проблему, пути решения которой в общем случае разобщены и зависят от конкретных условий.

Другими словами, в результате применения разрабатываемой методики дается ответ на вопрос: «нормально ли поведение наблюдаемой части системы?» то есть - соответствует ли оно нормальному профилю. Если соответствия не обнаруживается, то имеется возможность очертить область характеристик системы, в которой несоответствие.

Классификация характеристик системы

После того, как были рассмотрены принципы построения математической модели, необходимо остановиться на проблеме выбора множеств характеристик системы для последующего сбора информации о поведении. Вводится несколько уточняющих понятий, связанных с процессом отбора наблюдаемьгх параметров системы.

Характеристика - некоторое изменяющееся свойство элемента системы. Текущее состояние характеристики можно наблюдать(измерить) в любой момент времени.

Сенсор - программное средство, предназначенное для получения информации об одной или нескольких характеристиках элементов. То есть сенсор является программной реализацией связки скалярные датчики -бинарные датчики. В задачу сенсоров может быть также заложено некоторое первичное преобразование получаемой информации с целью облегчения ее дальнейшей интерпретации для использования в выбранном математическом аппарате. Наглядно процесс сбора и переработки информации изображен на рисунке 2,1.

Сбор исходной информации - процесс получения сенсорами информации о характеристиках элементов, предшествующий ее преобразованию во внутренний вид наблюдающей системы.

Продемонстрируем необходимость того, чтобы наборы наблюдаемых параметров системы, по значениям которых в конечном итоге будет делаться вывод о нормальности или аномальности ситуации, имели похожую природу, т.е. были отобраны с учетом принадлежности их к некоторой общей области элементов системы.

Пусть имеется два набора параметров системы, оба так или иначе характеризующих состояние наблюдаемой системы или ее части. Например, это может быть ряд параметров одного рода, например, параметры, отражающие сетевую активность ЭВМ с использование выбранного протокола передачи данных и рад параметров другой области, например., характеризующие загружу центрального процессора,

Рассмотрим два варианта использования этих наборов параметров -совместно, в аданом сенеке, тйе формирующих одно распределение значений, и раздельно, т е так, чтобы дж параметров каждого рода распределение значений формировалось независимо. Могут возникнуть следующие ситуации.

Возможна ситуация, при которой оба типа параметров демонстрируют значения, характерные дм нормальной работы системы, В этом случае оба варианта использования ЖВЙЙ&ЇІЄІГШЬІ С ТОЙ ЛИШЬ оговоркой, что точность в статистическом смысле будет несколько снижена в случае единого набора выбранных параметров ввиду большего общего их числа. Кроме того число исходов в случае единого списка параметров но сражению с раздельным использованием параметров каждого рода, увеличится. Как следствие, возрастет и минимальное количество наблюдений,

В ситуации, при которой один из наборов параметров демонстрирует отклонение от нормального состояния, а второй удовлетворяет нормальному состоянию системы (например, резко возрастает загруженность ЦП из-за сбоя в запущенном на ЭВМ несетевом приложении, а сетевая активность остается неизменной), оба варианта» так или иначе, просигнализируют об изменении характера распределений. Однако в первом варианте общее распределение будет меньше отличаться, так как одна его часть, отвечающая за тот набор параметров, который демонстрирует нормальное поведение, будет неизменна. В связи с этим возможен случай пропуска аномальной ситуации, если вклад «нормальности» будет достаточным для того, чтобы общее значение критерия было ниже порога аномальности. В данном случае компоненты, демонстрирующие нормальную активность будут шумовыми, ввиду того, что их значения будут препятствовать определению истинного статуса ситуации.

Кроме того, судя только по значениям выбранного критерия при использовании первого варианта не всегда возможно сделать вывод, чем вызвана тревога. В то же время при использовании двух наборов раздельно четко указывается, что распределение значений, генерируемое параметрами одного рода, демонстрирует их аномальную активность, а выборка, составленная в результате наблюдения за параметрами второго рода, находится в пределах нормального поведения системы. То есть появляется возможность определить более приближенно, какая из частей системы нуждается в рассмотрении. В приведенном примере администратору ЭВМ в первом случае будет очевидно, что в системе что-то не так с использованием процессорных ресурсов или с сетевым взаимодействием. Во втором случае будет дана явная ориентировка на то, что наблюдаемая ситуация аномальна только в плане загрузки процессора и следовательно, проблему следует искать вероятнее всего среди локально запущенных процессов.

Алгоритмы выявления неоднородности

Наличие неоднородности можно рассматривать как отсутствие однородности и в этом смысле, ограничиваясь методами, изложенными в п.2.1., делать заключение о наличии вторжения или изменении поведения ПО в случае несоответствия гипотезе Я0 наблюдаемых г выборок наблюдений объемов Tv.Tr - Такой подход позволит получить основываясь на особенностях распределений статистики из п.2.1. оценку вероятности так называемой ошибки первого рода, т,е- вероятности события: критерий ошибочно отверг однородные выборки т.к. статистика IT{fy превысила установленную границу. Это событие соответствует объявлению ложной тревоги. Если подобные события случаются часто, то это вредит работе программной системы, ведущей наблюдения в смысле реализации заложенного в нее функционала.

Ошибку второго рода, т.е. вероятность пропуска вторжения или посторонних действий оператора рассчитать без конкретизации альтернативной для #0 гипотезы Hl9 невозможно. Вместе с тем, при обнаружении несоответствия требованию однородности возникает и закономерный вопрос о месте несоответствия, что связано с определением периода, где имеет место неоднородность, т.е. с выявлением номера или номеров выборок, в которых распределение вероятностей исходов отличаются от остальных.

Подобная постановка задачи математически еще весьма не определена, поэтому рассмотрим два известных [3] варианта гипотезы Нх, оба из которых относятся к так называемым близким к #0 гипотезам и в которых возможно использование результатов о предельном поведении статистики ІТ (Я) и ее векторного r-мерного аналога ІТ(Л) = (ІТ(Л,1),...,ІГ(Л,г)). В п. 2.1 было специально приведено предельное распределение для г мерной статистики (ХтО) -іХт(г))й случае гипотезы #0 (см. (3.6)) и отмечено» что в соответствии с результатом [3] при определенных условиях распределение r-мерной статистики 1Т (Я) ведет себя аналогично.

На основе (3.6) можно предложить первоначальный вариант алгоритма выделения отличающихся выборок, т.е. не соответствующих требованию одинаковости распределений вероятностей исходов и соответствующих гипотезе Ят, Этот алгоритм заключается в отнесении к отличающимся выборок с номерами, например, для которых IT(Z,s)-N(\-as)\ c (I) (ЗЛІ) {\-as)42N где С{Р) - уровень значимости, зависящий от величины ошибки второго рода/ї и удовлетворяющий равенству Тогда для отнесения в целом совокупности наблюдений к гипотезе Н} можно предложить алгоритм, аналогичный (3.11), т.е. если /г(Я)-ЛГ(г-1) с(Ю V2JV(r-l) (3.13) то считаем справедливой гипотезу Н{,

Предложенные алгоритмы, основанные на неравенствах (3.11) и (ЗЛЗ), синтезированы до сих пор на основе интуитивных представлений о поведении распределения статистики т( ) с ростом объемов наблюдений Tv.Tr при гипотезах, отличных от Н0. Вопрос о построении оптимального алгоритма различения сложной гипотезы HQ против сложной альтернативы Я1 до сих пор не решен в исследованиях по математической статистике. Проблему нахождения оптимальных алгоритмов в том или ином смысле удается решить лишь при значительной конкретизации (сужении) гипотез ЯоиЯр Спектр результатов в этом направлении можно найти в работах [3,19,21,23,30,35], Не будем далее останавливаться на вопросах оптимальности алгоритмов, а перейдем к обоснованию и расчетам вероятности ошибок второго рода, которые удается оценить,

В работе [3] рассматривается предельное поведение распределения статистики 1Т{&) при Tv Tr - оо и N m. Полученные в [3] условия сходимости к нормальному закону центрированной и нормированной соответствующим образом статистики /г(Я) весьма сложны. Для получения качественной картины, дающей представление о параметрах предельных распределений, рассмотрим частный случай, позволяющий существенно упростить вид условий сходимости. Альтернативную гипотезу Н] определим в виде #1 -Р4=РАІ+ЄФ- )- -і 4 d = iv..,/-.,y = u,tf. с3-14) Такое представление наглядно показывает отклонение альтернативных гипотез от основной Я0, при которой $ — 0 при всех возможных значениях d и/

Результаты работы программного комплекса на клиентских машинах

Практическая применимость предлагаемой методики исследовалась на двух типах машин: клиентских ПК и сервере, В этом разделе представлены результаты применения описанного программного средства для клиентских машин (или, другими словами, рабочих станций).

Исследования на компьютерных системах типа «рабочая станция» проводились на машинах с наборами ПО трех типов. Первый тип рабочих станций предполагает активную работу в сети Internet, использование файловых серверов локальной сети, работу с офисными приложениями. Второй тип рабочих станций ориентирован на разработку ПО и связанные с этим процессы, активность работы в сети средняя, загруженность системных ресурсов высокая, но не пиковая. Третий тип рабочих станций реализует профиль «домашний компьютер», то есть системы этого типа выполняют функции интернет-справочника, клиента файлообменных сетей, игровой консоли и т.п.

Каждый из рассматриваемых типов рабочих станций характеризует некоторую целевую подгруппу. Выбор указанных подгрупп обусловлен широким использованием ПК для решения перечисленных задач и возможностью характеризовать каждую из подгрупп в соответствии с наблюдаемыми свойствами систем. Так, в отношении наблюдения взаимодействия с другими системами, для каждого типа систем можно выделить ряд наиболее часто и регулярно используемых каналов связи. Для каждой подгруппы такой список каналов связи будет уникален и, вообще говоря, внутри группы также возможны некоторые изменения среди составляющих списка наблюдаемых каналов» Такие изменения могут иметь место по причине разных версий ПО, выполняющих одни и те же задачи, различных программных платформ, под управлением которых функционирует та или иная система и т.д. Однако большинство членов списка остаются неизменными.

Следует заметить, что третья группа рабочих станций больше отвечает индивидуальным нуждам и предпочтениям ее пользователей, поэтому сказанное в предыдущем абзаце касается ПК этого типа в более обобщенном смысле, чем для первых двух групп, нацеленных на решение конкретных производственных задач. В этой связи для групп этого типа подбиралось большее количество наблюдаемых характеристик. Такое решение обосновано ввиду соглашения, принятого в главе 3 настоящей работы о том, чтобы не учитывать нулевые составляющие результирующих выборок.

Итак, для ПК первой и второй групп при исследованиях было выбрано 8 каналов связи, а для третьей группы - 10 каналов связи, в отношении которых проводится наблюдение. Каждому из каналов связи с помощью описанного выше программного обеспечения поставлен в соответствие бинарный датчик активности. Каналы связи для разных типов ПК распределены следующим образом.

Примечание, В случае наблюдения за системами, применяющимися в первую очередь для разработки и тестирования ПО, три специализированных канала подбирались в соответствии со спецификой разрабатываемых продуктов. Это могут быть внутренние каналы тестовой версии программы, каналы сообщения для удаленной отладки и т.д.

Наблюдение динамики потребления ресурсов системы для всех типов рабочих станций проводилось на унифицированном наборе бинарных датчиков, который описан в главе 2, в разделе о выборе характеристик системы. Для виртуальной памяти и для уровня загрузки процессора выбирались 10 степеней использования и в соответствии с ними строились результирующие выборки.

Эксперименты проводились в условиях минимальных изменений топологии и настроек локальных сетей, маршрутизационного оборудования и серверов локальной сети. Наборы программного обеспечения фиксировались при каждом начале новой серии экспериментов и не изменялись на протяжении всей серии. За каждой из рабочих станций первых двух типов работали 1 -2 пользователя, за рабочими станциями третьего типа - от трех до пяти пользователей.

Временные характеристики наблюдений выбраны следующие: Продолжительность интервала наблюдений -30 минут Продолжительность промежутка наблюдений - 2 секунды для систем первого и второго типов и 1 секунда для систем третьего типа Количество интервалов наблюдений в пределах одного дня наблюдений: 18-22.

Исследования штатной работы проводились в течение одной или двух рабочих недель. По окончании этого периода проводилась модернизация ПО рабочей станции, если это было необходимо, после чего исследования проводились в условиях частично измененного списка компонент ПО. Для контроля отсутствия атак во время формирования профиля нормального поведения на рабочих станциях функционировали штатные средства обнаружения атак. На протяжении исследования этими средствами не было зарегистрировано попыток атак, таким образом, профиль нормального поведения и результаты наблюдений нормального поведения системы формировались в отсутствии нарушений безопасности.

На основании предварительных наблюдений было подобрано количество выборок, необходимое для формирования профиля нормального поведения. Дня того, чтобы поведение системы можно было испытывать на однородность необходимо получить не менее пяти результирующих выборок, отвечающих одному и тому же времени работы (имеется в виду время суток или время с момента включения ПК)

Похожие диссертации на Обнаружение аномалий на основе анализа однородности параметров компьютерных систем