Содержание к диссертации
Введение
1. Методические основы применения интелектуального анализа данных в задачах обнаружения вторжений 12
1.1 Элементы интеллектуального анализа данных 12
1.2 Данные как материал интеллектуального анализа 13
1.3 Предпосылки к использованию МИАД в задачах сетевой ИБ 15
1.4 Обзор методов интеллектуального анализа данных
1.4.1 Наивный байесовский подход (Naive Bayes Approach) 21
1.4.2 Метод опорных векторов 24
1.4.3 Метод ближайших соседей (Nearest Neighbor) 26
1.4.4 Метод деревьев решений (Decision Trees) 27
1.4.5 Искусственные нейронные сети 29
1.4.6 Нечеткая логика 32
1.4.7 Генетические алгоритмы 1.5 Исследования в области интеллектуального анализа данных для выявления сетевых вторжений 37
1.6 Оценка эффективности методик обнаружения сетевых вторжений 41
1.7 Выводы 43
2. Разработка комплексной методики исследования статистики сиб в сетях телекоммуникаций 45
2.1 Трудности, связанные с исследованием статистики СИБ, и пути их преодоления 45
2.2 Анализ структуры данных СИБ и возможности применения существующих решений для их кластеризации 47
2.3 Элементы теории информации и энтропиный подход 50
2.4 Общие принципы выбранного для исследований подхода 54
2.5 Вычисление наиболее информативного признака (НИП) 57
2.6 Вычисление наиболее информативного значения (НИЗ) 60
2.7 Контроль однородности кластеров 66
2.8 Вычисление динамической зависимости СИБ 67
2.9 Оценка степени угрозы ИБ 71
2.10 Выводы 78
3. Вычислительный эксперимент 81
3.1 Общие положения 81
3.2 Исходные данные 81
3.3 Кластеризация сетевых СИБ
3.3.1 Итерация 1: исследование множества А0 82
3.3.2 Итерация 2: исследование множества А0-1 91
3.3.3 Итерация 3: исследование множества А0-0 91
3.3.4 Итерация 4: исследование множества А0(2)-1 95
3.3.5 Итерация 5: исследование множества А0(2)-0 95
3.3.6 Итерация 6: исследование множества А0(3)-1 98
3.3.7 Итерация 7: исследование множества А0(3)-0 99
3.3.8 Итерация 8: исследование множества А0(4)-1 102
3.3.9 Итерация 9: исследование множества А0(4)-0 103
3.3.10 Итерация 10: исследование множества А0(5)-1 106
3.3.11 Итерация 11: исследование множества А0(5)-0 106
3.3.12 Итерация 12: исследование множества А0(6)-1 109
3.3.13 Итерация 13: исследование множества А0(6)-0 110
3.3.14 Итерация 14: исследование множества А0(7)-1 113
3.3.15 Итерация 15: исследование множества А0(7)-1-1 115
3.3.16 Итерация 16: исследование множества А0(7)-1-0 116
3.3.17 Итерация 17: исследование множества А0(7)-0 116
3.3.18 Итерация 18: исследование множества А0(8)-1 119
3.3.19 Итерация 19: исследование множества А0(8)-0 119
3.3.20 Итерация 20: исследование множества А0(9)-1 122
3.3.21 Итерация 21: исследование множества А0(9)-0 122
3.3.22 Итерация 22: исследование множества А0(10)-1 124
3.3.23 Итерация 23: исследование множества А0(10)-0 125
3.3.24 Итерация 24: исследование множества А0(11)-1 127
3.3.25 Итерация 25: исследование множества А0(11)-0 128
3.3.26 Результаты кластеризации СИБ
3.4 Вычисление динамической зависимости СИБ 130
3.5 Оценка угрозы зафиксированных СИБ 132
3.6 Выводы 137
4. Прикладное применение разработанных алгоритмов и методик 138
4.1 Значение прикладного применения МИАД при исследовании сетевых СИБ 138
4.2 Структура ПАК 139
4.3 Вычислительная подсистема 140
4.4 Подсистема хранения данных 141
4.5 Подсистема визуализации 141
4.5.1 Главное окно 142
4.5.2 Окно детализации 146
4.6 Результаты опытно-экспериментальных испытаний 148
4.7 Перспективы дальнейшего развития ПАК 153
4.8 Выводы 155
Заключение 157
Список сокращений и условных обозначений 159
Словарь терминов 160
Список литературы 161
Список иллюстративного материала 178
- Обзор методов интеллектуального анализа данных
- Общие принципы выбранного для исследований подхода
- Итерация 5: исследование множества А0(2)-0
- Результаты опытно-экспериментальных испытаний
Введение к работе
Актуальность темы исследования. Все возрастающая роль
информационной безопасности (ИБ) в общей системе национальной безопасности Российской Федерации зафиксирована в таких документах как Доктрина информационной безопасности РФ и Стратегия развития информационного общества в РФ. Угрозы безопасности информационных и телекоммуникационных средств и систем относят к одному из видов общей направленности угроз ИБ РФ на современном этапе развития общества. Противодействие использованию потенциала информационных и телекоммуникационных технологий в целях угрозы национальным интересам России относят к числу основных задач, требующих решения.
Среди ключевых задач в парадигме обеспечения ИБ сетей и систем телекоммуникаций, выделяют противодействие компьютерным атакам, что обеспечивается за счет комплексного применения ряда технических средств, к числу которых относят и средства обнаружения вторжений (СОВ).
Неотъемлемой задачей, связанной с эксплуатацией СОВ является анализ
событий информационной безопасности (СИБ), зарегистрированных в
информационно-телекоммуникационной системе (ИТС). Ее результатом должно быть корректирующее воздействие, во-первых, в отношении ИТС (для предотвращения вторжения), во-вторых, в отношении СОВ (для повышения ее эффективности путем внесения соответствующих изменений в конфигурацию). Большое количество фиксируемых сетевых СИБ представляет объективную сложность для проведения их исследования. Средства анализа потенциально опасной сетевой активности на основе стандартных возможностей систем управления базами данных (СУБД) не всегда обеспечивают желаемый результат.
В настоящее время ведутся активные исследования, связанные с применением методов интеллектуального анализа данных (МИАД) для решения задач обработки больших массивов информации. Интеллектуальный анализ данных (ИАД) представляет собой процесс выявления неявных знаний о данных, например, в виде ранее неизвестных связей и закономерностей. Опыт применения подобных методов уже доказал свою эффективность во многих предметных областях.
Вышесказанное обусловливает актуальность темы диссертационной работы и необходимость проведения исследований указанной проблематики с позиций ИАД в целях поиска путей построения эффективных систем анализа сетевых СИБ.
Степень разработанности темы исследования представляется
относительно невысокой. Вопрос подходов к исследованию статистики СИБ остается мало изученным. Среди прочих следует выделить два направления, на которых сосредоточены значительные усилия исследователей в области ИБ. Первое касается оценки защищенности систем и сетей телекоммуникации (И.В. Котенко, А.А. Чечулин, М.В. Степашкина, А.А. Азарова и др.). Другое, активно разрабатываемое направление, связано с применением МИАД для выявления непосредственно фактов сетевых вторжений в сетевом трафике
(В.Ю. Дайнеко, И.В. Шарабыров, А.К. Большев, С.В. Белим, М.Ю. Ваганов, С.А. Поздняков, D. Md. Farid, M.Z. Rahman, C.M. Rahman, N.K. Harhna, P.K. Sree, I.R. Babu, P. Docas, L. Ertoz, P.K. Chan, M.V. Mahoney, J. Markey, E. Beqiri и др.).
Учитывая общность предметной области, указанные исследования можно рассматривать в качестве наиболее близких к теме диссертационной работы. Их результаты были изучены на предмет возможного использования предлагаемых решений.
Объектом исследования является процесс исследования данных о СИБ, зафиксированных СОВ.
Предметом исследования является алгоритмическое и методическое обеспечение аналитического процесса при исследовании статистики СИБ.
Цель исследования: разработка критериев, алгоритмического,
программного и методического обеспечения повышения эффективности аналитической обработки информации о СИБ.
Для достижения поставленной цели были сформированы следующие
задачи:
-
Изучить существующие МИАД, связанные с вопросами выявления сетевых вторжений, и определить основные критерии к методу анализа СИБ.
-
Разработать алгоритм и методику кластеризации данных на основе энтропийного подхода.
-
Разработать алгоритм и методику оценки согласованности времени наступления СИБ различных кластеров.
-
Разработать алгоритм и методику оценки уровня угрозы однородных СИБ на основе ретроспективных данных, прошедших экспертную оценку.
-
Разработать и апробировать программно-аппаратный комплекс (ПАК) для исследования статистики СИБ.
Соответствие паспорту специальности. Работа соответствует п.10
«Исследование и разработка новых методов защиты информации и обеспечение
информационной безопасности в сетях, системах и устройствах
телекоммуникаций» Паспорта специальности 05.12.13 – Системы, сети и устройства телекоммуникаций (технические науки).
Научная новизна работы заключается в том, что в ней предложена и реализована концепция построения системы исследования статистики СИБ на основе МИАД. В результате проведенного исследования были получены следующие результаты, характеризующиеся научной новизной:
-
Впервые выбраны критерии МИАД для анализа статистики сетевых СИБ, заключающиеся в способности анализировать большие массивы данных, характеризующиеся малым количеством признаков СИБ и высокой вариативностью их значений с использованием номинальных шкал.
-
Впервые разработан подход, позволяющий повысить эффективность исследования статистики СИБ за счет многократного сокращения объема данных, требующих экспертного анализа, и выявления неявных зависимостей между группами СИБ, на основе МИАД.
-
Впервые на основе энтропийного подхода разработаны алгоритм и методика кластеризации данных, учитывающих специфику предметной области, а именно: малое число признаков характеризующих базовую сущность, применение номинальной шкалы для измерения признаков, высокую вариативность признаков.
-
Впервые для анализа статистики СИБ предложен и применен новый критерий – динамическая зависимость (ДЗ), характеризующий степень согласованности по времени СИБ различных кластеров. Разработаны и реализованы алгоритм и методика его вычисления.
-
Впервые разработаны алгоритмы и методика вычисления нормированных показателей статистики СИБ: степень изученности СИБ для заданного кластера и непротиворечивости экспертной оценки, используемые для автоматизации процесса определения уровня угрозы СИБ, входящих в состав различных кластеров.
Теоретическая значимость работы:
-
На основе этропийного подхода разработаны алгоритм и методика кластеризации данных по номинальным признакам.
-
Разработаны алгоритм и методика вычисления динамической зависимости между группами событий.
-
Разработаны алгоритм и методика автоматической оценки уровня угрозы текущих СИБ на основе ретроспективных данных, прошедших экспертную оценку.
Практическая значимость работы заключается в том, что теоретические результаты доведены до уровня практического применения: разработанные методики представлены в виде четкого алгоритма и реализованы в программном обеспечении, которое позволяет специалисту более эффективно выполнять аналитическое сопровождение при эксплуатации СОВ. Его использование позволяет структурировать исходные данные и многократно сократить количество сущностей, требующих экспертного анализа. Показано, каким образом большие данные сами становятся источником новой информации. Эта информация присутствует в статистике в неявной форме и недоступна для непосредственного наблюдения. Она отражает особенности внутренней структуры и скрытых взаимосвязей. Применение разработанного ПАК позволяет извлекать эту информацию и предоставлять ее в распоряжение специалиста, тем самым давая возможность соотносить между собой различные группы СИБ как по статистическим признакам, так и в динамике, по степени согласованности времени наступления СИБ различных кластеров.
Методология и методы исследования. Основные результаты получены с использованием теории информации, теории вероятностей и математической статистики, методов объектно-ориентированного программирования, работы с реляционными базами данных, а также Java EE технологии.
Положения, выносимые на защиту:
1. Алгоритм и методика кластеризации статистики потенциально опасной сетевой активности, на основе энтропийного анализа данных, позволяющие
эффективно обрабатывать сущности, с малым количеством признаков измеренных в номинальной шкале и обладающих высоким значением вариативности.
-
Алгоритм и методика вычисления динамической зависимости, позволяющие оценить степень согласованности по времени между СИБ различных кластеров.
-
Алгоритмы и методика расчета нормированных показателей статистики СИБ: степень изученности кластера и непротиворечивости экспертной оценки, позволяющие оценить уровень действительной сетевой угрозы на основе ретроспективных данных, прошедших экспертную оценку.
-
ПАК, реализующий функционал аналитического сопровождения при эксплуатации СОВ, включающий в себя три подсистемы: вычислительную, хранения данных и визуализации, построенные на алгоритмах и методиках данной работы.
Личное участие автора в получении научных результатов. Все основные результаты, представленные в диссертационной работе, получены автором лично. В ходе работы были предложены алгоритмы и методики, позволяющие повысить эффективность исследования статистики сетевых СИБ, выполнена их реализация в виде ПАК, проведен вычислительный эксперимент и ряд опытно-экспериментальных испытаний.
Степень достоверности и апробация результатов. Достоверность
научных исследований обосновывается полнотой и корректностью теоретических
обоснований, использованием строгих математических доказательств,
результатами вычислительного эксперимента и опытно-экспериментальных испытаний, подтверждающими правильность применения МИАД и повышение эффективности работы со статистикой СИБ, а так же апробацией и внедрением ПАК в производственную деятельность организаций лицензиатов ФСТЭК и образовательный процесс СибГУТИ, о чем свидетельствуют акты внедрения и использования результатов диссертационной работы.
Основные теоретические положения и результаты диссертации
представлены в научных печатных изданиях и обсуждены на научных конференциях различного уровня. По теме диссертации опубликовано 10 научных работ, среди которых три изданы в рецензируемых научных изданиях, рекомендованных ВАК РФ, и два, приравненных к ним, свидетельства о государственной регистрации программ ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка сокращений и условных обозначений, словаря терминов, списка литературы, содержащего 156 наименований, списка иллюстративного материала, приложений. Диссертационная работа представлена в двух томах. Общий объем первого тома диссертации составляет 179 страниц, из них список сокращений и условных обозначений – 1 страница, словарь терминов – 1 страница, список литературы – 17 страниц, список иллюстративного материала – 2 страницы. Основной текст работы содержит 42 рисунка и 74
таблицы. Второй том содержит 7 приложений. Его объем составляет 193 страницы.
Обзор методов интеллектуального анализа данных
Рассматривая проблематику вопроса с точки зрения комплексного подхода, становится очевидным, что конечная эффективность есть результирующая процессов обработки информации на каждом уровне.
Анализ научных работ из открытых источников позволяет сделать вывод, что основные усилия исследователей по применению МИАД к данной предметной области сконцентрированы на самом нижнем уровне приведенной схемы, т.е. на разработке новых способов выявления СИБ и повышении эффективности уже существующих. Аккумуляция информации о СИБ осуществляется в СУБД. Ее изучение, как правило, выполняется за счет применения традиционных средств СУБД (выборка, группировка и т.д.) с использованием специализированного интерфейса или без такового.
Большое число СИБ, требующих экспертной оценки, неизбежно приводит к ситуации, когда часть из них выпадает из поля зрения специалиста. В этих условиях приобретает актуальность задача поиска качественно новых подходов работы со статистикой, позволяющих специалисту исследовать больший объем информации за тоже время за счет повышения уровня автоматизации средств обработки данных.
Обозначенная задача была исследована с точки зрения МИАД. Учитывая общность предметной области, были изучены основные результаты, достигнутые в применении МИАД для обнаружения СИБ в сетевом трафике.
Системы обнаружения вторжений по способу работы, в общем случае, можно разделить на две категории [45-47]. Первая из них предназначена для выявления вредоносных действий. В ее основе лежит сигнатурный метод. Такие системы выполняют контроль сетевого трафика на предмет соответствия отдельных пакетов и команд сигнатурам уже известных атак. Главным недостатком подобных систем является неспособность выявлять ранее неизвестные компьютерные атаки. Злоумышленник, также может вносить незначительные изменения в основу уже известной атаки с целью избежать срабатывания СОВ. Вторую категорию составляют СОВ, основанные на выявлении аномалий. За счет способности определять отклонения от нормального поведения, такие системы способны выявлять как известные, так и неизвестные попытки вторжения. В отличие от сигнатурных систем, когда защита ИТС начинается сразу после их внедрения, использование СОВ второй категории требуют проведения этапа обучения. В процессе обучения выполняется построение профиля нормального поведения. В дальнейшем, всякая сетевая активность, отличающаяся от этого профиля, рассматривается в качестве возможного вторжения.
Построение эффективной СОВ и ее последующее сопровождение является сложной инженерной задачей, требующей специальных знаний. Необходимость участия специалистов при классификации сценариев атак и уязвимости систем с последующим кодированием соответствующих правил и шаблонов для выявления вредоносных действий существенно ограничивает возможности СОВ по расширяемости и адаптивности. Этот фактор во многом обусловил интерес исследователей к возможности применения МИАД в задачах обнаружения вторжений [10, 27].
Несмотря на большое разнообразие существующих МИАД, чаще всего, в их основе лежит один или несколько классических подходов. Среди наиболее популярных при решении задач, связанных с обнаружением КА, можно отметить[48]: - Naive Bayes Approach - наивный байесовский подход (НБП); - Support Vector Machine - метод опорных векторов (МОВ); - Decision Tree - метод деревья решений (МДР); - Artificial Neural Network - искусственные нейронные сети (ИНС); - Fuzzy Logic - нечеткая логика (НЛ); - Genetic Algorithm - генетические алгоритмы (ГА); - Nearest Neighbor - метод ближайших соседей (МБС). При обнаружении вторжений чаще всего применяют такие методы анализа данных, как классификация, кластеризация, поиск ассоциативных правил [10].
Классификация является одной из часто встречаемых задач ИАД. Ее цель состоит в построении модели атрибутов классификации, основанной на атрибутах данных. На первом этапе выполняют обучение алгоритма на множестве обучающих данных. Каждый элемент таких данных имеет служебную метку, определяющую соответствие элемента своему классу. Обычно, обучающую модель описывают правилами классификации, математической формулой или деревом решений. На следующем этапе оценивают точность классификации на основе построенной модели. На вход алгоритма подают помеченные данные и выполняют сопоставление класса вычисленного алгоритмом действительному классу элемента. В случае если процент ошибочно классифицированных данных не превышает предварительно заданного порогового значения, считают что точность модели достаточная, и в дальнейшем ее используют для классификации непомеченных данных [10].
Кластеризацией называют процесс распознавания внутренних правил объекта данных. Обучающего множества в данном случае не требуется. Объекты группируют в форме классов связанных объектов, т.е. кластеров в зависимости от выбранных метрик. Используемые метрики основаны на значениях свойств элементов. Обычно их определяют через расстояние. Различие между классификацией и кластеризацией состоит в том, что классификацию применяют для распределения элементов по заранее известным классам, а кластеризацию – для поиска неустановленных правил классификации в перемешанных наборах данных. Условно кластеризацию можно рассматривать как процесс автоматической классификации [10].
Поиск ассоциативных правил – еще одна часто встречаемая задача при анализе больших массивов данных. При ассоциации шаблон строят на основе связи отдельных элементов при наступлении определенного события. Этот подход позволяет выявлять важные связи между элементами в представленном наборе данных. К основным характеристикам ассоциативных правил относят достоверность (confidence) и поддержку (support). Достоверностью правила называют вероятность того, что из утверждения A следует утверждение B. Поддержка определяет, какая доля от общего числа объектов соответствует утверждениям A и B. Ассоциативные правила были впервые разработаны для поиска корреляций транзакций розничной торговли. Полученные величины отвечали решаемой прикладной задаче и способствовали формированию более выгодной ценовой политики. Например, если клиент, который покупает безалкогольный напиток (А) обычно также покупает картофельные чипсы (B), то картофельные чипсы ассоциируются с безалкогольными напитками путем использования правила . Предположим, что 25% всех клиентов покупают безалкогольные напитки и картофельные чипсы, и что 50% клиентов, которые безалкогольные напитки, также покупают картофельные чипсы. Тогда достоверность будет иметь значение – 0,5, а поддержка – 0,25 [10].
Общие принципы выбранного для исследований подхода
Пути решения поставленной задачи были найдены благодаря теории информации, фундамент которой был заложен К. Шенноном в 1948 году. С его именем связывают, в частности два принципиальных шага. Первый заключается в отказе от рассмотрения конкретного содержания информации в пользу ее объективных свойств. Эти свойства должны описываться математическим языком на основе использования теории вероятностей. Была введена единица измерения информации – бит. Второй шаг состоял в использовании формулы энтропии, применяемой в то время в термодинамике. Глубокий смысл этого действия заключается в том, что объективные (количественные) характеристики информации одни и те же не только в канале связи, книге, памяти человека или компьютера, но так же в живой клетке, кристалле и вообще в любых объектах и системах окружающего мира. Вероятностную формулу энтропии математики и кибернетики называют сегодня формулой Шеннона, а физики и биологи – формулой Больцмана. Встречается и такое название, как формула Больцмана-Шеннона [129]. Энтропия – мера неопределённости состояния некоторой системы. Можно также назвать её мерой рассеяния, и в этом смысле она подобна дисперсии [130]. Но если дисперсия является адекватной мерой рассеяния лишь для специальных распределений вероятностей случайных величин, то энтропия таких ограничений не имеет.
Родившись как математическая теория электрической связи, теория информации давно уже вышла за рамки проблем передачи сигнала по каналу связи. Ее базовое понятие - энтропия, - в силу своей универсальности, находит применение в самых разных прикладных областях: математика, физика, социология, медицина, биология, информационная безопасность, криптография, экология, геология и т.д. [130-144]. Это же качество позволяет использовать ее в МИАД при решении прикладных задач, связанных с обработкой больших массивов информации.
Кроме универсальности, энтропия обладает и другими полезными свойствами. Так, если некий опыт имеет равновероятных исходов, а другой опыт - равновероятных исходов, то составной опыт имеет равновероятных исходов. Для используемой меры неопределенности крайне желательно, чтобы она, во-первых, росла по мере увеличения числа возможных исходов, а во-вторых, чтобы неопределенность составного опыта была равна просто сумме неопределенности отдельных опытов: ( ) ( ) ( ). Иными словами, мера неопределенности должна обладать свойством аддитивности. Именно такой удобной величиной оказалась энтропия, введенная К. Шеноном [143, 144]: ( ) Y iX) где - дискретная случайная величина с диапазоном изменчивости , ( ) -вероятность /-го значения .
В теории информации в формуле для энтропии обычно используют двоичные логарифмы. В общем случае, выбор основания логарифма - лишь вопрос масштаба, поскольку энтропия безразмерна. Возможная величина энтропии заключена в пределах
Нижняя грань соответствует вырожденному распределению, когда неопределенность величины отсутствует. Верхняя грань соответствует равномерному распределению, т.е. все значений встречаются с равной вероятностью. С точки зрения МИАД ключевую роль играет возможность использовать энтропийный подход в ситуации, когда необходимо оценить степень зависимости случайных величин, некоторым образом связанных между собой (например, они являются признаками множества исследуемых объектов). Интуитивно понятно, что знание одной из них, в какой-то мере должно уменьшать неопределенность значения другой. Энтропийный анализ позволяет выразить эту неопределенность в точных числовых величинах. Хороший пример использования энтропийного подхода представлен в работе [138]. Исследование носило социологический характер, его объектом были данные из материалов обследования, проведенного Франческо Альберони в 1968 г. по заказу Института Карло Каттанео с целью оценки политической активности 108 партийных функционеров двух итальянских партий. Кластеризация данных выполнялась на основе значений семи дихотомических признаков. В основе подхода лежит идея о вычислении наиболее информативного признака (т.е. содержащего наибольшее количество информации о значении остальных признаков) и последующем делении исходного множества согласно его значениям.
Описанная процедура выполняется последовательно для оставшихся признаков, до тех пор, пока качество кластеризации не достигнет требуемого уровня.
Нужно отметить, что данные, из приведенного примера, существенным образом отличаются от исследуемых в текущей работе, во-первых, по структуре: меньшее количество классифицирующих признаков (5 вместо 7) и много большая их вариативность (тысячи и десятки тысяч вместо двух); во-вторых, по количеству: миллионы вместо сотен.
Итерация 5: исследование множества А0(2)-0
Описанные ранее принципы разработанной методики положены в основу алгоритма и реализованы в виде программного обеспечения. В целях подтверждения правильности выполняемых алгоритмом действий проведен вычислительный эксперимент.
Предлагаемое решение рассчитано на работу с большими объемами данных ( 107 элементов). По причине достаточно высокой вычислительной сложности объем исходных данных для эксперимента ограничен 300 элементами.
Исходные данные представляют собой совокупность сетевых СИБ. Их источником послужила СОВ с открытым исходным кодом Snort. Значения всех IP адресов сгенерированы случайным образом с сохранением первоначальной взаимной зависимости по принципу один к одному.
Список СИБ (элементов) представлен в Приложении 1. Перед началом процесса кластеризации выполняется обезличивание номеров сетевых портов, не содержащих классифицирующие признаки. Для этого из общего количества выделяют значимые номера портов, характеризующие определенным образом сетевое соединение. К таковым можно отнести порты, которые соответствуют стандартным сетевым службам, так называемые «хорошо известные порты» (Well Known Ports) и некоторые другие, которые принципиально важно отличать от прочих. Остальные номера портов (чаще всего открытые на стороне клиента), участвующие в соединении, как правило, назначаются случайным образом. Их номера не содержат в себе какой-либо смысловой нагрузки. В целом их можно считать равнозначными, в том смысле, что они относятся к одной общей категории – случайным (Randomize). Для определенности таким портам назначается общий фиктивный номер 65536. Список различаемых сетевых портов, используемый в эксперименте, приведен в Приложении 2. В Приложении 3 исходные данные представлены после выполнения описанной процедуры.
Параметры кластеризации. Конечный результат кластеризации определяется двумя параметрами: – минимальное количество элементов в классе; – пороговое значение однородности элементов в классе. Для рассматриваемого эксперимента определены следующие значения: ;
Процесс кластеризации состоит из ряда последовательных рекурсивных итераций. Результатом каждой итерации является деление исходного множества элементов на два подмножества. В зависимости от результатов контроля пороговых величин результирующее множество может быть выделено в кластер, отнесено к числу некластеризуемых данных, либо подвергнуто рекурсивному делению.
При этом будет использоваться следующая нотация именования множеств. Исходное множество обозначается как А0. Подмножества, получаемые в результате деления исходного множества, примут вид А0-0 и А0-1. Знак «-», таким образом, соответствует очередной итерации. Для повышения наглядности, будем считать обозначения множеств типа А0-0-0-0-1 и А0(4)-1эквивалентными.
Результаты промежуточных вычислений приведены в таблицах П 4.1– П 4.36 Приложения 4, результирующие множества – в таблицах П5.1–П5.25. Для первой итерации порядок вычислений рассмотрен подробно, с приведением необходимых комментариев. Дальнейшие итерации выполняются аналогичным образом.
Список элементов множества А0 приведен в таблице П 5.1 Приложения 5. Выполняем контроль пороговых значений для исходного множества. По результатам контроля, как было отмечено выше, множество может быть оформлено в виде кластера, отнесено к некластеризуемым данным, либо подвергнуто делению.
Контроль по количеству элементов: ( ). Контроль по однородности элементов выполняется путем вычисления однородности (2.12) и сопоставления полученного значения с пороговым. Значения признаков, соответствующие максимальному количеству элементов (наиболее частых значений), указаны в таблице 3.1 Отметим, что важно именно, количество одинаковых значений, поэтому, если несколько значений признака встречается одинаковое число раз, то указывается любое из них. Таблица 3.1 – Список наиболее частых значений признаков для А0
Результаты опытно-экспериментальных испытаний
СОВ, как ключевой технический компонент в парадигме обеспечения ИБ, все чаще находит свое применение при построении комплексной системы защиты ИТС. При этом вполне очевидно, что на современном этапе научного и технического развития, а также в обозримой перспективе создать СОВ, которая бы работала без помощи квалифицированного специалиста, вряд ли получится [147], поскольку выявление компьютерной атаки, в значительной степени, процесс творческий. В общем случае, подходы к исследованию данных могут быть различными. Единой универсальной методики не существует. Появление такого алгоритма означало бы исключение творческой составляющей (и как следствие – участия человека) из процесса, с возможностью его последующей полной автоматизации. Необходимость участия человека при исследовании статистической информации является объективным фактором и сегодня может идти речь лишь о повышении уровня автоматизации этого процесса.
В современном обществе ИБ выступает в роли системообразующего фактора практически всех сфер его жизни. Обсуждение различных аспектов этого вопроса идет в средствах массовой информации, в том числе глобальной сети Интернет, в специализированных журналах, на конференциях и т.д. Масштаб значимости проблематики трудно переоценить. Вопросы ИБ актуальны для организаций различного профиля, как небольших, так и крупных, ИТС которых может представлять собой сложную географически распределенную вычислительную сеть. Поиску эффективных решений уделяется большое внимание, в том числе и на государственном уровне. Так, например, значительное внимание общественности сосредоточено вокруг вопроса создания Государственной системы обнаружения и предупреждения компьютерных атак, разрабатываемой в соответствии с указом Президента РФ [4]. Среди ключевых задач, как отмечают в [148], выделяют обработку информации о выявленных КА, зафиксированных компьютерных инцидентах и обнаруженных уязвимостях.
Важным практическим направлением в этом отношении является совершенствование инструментальной базы, обеспечивающей необходимый уровень автоматизации описанных процессов, которое оказывает прямое влияние на общую эффективность эксплуатации СОВ. Среди проблем технологического характера, можно отметить аспекты, связанные со структуризацией больших объемов данных, и формированием их визуального представления.
Учитывая вышесказанное, в том числе доводы, приведенные в разделе 2.1, в целях повышения эффективности при эксплуатации СОВ был разработан соответствующий ПАК.
Разработанный ПАК реализует функционал аналитического сопровождения при исследовании статистики сетевых СИБ. Он построен по классической трехзвенной архитектуре: тонкий клиент - сервер приложений - база данных, и структурно состоит из трех подсистем (рисунок 4.1): - Вычислительная подсистема (ВП) - получает из БД исходную информацию о сетевой активности, зафиксированной СОВ. Выполняет кластеризацию и вычисление динамической зависимости между кластерами, с последующим сохранением результатов в БД [149]. - Подсистема хранения данных (ПХД). Представляет собой совокупность таблиц для хранения промежуточных и окончательных результатов вычислений, а также справочной информации. - Подсистема визуализации (ПВ). Обеспечивает взаимодействие с пользователем через веб-интерфейс, предоставляя возможность работы с расчетными величинами в интерактивном режиме [150].
Распределенная архитектура комплекса позволяет развернуть подсистемы как на одном физическом сервере, так и на нескольких. Детальная информация процесса установки и настройки подсистем комплекса приведена в руководстве пользователя.
4.3 Вычислительная подсистема
Функционал ВП реализован в виде автономного программного модуля. Программа разработана на языке Java. Ее отладка и тестирование выполнялись в операционной системе (ОС) семейства Linux. Использование программы в иных ОС, в частности Windows, изначально не предусматривалось. Тем не менее, ВП является потенциально кроссплатформенным решением и, при необходимости, может быть соответствующим образом доработана.
Среди основных параметров, определяемых в файле конфигурации, следует отметить: - SQL-запрос для извлечения данных; 141 - максимальное количество строк, которые будут обработаны; - минимальное количество элементов в кластере; - минимальное значение однородности кластера; - минимально значение динамической зависимости.
ПХД организована в контексте реляционной СУБД и представлена совокупностью таблиц. В зависимости от своего назначения таблицы делятся на рабочие, временные и справочные. К справочным относятся таблицы, используемые для хранения статических (редко изменяемых) данных. Они используются ПВ для повышения информативности представления. В рабочие таблицы помещаются исходные данные и результаты вычислений, такие как список шаблонов кластеров, карта отображения кластеров на множество исходных данных, список динамически зависимых кластеров и т.д. Временные таблицы используются для хранения значений промежуточных величин на этапе выполнения алгоритма ВП.
Возможность работы с результатами вычислений обеспечивает подсистема визуализации. Взаимодействие с вычислительной подсистемой осуществляется через подсистему хранения данных.
ВП разработана с использованием технологии Java Enterprise Edition (Java EE) [151, 152] и для его исполнения требуется контейнер сервлетов. В процессе разработки и тестовой эксплуатации в качестве такого использовался Apache Tomcat v8 [153]. Процесс инсталляции приложения тривиален, и заключается в подключении war-модуля через страницу администрирования сервера Apache Tomcat.