Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности Царёв Дмитрий Владимирович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Царёв Дмитрий Владимирович. Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности: диссертация ... кандидата Физико-математических наук: 05.13.11 / Царёв Дмитрий Владимирович;[Место защиты: ФГБОУ ВО Московский государственный университет имени М.В. Ломоносова], 2017.- 143 с.

Содержание к диссертации

Введение

1 Аналитический обзор современных индустриальных решений управления контентной информацией организации 18

1.1 Системы управления корпоративным контентом (ECM) 18

1.1.1 Классификация документов 21

1.1.2 Анализ отдельных документов 23

1.1.3 Поиск и анализ документов 24

1.1.4 Методы анализа контентных данных eDiscovery

1.2 Системы предотвращения утечек данных (DLP) 28

1.3 Выводы 32

2 Моделирование поведения пользователя 34

2.1 Модель представления «мешок слов» 36

2.1.1 Предварительная обработка текста 36

2.1.2 Вычисление весовых коэффициентов термов 37

2.2 Тематическое представление документов 38

2.2.1 Сингулярное разложение матрицы (SVD) 40

2.2.2 Неотрицательная матричная факторизация (NMF) 41

2.2.3 Ортонормированная неотрицательная матричная факторизация (ONMF) 2.3 Построение и применение тематической модели поведения пользователя 43

2.4 Удаление информационного шума из документа 2.4.1 Методы на основе сингулярного разложения 47

2.4.2 Методы на основе неотрицательной матричной факторизации 47

2.4.3 Экспериментальное исследование 49

2.5 Выводы 53

3 Методы обнаружения аномального поведения пользователя 54

3.1 Базовый сценарий проведения экспериментальных исследований 56

3.2 Прогнозирование тематической направленности пользователя

3.2.1 Методы прогнозирования временных рядов 61

3.2.2 Экспериментальные исследования 66

3.3 Оценка принадлежности документа к характерным тематикам пользователя 72

3.3.1 Формирование экспериментальных данных 75

3.3.2 Экспериментальное исследование метода обнаружения аномального поведения пользователя 77

3.3.3 Экспериментальное исследование применения метода удаления информационного шума 79

3.4 Выводы 82

4 Программная реализация экспериментального образца программного комплекса 83

4.1 Сценарии функционирования 83

4.1.1 Сбор поведенческой информации 83

4.1.2 Построение индивидуальных поведенческих моделей 85

4.1.3 Применение индивидуальных поведенческих моделей 85

4.2 Программная реализация 86

4.2.1 Архитектура системы 87

4.2.2 DCOM-объект анализа поведенческой информации 89

4.2.3 Агент мониторинга поведенческой информации 94

4.2.4 Модуль консолидации поведенческой информации 107

4.2.5 Автоматизированное рабочее место 107

4.3 Оценка производительности 119

4.3.1 Оценка производительности агента мониторинга 120

4.3.2 Оценка производительности методов обнаружения аномального поведения пользователя 1 4.4 Апробация экспериментальной системы 126

4.5 Выводы

5 Заключение 129

6 Список литературы 131

Поиск и анализ документов

По мере роста объемов информационных ресурсов организациям становится все труднее эффективно их использовать [18, 40]. Решения для управления корпоративным контентом (ЕСМ) предоставляют программные средства сбора, анализа, управления, накопления, хранения и доставки информации пользователям организации. ECM-системы ориентируются на работу с неструктурированной информацией в любом виде, включая офисные текстовые и табличные электронные документы, документы в формате PDF, а также рисунки, чертежи, графики, презентации, сканированные изображения, сообщения электронной почты, web-страницы и т.п. [41, 42], т.е. по большей части это текстовая информация.

Согласно определению, приведённом в отчёте Gartner [43], ЕСМ-система — это стратегическая инфраструктура и техническая архитектура для поддержки единого жизненного цикла неструктурированной информации (контента) различных типов и форматов. ECM-системы состоят из приложений, которые могут взаимодействовать между собой, а также использоваться и продаваться самостоятельно. В современных ECM-системах обычно выделяют следующие ключевые функции [41, 43, 44]: - управление документооборотом (англ. Document management) — экспорт и импорт документов, контроль версий, безопасность и другие службы для обработки документов; - управление записями (англ. Records management, в соответствии с последним переводом стандарта IEEE 15489 — ГОСТ Р ИСО 15489-1-2007, «управление документами») — долгосрочное архивирование, автоматизация политик хранения и соответствия нормам регулирующих органов, обеспечение соответствия законодательным и отраслевым нормам; - управление образами документов (англ. Image-processing applications) — сканирование бумажных документов, распознавание текста и других реквизитов, импорт в систему; - социальный контент и сотрудничество (англ. Social content/collaboration) — компоненты, реализующие функционал для совместного использования документов, взаимодействия сотрудников, поддержки проектных команд; - управление потоками работ (англ. Content workflow) — поддержка бизнес-процессов, передача контента по маршрутам, назначение рабочих задач и состояний, создание журналов аудита; - пакетные приложения и интеграция (англ. Packaged apps and integration) — поддержка возможности расширения функционала управления контентом за счёт открытых API, открытых исходных кодов программ, модульной архитектуры программных компонент, которые могут объединяться и использоваться вместе со внешними приложениями, данными/файлами других форматов; - расширяющие компоненты (англ. Extended components) — компоненты, реализующие следующие функции: корпоративный поиск, архивирование данных, управление веб-контентом (англ. web content management) и т.п. - аналитика/бизнес-аналитика (англ. Analytics/BI) — реализация функций аналитики корпоративного контента (структурированного и неструктурированного содержания), электронного обнаружение или раскрытия информации (англ. electronic discovery, eDiscovery), анализа действий пользователей.

Из перечисленных пунктов следует, что современные ECM-системы должны обладать развитыми средствами аналитики контентных данных, которые позволяют обнаруживать искомые материалы, определять ценность информации и принимать решения, способствующие росту бизнес-результатов [18, 44]. Стоит отметить, что Gartner в отчёте за 2016 год [44] отдельно выделил функционал аналитики, ранее в отчёте за 2014 год [43] данный пункт был включён в состав расширяющих компонент. Анализ контента помогает решать множество информационных проблем в самых разных отраслях деятельности организаций, например [45, 46]: - Повысить степень удовлетворенности клиентов на основе анализа большого объема замечаний, предложений и отзывов клиентов. - Точнее предугадывать потребности клиентов за счет определения тенденций в неструктурированных коммуникациях с клиентами. - Оптимизировать процессы с большим документооборотом на основе разумной организации и маршрутизации элементов содержимого. - Сократить случаи мошенничества на основе анализа форм, документов и коммуникаций.

Для выбора современных ECM-систем, с целью проведения обзора их функциональных возможностей по анализу текстовой информации, были использованы рейтинговые данные, приведённые в отчётах Gartner за 2014 и 2016 года [43, 44]. Gartner для оценки производителей систем располагает их в виде квадрата (англ. Magic Quadrant), осями которого служат два критерия (см. Рисунок 2): - Возможность реализации (англ. ability to execute): критерий основан на таких факторах, как финансовое положение поставщика, реакция рынка, разработка и совершенствование продукции, каналы сбыта, клиентская база. - Полнота виденья (англ. completeness of vision): критерий основан на таких факторах, как Рисунок 2 - Квадраты Gartner производителей ECM-систем для 2014 и 2016 годов [43, 44]. 20 инновации поставщика, технологии поставщика задают направление развития рынка или же поставщик следует за рынком, а также соответствует ли видение поставщика о развитии рынка представлениям компании Gartner.

Тематическое представление документов

Под лексемами в общем случае понимаются все различные слова текста. Однако обычно для сокращения и получения более «информативного» признакового пространства применяются некоторые меры по предварительной обработке текста, например: удаление стоп-слов, приведение слов к нормализованной форме (стемминг) и т.п. В модели представления «мешок слов» для обозначения признаков текста принято использовать термин «терм» [73]. Хотя даже после применения стандартных методов предварительной обработки текста, результирующая размерность пространства признаков, как правило, достигает десятков и сотен тысяч элементов. Например, для стандартного эталонного набора 20_newsgroups [74], состоящего из 18774 текстовых документов (разделённых на 20 категорий), размерность словаря термов составляет 61188. Ещё одной особенностью модели «мешок слов» является сильная разреженность получаемой матрицы представления коллекции документов, т.к. в общем случае документы являются различными по составу и количеству входящих слов.

Высокая размерность пространства признаков может приводить к низкой скорости работы алгоритмов машинного обучения, также аргументом в пользу уменьшения пространства признаков, является проблема переобучения или «чрезмерно близкой подгонки» (англ. overfitting, overtraining, overlearning) [73]. Смысл её состоит в том, что обученный алгоритм хорошо удовлетворяет конкретным примерам тренировочного набора, учитывает его незначительные детали, но плохо моделирует пространство объектов в целом благодаря влиянию помех или шума в тренировочном наборе. Например, в результате классификатор будет хорошо классифицировать только объекты из тренировочного набора, но плохо — любые новые объекты, отличные от тех, на которых он был обучен. Как уже было отмечено во введении, текстовые документы зачастую содержат информационный шум, который не влияет на общую семантику документа. Таким образом, возникает проблема фильтрации информационного шума из документов, которая заключается в удалении нерелевантных фрагментов текста.

В диссертационной работе предлагается исследовать подход к анализу и моделированию поведения пользователя, состоящий в представлении информации о потоке документов, с которыми работал пользователь, в виде многомерного временного ряда, показывающего изменение весов признаков соответствующих документов (см. Рисунок 7). Очевидно, что модель представления документов «мешок слов» не подходит для применения в данном подходе из-за следующих обозначенных недостатков: - большая размерность пространства признаков; - разреженность матрицы представления документов.

Поэтому было предложено исследовать возможность описания текстового контента пользователя с помощью характерных для него последовательностей семантически связанных слов, которые далее будем называть тематиками. В области анализа текстовой информации для описания текстов с точки зрения их тематик применяются тематические модели. Использование таких моделей представления документов приводит к существенному (на порядки) уменьшению пространства признаков за счёт объединения разных, но семантически связанных, термов в один признак. Однако современные тематические модели в качестве первого этапа обработки документов используют их представления с помощью модели «мешок слов». Ниже в настоящем разделе будут рассмотрены: - модель представления документов «мешок слов»; - тематические модели представления документов; - построение и применение выбранной тематической модели для представления потока текстовых документов пользователя; - методы удаления информационного шума из документов.

Коллекция документов С = (dj, …, d„) в модели представления «мешок слов» отображается в числовую матрицу А є ЕХл, строки которой соответствуют термам, а столбцы - документам. Элементы aij (1 j n, \ i m) матрицы А соответствуют весу / -го терма в векторном представлении у -го документа. Далее будут рассмотрены стандартные техники предварительной обработки текста для формирования сокращённого признакового пространства и алгоритмы вычисления весовых коэффициентов термов в документах.

Цель предварительной обработки текста — оставить только те признаки, которые наиболее информативны, т.е. наиболее сильно характеризуют текст. К тому же уменьшение анализируемых признаков приводит к уменьшению использования вычислительных ресурсов. Традиционно используются следующие приёмы предварительной обработки текста [73, 75]:

1. Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании текста. К ним можно отнести союзы, предлоги, артикли, а также общеиспользуемые термины, вводные слова, местоимения и т.д. Как правило, для различных языков заранее составляются списки таких слов, и в процессе предварительной обработки они удаляются из текста.

2. Приведение слов к нормализованной форме — стемминг (англ. stemming). Цель этого метода состоит в том, чтобы объединить различные морфологические формы слова в одну координату пространства признаков. На этом этапе осуществляется приведение каждого слова к своей нормализованной форме, то есть выделение основ или корней слов. Существенным недостатком метода является его зависимость от морфологии языка. Для каждого языка необходим специальный морфологический анализатор. Кроме того, само по себе построение морфологического анализатора для некоторых языков является достаточно нетривиальной проблемой. 3. Представление слов в виде N-грамм. В качестве альтернативы стеммингу используют метод представления слов в виде N-грамм. В данном методе в качестве признаков для каждого слова берутся подряд идущие буквосочетания фиксированной длины N [75]. Например, для слова «сахар» при N, равном 3, N-граммами будут: «_са», «сах», «аха», «хар», «ар_». Этот метод основывается на предположении, что однокоренные слова будут образовывать сходный набор N-грамм. Так, для слова «сахарный» получатся следующие N-граммы: «_са», «сах», «аха», «хар», «арн», «рны», «ный», «ый_». Среди этих N-грамм некоторые оказываются неинформативными: например, «ный» встречается во многих прилагательных. Однако в большинстве своём у однокоренных слов встречаются одни и те же N-граммы. Этот метод применим для многих современных языков, за исключением иероглифических, в которых каждый символ является отдельным признаком. В то же время, в большинстве таких языков иероглиф является сочетанием нескольких черт и этот алгоритм можно распространить и на эти языки. Поэтому метод N-грамм можно считать достаточно универсальным и применимым ко всем языкам. Основным достоинством данного метода является отсутствие необходимости дополнительной лингвистической обработки текста. Разбиение на N-граммы гораздо проще, чем выделение базовой лексемы, а из-за ограниченности алфавита во всех языках максимальное число различных признаков также ограничено. К недостаткам N-грамм можно отнести то, что они могут сильно увеличить количество признаков текста, особенно при небольших значениях N. В связи с этим на практике в основном применяется стемминг, т.к. его реализации существуют для большинства языков: русский, английский, немецкий, французский, итальянский и т.д. [73].

Методы прогнозирования временных рядов

Как уже было отмечено во введении, на сегодняшний день не существует разработанных подходов к обнаружению аномального поведения пользователей на основе анализа содержимого обрабатываемых текстовых данных с использованием методов машинного обучения. Однако есть работы, посвящённые обнаружению внутренних угроз на основе анализа структурированных данных, описывающих активность корпоративных пользователей [14-16]. В Таблице 4 приведены примеры признаков, на основе которых выявляется аномальное поведение пользователя в данных работах.

Тип источника информации Пример поведенческого признака пользователя Электронная почта Число прикреплённых файлов в отправленных письмах Файловая активность Число файловых операций со съёмными устройствами События авторизации Число авторизаций на различных машинах сети Посещение web-страниц Число заблокированных страниц

Вычисляемые соотношения - Отношение числа операций с файлами на съёмныхустройствах к общему числу операций с файлами- Отношение объёма загруженных и скаченных данных сweb-ресурсов Общей практикой при проведении экспериментальных исследований в области обнаружения внутренних угроз является следующий сценарий: 1. Все реальные собранные поведенческие данные считаются легитимными. 2. К собранным поведенческим данным добавляются данные, моделирующие заранее специфицированные внутренние угрозы. 3. Анализируется суточная активность пользователей и рассматривается задача бинарной классификации: требуется определить дни с аномальной активностью пользователей, которая соответствует специфицированным угрозам.

Результатом работы большинства известных бинарных классификаторов является численная оценка aЄІ, показывающая принадлежность анализируемого объекта к одному из двух классов. Далее итоговый класс c є {0, 1} анализируемого объекта определяется исходя из Г0, еслиa w выбираемого порога w єШ: c = \ [1, если a w

Для оценки качества бинарного классификатора обычно используют ROC-кривую — графическая характеристика, показывающая зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании порога решающего правила (оценки аномальности) [94]. Для сравнения нескольких моделей классификации используют значение AUC (англ. Area Under Curve), которое вычисляется как площадь под ROC-кривой и является агрегированной характеристикой качества классификации, не зависящей от соотношения цен ошибок [94]. Чем больше значение AUC, тем лучше модель классификации. Если проводится серия экспериментов, то для оценки полученного множества значений AUC для каждого алгоритма классификации используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР) [95]. Интерквартильным размахом (англ. Interquartile Range) называется разность между третьим и первым квартилями множества значений AUC.

Несмотря на то, что в работах [14-16] сценарии внутренних угроз и соответствующие поведенческие признаки формируются вручную, средняя точность обнаружения их методов составила 0.8-0.9 AUC. Кроме того, анализ литературы [96-98] показал, что в современных методах решения задач в области анализа поведения пользователей (в частности распознавание пользователей по динамике их работы с клавиатурой и «мышью») значения AUC также находятся на уровне 0.9.

Для проведения экспериментальных исследований разрабатываемых методов обнаружения аномального поведения пользователя требуются данные о фактах работы пользователя с текстовой информацией и о её содержании. Были предъявлены следующие критерии к набору экспериментальных данных: - текстовая информация из корпоративной среды; - возможность сопоставления текстовых данных с пользователями; - возможность определения времени операций с текстовыми данными.

По сформулированным выше критериям для проведения дальнейших экспериментальных исследований за основу был выбран набор реальной корпоративной переписки Enron [99]. Набор Enron содержит электронную почту 150 сотрудников (около 0.5 миллиона писем вместе с прикреплёнными к ним файлами) американской энергетической компании (главным образом из высшего руководства), обанкротившейся в конце 2001 года. Также в пользу выбора данного набора свидетельствовал тот факт, что его использование широко распространено в работах, посвящённых анализу текстовых данных [99, 100], и конференциях по противодействию терроризму и компьютерной безопасности [101].

Отметим, что текстовые данные в наборе Enron являются англоязычными, поэтому на этапе предварительной обработки текста использовалось удаление стоп-слов и приведение слов к нормализованной форме (стемминг) на основе семантической сети WordNet [102].

Для описания проводимых экспериментальных исследований введём понятие «период анализа» — интервал времени, пользовательские поведенческие данные из которого используются для обнаружения аномалий. Напомним, что для формирования модели поведения пользователя используются его поведенческие данные из тренировочного периода. Пользователя, для которого формируется модель поведения, будем также называть анализируемым. Тогда под «экспериментальным периодом» (ЭП) будем понимать совокупность тренировочного периода и периода анализа (см. Рисунок 13).

Далее при разработке методов обнаружения аномального поведения пользователя в соответствующих подразделах будут подробно описаны сценарии проводимых экспериментальных исследований.

Прогнозирование тематической направленности пользователя осуществляется по «длительным» интервалам времени на основе сложившихся в прошлом тенденций работы пользователя с текстовым контентом. Для описания предыстории работы пользователя с текстовыми данными должен быть задан тренировочный период, который разбивается на последовательно измеренные через некоторые промежутки времени интервалы (см. Рисунок 14) [103]. Например, в качестве промежутка времени (шага) может быть выбран день, а также время, за которое происходит заданное число событий. Таким образом, выбираемые промежутки времени не обязательно должны быть равны между собой. Далее предложенная тематическая модель поведения пользователя применяется не к отдельным документам пользователя, а к объединённому текстовому контенту заданных временных интервалов тренировочного периода. Другими словами, столбцы в матрицах A и Hk будут соответствовать временным интервалам, при этом матрица Hk задаёт k-мерный временной ряд изменения тематической направленности пользователя.

Применение индивидуальных поведенческих моделей

Наглядно продемонстрируем специфику работы корпоративного пользователя с текстовыми документами, которая заключается в том, что пользователь последовательно может работать с документами, относящимися к различным тематикам (при этом данные тематики являются характерными для пользователя), вследствие чего возникает сильное изменение тематической направленности пользователя при переходе от одной точки временного ряда к последующей в модели его поведения. На Рисунке 21 приведены тематические временные ряды пользователя из набора Enron, в которых каждая точка ряда соответствует отдельному документу. Представленные графики демонстрируют, что очерёдность обращения пользователя к документам определённых тематик зачастую трудно предугадать. Поэтому невозможно применить предложенный в подразделе 3.2 подход к обнаружению аномального поведения пользователя, в котором используется прогнозирование тематической направленности.

Для решения указанной проблемы автором было предложено оценивать аномальность поведения пользователя исходя из того, насколько характерны документы, с которыми он работает в данный момент, его тематической направленности, сформированной за тренировочный период. То есть процедура идентификации обращения пользователя к аномальному документу заключается в оценке общего присутствия характерных тематик пользователя в каждой точке временного ряда.

Реализация данного подхода состоит в построении предложенной тематической модели поведения пользователя по отдельным фактам работы пользователя с документами. Далее на основе полученного тематического портрета (матрица Wk) анализируемого пользователя любой текстовый документ может быть представлен в пространстве тематик пользователя в виде числового вектора h = [hj, ..., hk], фиксированной размерности к, где к — число выделенных тематик пользователя за тренировочный период, а z -ая компонента вектора (1 ік) определяет вес / -ой тематике в рассматриваемом документе. Чем больше элементы вектора /г, тем сильнее текст соответствующего документа характеризуется тематиками анализируемого пользователя. Поэтому для вычисления общей оценки принадлежности документа к тематикам пользователя было предложено использовать норму вектора документа, представленного в пространстве тематик. Были исследованы возможности применение следующих норм вектора: L1 (сумма элементов вектора), L2 (евклидова норма), L" (максимум из элементов вектора). На Рисунке 22 продемонстрированы вычисленные оценки принадлежности документов к тематикам пользователя на основе рассматриваемых норм для примера тематических временных рядов, представленных на Рисунке 21На основе значений оценок принадлежности документов к тематикам анализируемого пользователя определяются документы, не свойственные для данного пользователя. Соответственно, чем ниже вычисленная оценка принадлежности документа, тем более аномально обращение пользователя к данному документу.

Основное отличие предложенного подхода к обнаружению аномального поведения пользователя от подхода, рассмотренного в предыдущем подразделе 3.2, заключается в том, что каждая точка формируемых тематических временных рядов теперь соответствует отдельному документу, а не совокупному текстовому содержимому документов пользователя за длительные интервалы времени. Следовательно, в рассматриваемом подходе не требуется ждать длительное время пока заполнится временное окно. Другими словами, выявляются не интервалы времени с несвойственной для пользователя работой с текстовыми данными, а непосредственно факты работы с документами несвойственного контента. Также не требуется выполнять дополнительную процедуру построения прогноза дальнейшей тематической направленности пользователя.

Для проведения экспериментальных исследований в работе используется набор реальной корпоративной переписки Enron. При проведении экспериментальных исследований рассмотренного ранее подхода прогнозирования тематической направленности пользователя критичным являлось требование минимизации количества дней, в которых у пользователей не было отправленных или полученных писем. Поэтому использовалась стандартная версия набора Enron [99], которая содержит электронные письма без вложенных файлов (англ. attachment), т.к. число писем без вложений гораздо больше числа писем с вложениями. В связи с этим данный набор плохо подходит для применения разработанного метода удаления информационного шума, т.к. текст электронного письма, как правило, не содержит лишней информации и является небольшим по объёму.

В предложенном методе оценки принадлежности документа к характерным тематикам пользователя анализируются документы по отдельности, поэтому для проведения экспериментальных исследований была выбрана версия набора Enron со всеми вложениями [115], которую далее будем обозначать Enron Attachment. Прикреплённые к электронным письмам документы текстовых форматов также являются текстовой информацией, обрабатываемой пользователями, а данные о письме, такие как время отправки/получения и адресаты, служат для описания использования текстовых документов. Текстовые документы, пересылаемые по корпоративной электронной почте, представляют характерный контент пользователей из корпоративной среды, поэтому на их примере также актуальным будет исследовать возможность применения рассмотренного метода удаления информационного шума.