Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Гвоздев, Алексей Вячеславович

Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет
<
Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гвоздев, Алексей Вячеславович. Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет : диссертация ... кандидата технических наук : 05.13.19 / Гвоздев Алексей Вячеславович; [Место защиты: С.-Петерб. нац. исслед. ун-т информац. технологий, механики и оптики].- Санкт-Петербург, 2013.- 106 с.: ил. РГБ ОД, 61 13-5/1061

Содержание к диссертации

Введение

Глава 1. Методы обработки текстовой информации 10

1.1. Обработка текстовой информации системами мониторинга ИБ. 10

1.2. Модели представления текстовой информации для отражения в базах данных СЗИ 12

1.3. Особенности подходов к отражению в базы данных естественно-языковых конструкций СМИБ и СЗИ 29

1.4. Характеристики текстовой информации глобальных вычислительных сетей 33

1.5 Выборка текстовых документов для проверки гипотезы о повышении по

казателей качества. 34

1.6 Выводы 37

Глава 2. Формализованная модель естественного языка документов в СЗИ 39

2.1. Особенности использования СЗИ в открытых сетях типа Интернет. 39

2.2. Требования к модели естественного языка в СЗИ и СМИБ . 48

2.3. Информационный объект текстовой информации для СМИБ 52

2.4. Выводы 57

Глава 3. Формализация семантических составляющих конструкций естественного языка для представления в СЗИ и СМИБ 59

3.1 Формальное определение семантики предметной области в СЗИ 59

3.2 Описание семантической составляющей частей речи предметно-ориентированной словарной базы данных СЗИ . 60

3.3 Использование семантического описания конструкций естественного языка в СЗИ 61 3.4. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ 64

3.5 Метод обработки коротких текстовых сообщений в системах мониторинга ИБ .70

3.6. Выводы 74

Глава 4. Метод аудита и мониторинга информационной безопасности открытых источников сети интернет . 77

4.1. Модель программного комплекса для поиска угроз информационной безопасности на основе поисковой системы и модуля семантического анализа .77

4.2. Метод аудита и мониторинга информационной безопасности открытых источников сети Интернет 80

4.3. Использование системы аудита и мониторинга информационной безопасности открытых источников сети Интернет. 83

Заключение 85

Литература

Особенности подходов к отражению в базы данных естественно-языковых конструкций СМИБ и СЗИ

Применение семантического компонента в современном информационном обеспечении осуществляется в специализированных задачах анализа, поиска и классификации информации. Семантическая модель составляет основу СЗИ в программно-аппаратных комплексах, эксплуатируемых в структурах безопасности, осуществляющих мониторинг открытых источников информации, телекодовых каналов связи.

Свойства моделей применимы для создания онтологии статических монологических текстов. Используя базы данных и знаний, содержащих семантический компонент описания предметных областей, возможно построение экспертных систем, решающих информационно-расчетные задачи анализа и поиска неисправностей.

Семантическое представление словосочетаний, предложений, текстов описывается графом, состоящим из элементарных единиц, выделенных в предметной области. В отличие от синтаксических моделей связи между словами прописываются жестко и не должны позволять изменение направления подчинения элементов конструкции. Поэтому один из основных атрибутов -это семантическая база данных, в которой описываются все возможные значения слов языка профессионально ориентированной предметной области.

Решение проблемы описания семантической модели текстов заключается в поиске методов интерпретации синтаксических и семантических конструкций — ассоциации лексем и словосочетаний с некоторой соответствующей им системой понятий[46, 132]. В результате становится возможным эффективно решать задачи поиска, классификации, автоматического реферирования, построения структур знаний и онтологии. Однако семантические модели, основанные на базе данных понятий, отражающей лексемы и правила, сложны, объемны и подвержены существенным изменениям от одной предметной области к другой. Все это значительно снижает эффективность их практического использования.

Построение семантического описателя слова / основывается на предикатах или шаблонах, отражающих предметную область [73]. f(x,,...,xn) где xi,...,x„ типы аргументов, входящих в него. Каждый предикат обозначает элементарное действие, в котором участвуют его аргументы. Чтобы обработать ЕЯ конструкцию, важно как можно точнее описать типы аргументов, подстановка которых возможна в предикат. Создание семантических описателей для ЕЯ лежит в области искусственного интеллекта, инженерии знаний, где знания подразделяются на две категории. Первая категория - это декларативные, описывающие состояние системы, и являющиеся фактами. Вторая категория - процедурные, задаваемые совокупностью способов, правил, методов, использование которых зависит от состояния системы.

В моделях декларативных знаний описание предметной области представляет собой множество утверждений и следствий. Процедура поиска решений реализуется, в основном, путем перебора возможных состояний и анализа на совпадение с вводимыми значениями. Описание утверждений, правил и событий носит синтаксический характер, т.е. структурные связи абстрагированы от их интерпретации. Поэтому декларативные модели представления знаний с одной стороны обладают большой универсальностью по отношению к любым предметным областям, а с другой - требуют огромных дополнительных затрат для оптимизации анализа. В случае дополнения семантики в описание правил и событий системы может теряться универсальность.

При процедурном представлении знаний состояние системы декларируется в виде специального набора процедур, предназначенных для определенного вида информации. Семантическая информация о конкретной предметной области сводится к описанию ее свойств, используемых для решаемых задач. Разделение знаний на семантическую и синтаксическую составляющую, использование декларативного и процедурного представления привело к разработке специальных моделей, таких как фреймов, продукций и семантических сетей[3, 33, 35, 81].

Представление текстовой информации в виде графов довольно наглядно, универсально и легко реализуемо, но для ее эффективной обработки, со здания алгоритмов, анализирующих подобные структуры, необходимо, чтобы описанная таким образом информация была статична. Результатом многолетней работы по проектированию информационных систем, работающих со статическими данными, стало появление реляционных баз данных, реляционной алгебры, описания таких языков запросов как SQL и QBE. По-другому обстоят дела с текстовой информацией, которая по своей сути не является статической. Связанные отношениями узлы, представляющие информацию текста в виде графа, являются довольно трудно формализуемыми, и могут менять свои отношения в зависимости от своего состава и окружения других узлов.

В качестве примера приведем теоретическую модель СМЫСЛ-ТЕКСТ [57, 58]. Она, связанная по своим основам с моделью текстовой грамматики, разрабатывалась, начиная с середины 60-х годов. Специфической чертой созданной на ее основе системы является большая проработанность семантического компонента. Описание языка в ней устанавливает соответствие между смыслом и ЕЯ текстом, выражающим этот смысл. Язык рассматривается как система кодов, которая соответствует системе смыслов. Вводимый набор уровней представления имеет несколько ступеней: семантическую, синтаксическую, морфологическую, фонологическую и фонетическую[20, 27].

Семантическое представление содержит сеть, состоящую из минимальных единиц смысла, связанных между собой определенным набором отношений и некоторой коммуникативной информацией (например, она включает деление на тему-рему). Кроме этого работоспособность модели обеспечивает ряд дополнений, таких как аппарат лексических функций, метод описания лексических коррелятов слова, т.е. других слов, регулярно используемых с данным.

Требования к модели естественного языка в СЗИ и СМИБ

Таким образом, чем больше пользователей ознакомятся с сообщением злоумышленника, тем выше вероятность того, что оно окажет информационное воздействие.

В исследованиях, посвященных эффективности размещения рекламы на порталах и сайтах сети Интернет [135], были выделены зоны web-страниц, на которые приходилась максимальная и минимальная активность пользователей по количеству кликов. К сожалению, информации о подобных работах в области информационной безопасности найти не удалось, но возможно предположить, что если злоумышленник сможет воспользоваться центральной страницей портала, то вероятность информационного воздействия становиться намного выше, чем при использовании сервисов, позволяющих оставлять только комментарии. Для наглядного представления характеристик на рис.2.2 приведен график дляро=0.01 (сообщение комментария) иро=0.2 (сообщение центральной новости).

Вероятность информационного воздействия в зависимости от количества читателей Использование ресурса для осуществления информационного воздействия определяет следующее соотношение: Итро— 1, т.е Птрір2рз— 1 (2.5)

Для оценки информационного воздействия в упрощенном виде вероятности pi и рз будем считать зависимыми от индивидуально-психологических особенностей пользователя, на которые структура, ресурсы и состав ИТО не оказывает прямого влияния.

Вероятность события обнаружения р зависит от роли и возможностей лиц, пытающихся воспользоваться ресурсом для оказания информационного воздействия. Если такое лицо является владельцем сайта или занимается его администрированием, то у него существует возможность показать сообщение на наиболее посещаемой странице и обеспечить привлечение к ней аудитории. Если сообщение выставляет рядовой пользователь, то для привлечения к информации он может применять «серые» методы «раскрутки»: частое повто рение, организация отдельной темы обсуждения, всевозможное выделение, а также использовать различные пробелы и уязвимости при модерировании ресурса. Поэтому в целях достижения максимальной вероятности ознакомления с информацией в последнее время злоумышленники все чаще применяют различные средства автоматизации и роботы, производящие рассылку сообщений на огромное количество ресурсов.

Вероятность оказания информационного воздействия р3 определяется стилем и семантикой сообщения. В зависимости от целевой аудитории, на которую ориентировано сообщение, вероятность будет зависеть от структуры, объема и семантического значения информации.

На основе роста количества и частоты сообщений в социальных сетях можно выделить темы, интерес к которым остается неизменным, и события, находящие бурный отклик. Вполне возможно при оценке популярности той или иной темы применять программные средства на основе методов, использующих, например, разные модели сообщения, описанные в [91] или [135]. Поэтому рассмотрим подход к моделированию возможного сценария атаки, с целью осуществления информационного воздействия на пользователей портала сети Интернет.

Модель равномерно-распределенной интенсивности появления сообщений Пусть каждое сообщение, находящееся на ресурсе, имеет вероятность информационного воздействия ро на ИПО. В течение некоторого промежутка времени до модерации сообщение доступно пользователям ресурса.

Будем считать, что модерация ресурса происходит постоянно и равномерно. Рассмотрим вероятность информационного воздействия, зависящего от количества потенциально опасных сообщений в единицу времени. Пусть чис ло сообщений п, требующих обработки в единицу времени /, описывается равномерно-распределённой величиной: n{t)=lt (2.5) где к - интенсивность поступления сообщений в единицу времени (единиц в секунду), t - промежуток времени с начала наблюдений, в секундах. Тогда вероятность информационного воздействия на ИПО, в течение времени до модерации, когда сообщения остаются на ресурсе, определяется следующим образом: p{t)=\-{\-pQf (2.6)

Выражение (2.6) позволяет провести оценку ИТО с целью выбора объектов мониторинга. На рисунке 2.3 показана зависимость вероятности информационного воздействия при интенсивности появления 10 и 100 сообщений в единицу времени, например, для «центральных» сообщений и комментариев ресурса, подобного http://news.mail.ru.

Из приведенных на рисунках зависимостей следует, что чем больше времени не проверяется ресурс, на котором осуществляется публикация текстовых сообщений, тем выше вероятность информационного воздействия, которое и является целью злоумышленника, приведенной в утверждении (2.1).

Исходя из зависимости (2.6), становится возможным определить характеристики СЗИ, заключающиеся в частоте модерации ресурса и вычислить качественные показатели системы автоматического анализа информации, требуемые для обнаружения угроз конфиденциальности и модификации информации. Широко известный ресурс, имеющий большую аудиторию и высокую частоту посещаемости, несет больше потенциальных угроз информационной безопасности.

Описание семантической составляющей частей речи предметно-ориентированной словарной базы данных СЗИ

Для автоматизации поиска угроз ИБ на большом количестве открытых источников требуется автоматизация извлечения сопутствующих анализу текста данных. Это влечет за собой сохранение связанных с анализируемой текстовой информацией ссылок на ресурсы, из которых был извлечен текст (URL), перекрестных ссылок, связанных с этим ресурсом и других служебных данных, которые могут быть полезны во время дальнейшего автоматизированного или ручного аудита событий информационной безопасности, проводимого администратором информационной безопасности.

Для этого предлагается использовать существующие подходы к организации информационной поиска.

Работа [12] дает исчерпывающий анализ современных решений в области информационного поиска. В частности, авторы подчеркивают существование нескольких типов решений, основанием для категоризации которых является цель извлечения и архивирования данных. 1. Широкий обход веб-ресурсов (предназначен для обработки большого количества ресурсов, экономии ресурсов сервера и получения наибольшей полноты извлечения данных при поиске). 2. Фокусированный обход (сконцентрирован на извлечении данных из определенных ресурсов для достижения наибольшей полноты и точности при поиске на заданных ресурсах). 3. Непрерывный обход (обход осуществляется на заданных ресурсах с регулярным обновлением данных). 4. Экспериментальное извлечение (соединяет все указанные подходы для достижения поставленной задачи с заданными техническими и экономическими показателями). В данной классификации подход, используемый для извлечения и обработки данных с целью поиска угрозы информационной безопасности, подпадает под категорию экспериментального извлечения со следующими целевыми характеристиками: 1. данные извлекаются из открытых источников с предельной глубиной просмотра для обеспечения наибольшей полноты при последующем поиске; 2. ограничения на ресурсы, используемые для поиска, извлечения и анализа, не заданы; 3. извлечение является непрерывным для обеспечения актуальности данных, предоставляемых администратору безопасности. Поэтому для получения искомых данных предлагается использовать следующую информационную систему, основанную на службе поиска, описанной в работах [12, 28, 38, 42, 43, 84-90, 92-100, 103, 104, 125, 129, 131] (рис. 4.1). Веб-интерфейс администратора

Архитектура позволяет организовать глубокое индексирование веб-ресурсов. В цепь анализа встраивается обработчик на основе алгоритма семантического анализа, учитывающего предложенный метод построения объекта текстовой информации и метод обработки коротких сообщений, который позволяет осуществлять обработку текстовых сообщений с целью поиска потенциально опасных высказываний и генерировать событие при обнаружении такового. Критерий для поиска документов веб-ресурсов задается администратором безопасности вручную или получается при анализе конфиденциальных документов в автоматическом режиме.

На основе предложенной системы возможно производить мониторинг открытых источников на предмет потенциально опасных высказываний, появления в открытом доступе конфиденциальных документов или нарушения их целостности.

При обнаружении одного из вышеуказанных фактов системой генерируется событие, массив которых в последующем можно проанализировать автоматически или вручную. Для достижения максимальной полноты извлечения данных при поиске угроз информационной безопасности на открытых источниках сети Интернет предлагается следующий метод, состоящий из последовательности нескольких шагов (рис. 4.2). Администратором безопасности задается критерий поиска в виде функциональных шаблонов так, как это показано в разделе 3.6. Шаблоны генерируются вручную или в автоматическом режиме посредством анализа конфиденциальных документов, поиск которых требуется производить на открытых источниках.

Посредством системы, описанной в разделе 4.1 производится извлечение веб-содержимого. Несколько обработчиков, ориентированных на конкретные ресурсы, извлекают сообщения пользователей. Посредством встроенного в архитектуру модуля семантического анализа извлекаются объекты текста, которые в формальном виде сохраняются в БД. Далее происходит ранжирование и категоризация объектов на предмет совпадения с заданными функциональными шаблонами и, в случае их совпадения, генерируется событие о нахождении заданного высказывания или документа. Возможно также производить ранжирование на основе различных систем рангов признаков объектов (к примеру, ранга эмоциональной окраски употребляемого в качестве признака слова), однако введение специализированных систем рангов является частной задачей и предметом отдельного исследования. Поэтому категоризация производится на основе величин, сопоставляемых объекту текстовой информации: атрибутов и признаков.

Сгенерированное событие записывается в специальную БД событий и происходит оповещение администратора безопасности средствами информационной системы. Администратор безопасности производит аудит полученных событий и предоставляет отчет ответственным подразделениям и всем заинтересованным лицам организации о нахождении событий, представляющих угрозу информационной безопасности.

Метод аудита и мониторинга информационной безопасности открытых источников сети Интернет

Поиск указанных событий информационной безопасности можно производить и вручную с использованием любых других поисковых систем, задавая критерий поиска в формате данной поисковой системы. Однако, как показывает практика применения описанной информационной системы, ее использование при поиске таких событий дает возможность получить большую часть высказываний и документов, удовлетворяющих критерию поиска, соблюдая описанные выше шаги и их последовательность. Результаты оценки полноты извлечения данных получены в ходе работы «Идентификация пользователей порталов сети Интернет» (рис. 4.3) [53], частично опубликованы в работах [37, 39, 40, 43, 44, 110, 125, 126, 134].

Полнота извлечения потенциально опасных сообщений при использовании различных средств аудита В выборке, приведенной в разделе 1.5, методом экспертной оценки были выделены сообщения, которые было положено считать потенциально опасны-ми. В темах 3, 8 и 10 за потенциально опасное сообщение было положено считать то, в котором упомянуто завышенное значение атрибута объекта (к примеру, потребление автомобилем топлива). В остальных темах потенциально опасными признаны сообщения, в которых объекту присваивались признаки с отрицательной эмоциональной окраской. Поиск данных сообщений с применением известных поисковых систем возможно осуществлять вручную или с применением предоставляемого владельцем системы интерфейса прикладного программирования. Поисковые системы Bing, Yandex и Google использовались для извлечения документов на указанных ресурсах посредством задания в качестве ключевого слова заданного атрибута объекта или объекта, признак которого нас интересует. Далее извлеченные результаты сортировались вручную и в найденных отбирались те, в которых завышено значение заданного атрибута или употреблено отрицательно эмоционально окрашенное значение признака объекта.

При применении системы аудита и мониторинга информационной безопасности открытых источников Интернет информация о заданных атрибутах и признаках объектов была извлечена алгоритмом специализированного анализатора заранее и сохранена в БД. Это позволило значительно сократить время на обработку результатов извлечения оператором. Однако целью данной работы не является повышение эргономических показателей СЗИ, поэтому в дальнейшем этот факт не рассматривается как результат настоящей работы.

За результат поиска принимались те сообщения, что были отобраны оператором вручную с использованием популярных поисковых алгоритмов и с использованием описанной системы мониторинга. ЗАКЛЮЧЕНИЕ

В диссертационной работе были рассмотрены вопросы построения СЗИ и СМИБ, использующей формализованные модели естественного языка, использующей семантическую составляющую. Предложены методы, позволяющие повысить показатели качества информационного поиска в СЗИ, а также модель для построения масштабируемой системы автоматической обработки естественного языка, пригодной для задач СЗИ.

Применение приведенных моделей, методов и алгоритмов позволяет увеличить точность и полноту информационного поиска при обнаружении угроз ИБ, что дает возможность использовать их для усовершенствования современных СЗИ и СМИБ.

При проведении научного исследования были получены следующие основные результаты.

1. Предложен метод построения информационного объекта текстовой информации сообщений блогов и комментариев пользователей порталов сети Интернет, который дает позволяет увеличить полноту информационного поиска при применении его в СЗИ и СМИБ до 0,9 по сравнению с оригинальными алгоритмами, основанными на трехуровневой семантико-синтакси-ческой модели ЕЯ.

2. Применение метода обработки коротких текстовых сообщений дает возможность увеличить точность информационного поиска при применении его в СЗИ и СМИБ на 12% по сравнению с оригинальными алгоритмами, основанными на трехуровневой модели ЕЯ. 3. Предложенный метод построения объекта текстовой информации обеспечивает обрабатку текста, содержащего словоформы, не входящие в специализированную словарную БД.

4. Предложен метода аудита и мониторинга ИБ открытых источников сети Интернет, который позволяет осуществлять поиск угроз ИБ и фактов реализации угроз ИБ за пределами контролируемой зоны организации.

5. Предложен метода аудита и мониторинга ИБ открытых источников сети Интернет, который дает возможность повысить полноту обнаружения потенциально опасных сообщений в сравнении с поиском подобных сообщений вручную с использованием существующих поисковых алгоритмов на 58%.

Главным итогом диссертационной работы явилось создание методов, компьютерных технологий сбора, хранения и обработки информации математического обеспечения специализированных ИС, интегрируемых в комплексы вычислительных средств СЗИ, и предназначенных для вычисления структур ЕЯ информации для их последующего отражения базы данных и базы знаний систем на различных этапах их разработки и применения. Результаты исследований могут быть использованы для расширения возможности и повышения эффективности систем, осуществляющих поиск, анализ различных источников информации в интересах силовых структур.

Похожие диссертации на Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет