Содержание к диссертации
Введение
Глава 1. Анализ задачи автоматической фильтрации сообщений, как задачи обеспечения информационной безопасности 11
1.1 Анализ понятия спама 11
1.2 Анализ признаков, классифицирующих спам-сообщения 12
1.3 Анализ основных угроз информационной безопасности, несущих различными видами спам-сообщений 14
1.3.1 Анализ спам-сообщений коммерческого характера 14
1.3.2 Анализ спам-сообщений некоммерческого характера 15
1.3.3 Анализ мошеннические и фишинговые спам-сообщений 15
1.3.4 Анализ ложных спам-сообщений и цепных писем 16
1.3.5 Анализ спам-сообщений "работа Джо" 16
1.3.6 Анализ спам-сообщений, содержащих вредоносные программы 16
1.3.7 Анализ отрицательная квитанция 17
1.3.8 Анализ экономического ущерба спам-сообщений 17
1.4 Анализ основных методов борьбы со спамом 19
1.4.1 Анализ законодательных методов борьбы со спамом 19
1.4.2 анализ организационных методов борьбы со спамом 26
1.4.3 Анализ практических действий борьбы со спамом 28
1.4.4 Анализ технических методов защиты от спама 31
1.5 Концепция построения системы фильтрации спама 49
Выводы по первой главе 50
Глава 2. Разработка архитектуры интеллектуальной системы фильтрации спам-сообщений 51
2.1 Рассмотрение задачи классификации электронной информации, передаваемой по каналам связи, на примере фильтрации спама 51
2.2 Анализ нарушения спамом безопасности информации 52
2.3 Разработка архитектуры системы фильтрации спам-сообщений 55
2.4 Разработка алгоритма заполнения БЗ системы фильтрации 67
2.5 Разработка алгоритма фильтрации документа 69
Выводы по второй главе 76
Глава 3. Разработка алгоритмы классификации сообщений на основе агента-классификатора 77
3.1 Постановка задача представления исходного сообщения в виде семантического графа 77
3.2 Разработка модели сообщения на основе упрощенного семантического графа 80
3.3 Разработка статистической семантической модели сообщений 80
3.4 Решение задачи обоснования применения линейной ассоциативной сети 81
3.5 Разработка нейросетевого классификатора 86
Выводы по третьей главе 90
Глава 4. Реализации системы борьбы со спамом с помощью многоагентной технологии 91
4.1 Этапы проектирования многоагентной системы борьбы со спамом 92
4.2 Архитектура многоагентной системы борьбы со спамом 94
4.3 Сценарии работы, функции и роли агентов системы 96
4.4 Обеспечение общения агентов 97
4.5 Архитектура отдельного агента 98
4.6 Программная реализация прототипа системы 100
Выводы по четвертой главе 104
Заключение 105
Литература 106
- Анализ основных угроз информационной безопасности, несущих различными видами спам-сообщений
- Анализ нарушения спамом безопасности информации
- Разработка модели сообщения на основе упрощенного семантического графа
- Архитектура многоагентной системы борьбы со спамом
Введение к работе
Актуальность темы
Основной задачей исследований в области защиты информации является совершенствование известных методов и разработка новых методов, алгоритмов обеспечения безопасности информации в процессе ее сбора, хранения, обработки, передачи и распространения. Одним из направлений исследований в этой области является разработка методов и алгоритмов фильтрации спама (ФС). В Правилах оказания телематических услуг связи (Постановление Правительства Российской Федерации от 10.08.2007 № 575) дается определение спама, как телематического электронного сообщения, предназначенного неопределенному кругу лиц и доставленное абоненту или пользователю без их предварительного согласия. Также отмечается, что оператор связи должен принимать меры для воспрепятствования распространению спама. Избыточные незатребованные электронные письма нарушают доступность информационных ресурсов, необходимых пользователям, поскольку потребляют значительные ресурсы канала входящей связи, а также могут стать причиной нарушения целостности информации в случае утери сообщения при ФЭС человеком, или программой фильтрации. Вместе со спамом могут рассылаться вредоносные программы, способные привести к полному или частичному уничтожению информации или ее искажению. Ряд вредоносных программ может быть использован для кражи персональных данных: номеров кредитных карт частных пользователей, имен пользователей и паролей для доступа к системам удаленного управления банковскими счетами организаций. Кроме того, конфиденциальные данные могут быть случайно или преднамеренно отправлены по электронной почте. В зависимости от принятой в организации политики безопасности, необходимо контролировать не только входящий, но и исходящий трафик. Задача поиска сведений, составляющих государственную или коммерческую тайну, в исходящем потоке электронной почты аналогична задача ФС. В этом случае для обучения системы могут использоваться не только незатребованные электронные письма, а конфиденциальные документы, представленные в электронном виде. Не смотря на использование различных систем ФЭС, доля спама в общем почтовом трафике все еще достаточно высока. По мнению экспертов компании Cisco, в 2009 году объем спама впервые превысит отметку 90% почтового трафика.
Вопросам противодействия спаму посвящены исследования И. С. Ашманова, А. Шварца и др. В основном, это фильтры, построенные на байесовском подходе, что, как известно, не позволяет учитывать семантику электронных сообщений. При разработке систем фильтрации ВС недостаточно полно ис- • пользуется системный подход и современные технологии искусственного интеллекта для решения задачи классификации. Тем самым, задача разработки эффективных методов и алгоритмов ФС в организации является актуальной.
Цель и задачи исследования
В качестве объекта исследования в работе рассматривается процесс обеспечения ФС в организации. В качестве предмета исследования рассматриваются методы и алгоритмы ФС в организации на основе технологий искусственного интеллекта.
Целью диссертационной работы является разработка методологии проектирования эффективной системы защиты информации, обеспечивающей ФС в организации.
Для достижения указанной цели в работе поставлены следующие задачи:
1. Разработка концепции построения системы ФС в организации на основе ме- тодов искусственного интеллекта.
2. Разработка многоагентной архитектуры иерархической системы ФС в организации.
3. Разработка эффективного метода и алгоритма классификации электронных сообщений с учетом семантики сообщения.
4. Оценка эффективности предложенных подходов к ФС в организации.
Методы исследования
При работе над диссертацией использовались: методология защиты информа- . ции, методы системного анализа, теория множеств, теория вероятности, теория мо делирования дискретных систем, теория нейронных сетей, теория многоагентных систем. Для оценки эффективности предлагаемых решений использовались методы математического и имитационного моделирования.
Основные научные результаты, полученные автором и выносимые на защиту
1. Предложена новая концепция построения автоматизированной многоуровневой многоагентнои системы противодействия вредоносному воздействию спам-рассьшок на информацию, хранящуюся и обрабатываемую в системах электронной почты, основанная на многоуровневой ФС, что позволяет повысить доступность и обеспечить целостность информации, обрабатываемой в системах электронной почты на различных уровнях иерархии организации с учетом принятой политики безопасности.
2. Разработана архитектура иерархической многоагентнои системы защиты информации, обрабатываемой электронными почтовыми системами, от вредоносного воздействия спама, позволяющая строить полную и достоверную БЗ, отражающую области интересов пользователей системы в рамках иерархии организации с учетом принятой политики безопасности.
3. Предложен эффективный метод и алгоритм классификации электронных сообщений на основе когнитивного подхода и нейросетевого классификатора, позволяющий посредством использования БЗ эффективно решать задачу классификации посту- . пающих электронных сообщений на различных уровнях иерархии организации.
4. Разработан программный прототип многоагентнои системы противодействия распространению спама в организации, позволяющий оценить эффективность предложенного метода и алгоритма.
Обоснованность и достоверность результатов диссертации
Обоснованность результатов, полученных в диссертационной работе, базируется на использовании апробированных научных положений и методов исследования, корректным применением математического аппарата, согласовании новых результатов с известными теоретическим положениями.
Достоверность полученных теоретических положений и выводов подтверждается результатами имитационного моделирования, апробации и промышленного внедрения предложенных алгоритмов ФС.
Практическая ценность полученных результатов
Практическая значимость полученных результатов заключается в повышении эффективности функционирования системы противодействия распространению спама в локальной вычислительной сети организации.
Использование предложенного метода классификации электронных сообщений позволяет учесть в процессе анализа семантическую компоненту сообщения, тем самым снизить уровень ошибочной классификации на 5-10%.
Результаты работы внедрены в филиале "Уфимская городская телефонная сеть" ОАО "БашИнформСвязь", Уфимском филиале ОАО "Вымпелком", ОАО МТУ "Кристал", г. Уфа, Уфимском филиале ОАО "Уралмонтажавтоматика".
Связь исследований с научными программами
Исследования выполнялись более 5 лет (с 2004 по 2009 гг.) на кафедре вычислительной техники и защиты информации Уфимского государственного авиационного технического университета в рамках, в том числе в рамках гранта РФФИ № 07-08-00386 «Методы и алгоритмы интеллектуального информационной безопасностью высшего учебного заведения» (2007-2009 гг.)
Апробация работы
Основные научные и практические результаты диссертационной работы докладывались и обсуждались на следующих конференциях:
-1,9, 10 Международных научных семинарах «Компьютерные науки и информационные технологии» (CSIT), Уфа, 2005, 2007; Анталия, Турция 2008;
- XXXII Международной молодежной научной конференции «Гагарин-ские чтения», Москва, 2006;
- VIII Всероссийской молодежной научной конференции «Королевские чтения», Самара, 2005;
- Международной молодежной научной конференции «Туполевские чтения», Казань, 2005;
- VIII Международной научно-технической конференции «Проблемы техники и технологии телекоммуникации», Уфа, 2007;
-1 Международной научно-технической конференции «Актуальные проблемы безопасности информационных технологий», Красноярск, 2007.
Публикации
Результаты диссертационной работы отражены в 16 публикациях: в 9 научных статьях, в том числе 1 статья в рецензируемом журнале из списка периодических изданий, рекомендованных ВАК, в 7 тезисах докладов в материалах международных и российских конференций.
Структура и объем работы
Диссертационная работа состоит из введения, четырех глав, заключения, приложений, библиографического списка и изложена на 135 страницах машинописного текста. Библиографический список включает 138 наименований литературы.
Краткое содержание работы
Во введении обосновывается актуальность темы исследований в области повышения защищенности информации, получаемой, хранящейся, обрабатываемой и передаваемой в системах электронной почты. Формулируется цель работы и решаемые в ней задачи, обсуждается научная новизна и практическая ценность выносимых на защиту результатов.
В первой главе выполнен анализ различных видов спама с точки зрения их угроз защищенности информации, а также рассмотрены достоинства и недостатки известных подходов к противодействию этим угрозам. Делается вывод о необходимости разработки новой архитектуры системы противодействия распро- " странению спама, методов и алгоритмов фильтрации, позволяющих более эффек тивно, по сравнению с существующими системами, обеспечивать ФС.
Во второй главе рассматривается задача разработки концепции построения автоматизированной иерархической системы противодействия вредоносному воздействию спам-рассылок на информацию, обрабатываемую в системах электронной почты, заключающаяся в многоуровневой ФС с использование БЗ, различных по полноте и достоверности. Выполнен анализ основных потоков информации в системе обработки сообщений. Проанализировано влияние спама на доступность информации и на ее целостности. Выполнен сравнительный анализ достоинств и недостатков спам-фильтров, выполняющих централизованную и распределенную фильтрацию. Рассмотрены три основных возможных способа формирования БЗ полезных сообщений и спама для фильтров, осуществляющих централизованную фильтрацию.
Предлагается процедура формирования БЗ интеллектуальной системы борьбы со спамом, объединяющей в себе все преимущества серверных и персональных фильтров В третьей главе рассматривается решение задачи разработки алгоритма классификации входного и выходного потока электронной корреспонденции на основе применения парадигмы обучаемых нейронных сетей.
С учетом специфики задачи ФЭС, предлагается в качестве упрощенной модели текстового фрагмента использовать представление минимальной семантической единицы - предложения, в виде семантического графа. Данная модель позволяет быстро построить простую структуру, частично отражающую семантику текстового сообщения.
В качестве классификатора предлагается использовать линейный нейросе-тевой ассоциатор, элементы входного вектора которого составлены из элементов семантической матрицы фильтруемого сообщения. Обучение ассоциатора выполняется на основе правила обучения Хебба. Архитектура разработанной системы многоуровневой ФС позволяет реализовать способность системы к самообучению.
В четвертой главе описывается реализация многоуровневой системы борьбы со спамом на основе многоагентного подхода.
Предлагаемая система борьбы со спамом является распределенной, каждый системный компонент, управляющий почтовыми фильтрами, имеет лишь информацию, необходимую для решения задачи, и может влиять на решение задачи только на своем участке. Это обусловлено спецификой сложной, гетерогенной, распределенной в пространстве и непостоянной по структуре системы, которой является информационная система современного предприятия. Ключевым моментом, определяющим выбор многоагентной технологии, является необходимость обеспечения автономности системы ФС. Более того, изменение структуры информационной системы предприятия, добавление или удаление какой-либо пользовательской рабочей станции или даже сервера отдельного отдела, при использовании многоагентной технологии позволяет учитывать эти изменения. Также это позволяет повысить эффективность работы администратора сети.
Разработанная многоагентная система ФС состоит из трех уровней: верхнего, промежуточного и нижнего. На верхнем уровне располагается основной в организации почтовый сервер, на промежуточном уровне находятся почтовые сервера отделов, нижний уровень занимают почтовые клиенты, установленные на рабочих станциях пользователей.
Роли агентов зависят от места, занимаемого ими в этой иерархии. В разные моменты времени один и тот же агент может исполнять различные роли, в зависимости от сложившийся ситуации и архитектуры локальной вычислительной сети.
В заключении приводятся основные научные результаты, полученные в ходе выполненных исследований, а также представлены выводы по работе.
Анализ основных угроз информационной безопасности, несущих различными видами спам-сообщений
Спам, разосланный с целью рекламы товара или услуги, обозначают как незапрашиваемые коммерческие электронные сообщения (НКЭС). В большинстве случаев НКЭС рассматриваются компаниями как важный метод привлечения клиентов, т.к. рассылка сообщений по почте - самый дешевый способ рассказа о товаре или услуге. Однако большинство НКЭС рассылаются не самими компаниями, а спамерами, которые получают определенное вознаграждение за рассылку спама. Исследования показывают, что цена за одно посланное сообщение составляет 0,25-12,5 руб., при этом 1 электронный адрес стоит 0,8 коп [77]. С точки зрения информационной безопасности, НКЭС влияет только на доступность информации. Пропускная способность канала связи может быть полностью использоваться для скачивания НКЭС, и ресурс сети Интернет, к которому пользователь пытается получить доступ, окажется недоступен.
Несмотря на мизерное количество ответов на спам-сообщения, заказчики все равно получают прибыль. Согласно ОЭСР [77] "8% из опрошенных признались, что приобретали товары, рекламируемые через спам. Исследования, показали, что даже если процент ответивших будет составлять 0.001%, реклама через электронные сообщения в любом случае выгодна."
Рекламным сообщениям могут содержать политическую или религиозную пропаганду. К примеру, в 2003 году члены Конгресса США разослали избирателям сотни тысяч незатребованных сообщений [104]. По негативному воздействию на защищенность информации, сообщения некоммерческого характера аналогичны НКЭС, то есть влияют только на доступность информации.
Некоторые спамеры рассылают сообщения с ложной информацией, то есть мошеннические письма. Письма ложного содержания, посланные с целью выудить какую-либо информацию, называют "скам". Примерами могут служить письма с просьбами перевести деньги на счет жертв природного бедствия. Также сюда относятся нигерийские письма, посланные якобы от правительственных чиновников, утверждающих, что они украли миллионы долларов из фонда помощи [102]. Одним из видов мошеннических писем являются фишинговые письма или бред-спуффинг, посланные якобы от лица известной компании. Целью подобных писем является выуживание у пользователей конфиденциальных данных о паролях и кодах доступа, например, письма из банка с просьбой подтвердить данные кредитной карты. И мошеннические, и фишинговые письма кроме нарушения доступности внешних ресурсов, нарушают еще и конфиденциальность секретной информации, такой как номера банковских карт или пароли доступа к системам дистанционного управление счетом. t
Ложные сообщения рассылаются с целью заставить получателя поверить, что какое-либо ложное событие является правдой, причем такие сообщения часто сопровождаются просьбой разослать это письмо наибольшему количеству людей (цепные письма). Некоторые сообщения предупреждают о вирусах, червях или троянских конях, другие содержат неверную информацию о каких-либо политических или общественных событиях, иногда в сообщениях содержаться просьбы о благотворительности или предложения коммерческого характера, например, в сообщении может находиться сертификат на получение бесплатного подарка от фирмы. Таким образом, ложные и цепные сообщения снижают только доступность информации. "Joe jobs" это обманное сообщения, посланное от имени другого человека с целью нанесения вреда его репутации. К примеру, "joe jobber" может разослать на тысячи адресов сообщение с детской порнографией, при этом обратным адресом там будет значиться, к примеру, User@Company.Ru, чтобы возмущенные получатели данного сообщения забросали ящик User a гневными письмами и репутация компании Company была бы подорвана. Название joe jobs впервые было использовано для описания подобной схемы, жертвой которой стал хостер Джо Дол. Учетная запись одного пользователя была удалена из-за рассылки спама для рекламы своих товаров; в отместку тот пользователь разослал на миллионы адресов еще больше спама, но обратным адресом значился адрес Джо Дола [31]. В данном случае имеет место распределенная атака "Отказ в обслуживании", где роли атакующих исполняют получатели обманных сообщений.
Вредоносные программы разрабатываются с целью нанесения вреда компьютерной системе и рассылаются под видом безобидного приложения к сообщению. Вирусы, "черви", "троянские кони", программы-шпионы и рекламные программы вкладываются в письма и запускаются при открытии вложенного файла. Между спамом и вредоносными программами существует взаимозависимость [78]: через спам рассылаются вредоносные программы, они наносят вред компью 17 теру, чтобы контролировать его на расстоянии и рассылать еще больше спама. Такие компьютеры называются "зомби". Таким образом, электронные письма с вредоносными программами нарушают не только доступность внешних ресурсов (за счет забивания входящего канала трафиком, генерируемым при скачивании спа- ма) и конфиденциальность секретных данных (за счет возможности некоторых вирусов находить и отправлять хозяину номера банковских карт и паролей доступа), но и целостность всей информации, сохраненной на компьютере (за счет возможности некоторых вирусов зашифровывать все найденные документы).
Отрицательная квитанция - это не доставленное сообщение, отсылаемое обратно отправителю. Согласно исследованию Ironport [52], сообщения, возвращенные на поддельные обратные адреса невиновных третьих лиц, составляют около 9% от всего электронного трафика (рис. 2.2), что соответствует 1.67 млрд. вер- нувшихся сообщений в день [38]. Отрицательная квитанция не является спамом как таковым, но она составляет значительную часть электронного трафика, который увеличивается из-за спама. Таким образом, отрицательные квитанции снижают только доступность внешних ресурсов.
Анализ нарушения спамом безопасности информации
Задача классификации электронной информации, поступающей в систему обработки информации по канал связи, является комплексной и разбивается на два подзадачи: классификация электронной информации, поступающей в систему обработки, и классификация электронной информации, выходящей из системы обработки [119].
В потоке информации, поступающей в систему обработки, можно выделить следующие типы электронных сообщений: содержащие полезную информацию и содержащие спам.
В потоке исходящей информации можно выделить следующие типы электронных сообщений: электронные сообщения, содержащие полезную информацию, электронные сообщения, содержащие спам, и электронные сообщения, содержащие конфиденциальные сведения.
При ФЭС, поступающей в систему обработки, приоритеты пользователя электронной почтовой системы и администратора безопасности локальной вычислительной сети совпадают и убывают в следующей последовательности: сохранить все сообщения, содержащие полезную информацию; заблокировать все сообщения, содержащие спам [135].
При фильтрации исходящей корреспонденции приоритеты пользователя электронной почтовой системы не всегда совпадают с приоритетами администратора безопасности локальной вычислительной сети, поскольку нелояльный пользователь может быть заинтересован в краже конфиденциальных данных или рассылке спам-сообщений [122]. Приоритеты администратора безопасности локальной вычислительной сети убывают в следующей последовательности: заблокировать все электронные сообщения, содержащие конфиденциальные сведения; пропустить все электронные сообщения, содержащие полезную информацию; заблокировать все электронные сообщения, содержащие спам [117].
Здесь: Hj - полезные электронные сообщение, поступающие на вход ФВС; Si — спам-сообщения, поступающие на вход ФВС; Hf - полезные электронные сообщения, поступающие с выхода ФВС; Si - спам-сообщения, поступающие с выхода ФВС; Н0 — полезные электронные сообщения, поступающие на вход ФИС; So — спам-сообщения, поступающие на вход ФИС; Со - сообщения, содержащие конфиденциальные сведения, поступающие на вход ФИС; Н01 - полезные электронные сообщение, поступающие с выхода ФИС; Со1 -сообщения, содержащие конфиденциальные сведения, поступающие с выхода ФИС; S0l - спам-сообщение, поступающие с выхода ФИС.
Таким образом, задача фильтрации ВС, содержащих спам, является характерной задачей классификации электронной информации, поступающей в систему обработки информации по канал связи. Результаты работы можно использовать для ФЭС, выходящих из системы обработки информации, и содержащих конфиденциальные сведения, а также для фильтрации спам-сообщений, выходящих из системы обработки информации.
Со временем очередь из запоздавших электронных посланий будет только расти, соответственно время запаздывания вновь поступивших электронных сообщений будет все увеличиваться и увеличиваться [131]. Если в некоторый другой момент времени (ti) суммарный объем поступающих во все корпоративные почтовые ящики полезных и спам-сообщений уменьшится (станет меньше пропускной способности канала связи организации с Интернет-провайдером), то система сможет докачать запоздавшие электронные письма и в дальнейшем оперативно и без задержек скачивать все поступающие сообщения [133].
В случае установки фильтра спама на сервер электронной почты появляются следующие преимущества: появляется возможность достаточно быстрого обнаружения и отсечения массовые рассылки одинаковых сообщений, присланных на электронные почтовые адреса разных пользователей; появляется возможность оперативно приспосабливания к вновь изобретенным методам и способам обмана распространенных спам-фильтров за счет централизованного администрирования системы фильтрации и сбора статистической информации на основе жалоб пользователей на полученные электронные сообщения, содержащие спам; экономится пропускная способность канала связи от сервера электронной почты до персонального компьютера пользователя (так называемая, последняя миля), что особенно ощутимо при работе в Интернете через обычный dial-up модем.
Здесь: М- поток ВС, предназначенных какому-либо отдельному пользователю или всем пользователям почтовой системы; S -сервер электронной почты; Fs - серверный классификатор электронных сообщений; PCj — персональный компьютер у -го пользователя системы электронной почты; Z7} - персональный классификатор, индивидуально настроенный и обученныйу -м пользователем системы электронной почты; M-Fs - поток входящих электронных сообщений, предназначенных какому-либо отдельному пользователю или всем пользователям системы электронной почты и отфильтрованных серверным классификатором Fs; Mj—Fs -поток входящих электронных сообщений, предназначенных у-му пользователю системы электронной почты и отфильтрованных серверным классификатором Fs; Ij - электронные сообщения, вручную классифицированные у-м пользователем почтовой системы и предназначенные для обучения серверного классификатора Fs или персонального классификатора F/, Mj - поток входящих электронных сообщений, предназначенных у-му пользователю почтовой системы. MJ—FJ — поток входящих электронных сообщений, предназначенных у-му пользователю почтовой системы и отфильтрованных персональным фильтром Fj [134].
Разработка модели сообщения на основе упрощенного семантического графа
Представлением, наиболее подходящим для анализа с помощью искусственных нейронных сетей, была выбрана таблица, в которой заголовками строк и столбцов были леммы, на главной диагонали были представлены частоты встречаемости каждой леммы во всем анализируемом текстовом документе, в других же ячейках находились частоты встречаемости двух лемм в пределах одного сообщения (таб. 3.1). Например, лемма а встречалась во всем текстовом документе 4 раза, лемма Ь встречается во всем текстовом документе 6 раз, а в рамках одного предложение обе леммы а и Ъ встречаются 3 раза.
Как отмечалось ранее, при решении задачи классификации спама в рамках известных подходов используется синтаксический анализ при формировании словарей лексических единиц: текст di разбивается на лексемы, которые затем используются в качестве атрибутов при классификации. Далее с их помощью принимается решение о принадлежности сообщения к какой-то категории. Недостатком таких фильтров является невозможность учета семантической составляющей электронных сообщений.
Разработаны системы извлечения знаний из больших массивов данных на основе алгоритмов DataMining, позволяющие извлекать семантическую компоненту, которые могут быть использованы при построении систем интеллектуальной фильтрации спама [139]. Однако, как известно, они отличаются высокой сложностью, что затрудняет их использование для решения задачи фильтрации спама на конечном компьютере пользователя, так и на сервере почтовых сообщений.
В рамках предлагаемого метода при решении задачи построения интеллектуального классификатора предлагается оценивать не только частоту появления лексем в сообщении, но и определять меру близости лексем в рамках приня 87 той минимальной семантической структуры сообщения. Минимальной семантической структурой в текстовых сообщениях можно, например, принять предложение. С учетом небольшого объема электронных писем это позволяет извлекать часть семантической информации, которая может быть использована в процессе категоризации сообщений.
Рассмотрим основные этапы процесса категоризации сообщений на основе предлагаемого подхода. На первом этапе агентом-классификатором из полученного текстового сообщения формируется множество F = {fk}, где fk - заданная для системы фильтрации минимальная семантическая структура, i = l + mt ПрИ этом из структуры удаляются избыточные элементы, но сохраняется последовательность лексем. В результате структура fk может быть представлена в виде семантического графа sk, определяющего связь лексем в fk. При оценке силы связи учитывается лексикографический порядок в fk. После обработки всего сообщения G= S,V =\J"sk - « получаем семантический граф U1 , представляющий собой упро щенную семантическую модель сообщения, где S - множество вершин, содержащее лексемы сообщения, прошедшие предварительную фильтрацию на основе заданного словаря; V — множество ребер, весовые значения которых определяют силу связи лексем в fk. Граф G задается матрицей смежности Z (семантическая матрица). На рис. 3 представлена в графическом виде матрица смежности Z є R для 200 сообщений, полученных по электронной почте. Как следует из рис.3 матрица Z имеет четко выраженную структуру, зависящую от семантической структуры сообщений, и тем самым эта информация может быть использована для повышения эффективности процедуры классификации сообщения. На следующем этапе фильтрации выполняется понижение размерности матрицы Z (сжатие образа), из нее удаляются столбцы и строки, содержащие значения элементов ниже заданного порога X (см. рис. 3.3). На рис. 3.4 представлена шкала весов (сила связей между лексемами в се- " мантическом графе). Далее, с учетом векторов атрибутов сообщений на базе G строятся две обобщенные семантические матрицы Zs (для спама) и Ze (для легитимных сооб Рисунок 3.3 - Графическое представление матрицы смежности семантического графащений). В результате задача классификации новых сообщений сводится к построению бинарного классификатора N, определяющего принадлежность сообщения к одной из представленных семантическими матрицами категорий.
1. Предложена семантическая модель электронного сообщения, основанная на учете лексикографического упорядочения лексем в выбранной минималь- -ной семантической единице сообщения: предложение, абзац, сообщение. Отличительной особенностью предложенной модели является её простота и возможность использования ее в системах фильтрации реального времени.
2. Предложено представление БЗ системы фильтрации спам-сообщений в виде семантической матрицы, диагональные элементы которой хранят частоту появления лексемы в сообщениях, принадлежащих тому или иному классу, а недиагональные элементы отражают связь лексем в выбранной семантической единицы электронного сообщения.
3. Предложен алгоритм категоризации сообщений на основе семантической матриц и нейронных сетей. В качестве нейронной сети выбран линейный ассоциатор, что позволяет обеспечить обучение нейронной сети в реальном масштабе времени.
4. Численный эксперимент показал достаточно высокую эффективность решения задачи категоризации электронных сообщений.
Архитектура многоагентной системы борьбы со спамом
При работе агентов системы борьбы со спамом можно выделить следующие основные сценарии: работа с электронными сообщениями, включающая в себя управление почтовыми фильтрами и самообучение); распространение изменений в параметрах настройках системы фильтрации спам-сообщений в потоке . электронной корреспонденции (изменения производятся администратором безопасности сети или системным администратором); наблюдение за изменениями в структуре потоков электронной почты и реагирование на них, в том числе адаптация структуры многоагентной системы борьбы со спамом.
Диаграмма взаимодействия в многоагентной системы борьбы со спамом в этих сценариях показана на рисунке 4.4.
Как уже было сказано, МС борьбы со спамом имеет иерархическую структуру, состоящую из трех уровней: верхнего, промежуточного и оконечного. На верхнем уровне располагается основной в организации сервер электронной почты, на промежуточном уровне находятся почтовые сервера подразделений, оконечный уровень занимают почтовые клиенты, установленные на рабочие станции пользователей. Роли агентов зависят от места, занимаемого ими в этой иерархии. В разные моменты времени один и тот же агент может исполнять различные роли, в зависимости от сложившийся ситуации и архитектуры локальной вычислитель- . ной сети.
Функции каждого агента определяются его ролями: управление почтовыми фильтрами на своем уровне; отправка обучающих выборок агенту более высокого уровня (для агентов оконечного и промежуточного уровней); прием обучающих выборок от агентов предыдущего уровня, формирование БЗ (по алгоритму, определяемому исходя из места агента в иерархии), а также самообучение (для агентов промежуточного и верхнего уровней); наблюдение за структурой информационной системы предприятия на своем уровне, реагирование на изменения в этой структуре, выраженное в появлении и исчезновении рабочих станций и серверов электронной почты (для агентов промежуточного и верхнего уровней); распространение служебных сообщений (например, изменений параметров на 97 строек) с верхнего уровня на нижние.
Общение между агентами происходит в двух направлениях [72]: общение "снизу вверх" — от оконечных агентов к агентам верхнего уровня. Данное направление обеспечивает обучение системы борьбы со спамом; общение "сверху вниз" - от агентов на верхнем уровне к оконечным агентам. Это направление используется для централизованного управления параметрами настройками системы фильтрации спам-сообщений в потоке электронной почты.
Система сообщений в многоагентной системе борьбы со спамом имеет следующую структуру: сообщения с обучающими выборками для БЗ; сообщения, регулирующие параметры настройки в многоагентной системе; запросы об изменениях информационной структуры предприятия (добавление или удаление сер- веров или рабочих станций, на которых происходит обработка электронной корреспонденции) и ответы на них.
Информационная модель агента включает в себя БЗ с критериями отнесения электронных почтовых отправлений к одному из классов и базы адресов близлежащих агентов - одного агента-родителя, располагающегося на уровень выше, и нескольких агентов-потомков, располагающихся на уровень ниже (занимающих «подчиненное» положение в иерархии). Адрес агента-родителя, располагающегося на уровень выше, задается при создании агента (как копии «родителя»).
Поведение агента определяется его текущей ролью [25]. Каждый агент имеет коммуникационный интерфейс, который служит для обмена сообщениями с другими агентами и запросов об изменениях в структуре информационной системы к службе каталогов предприятия.
Для иллюстрации предлагаемого подхода был разработан программный прототип многоагентной системы на базе платформы Java Agent Development Framework (JADE).
Предварительно был произведен обзор существующих платформ для разработки многоагентных систем. Предпочтение отдавалось бесплатным средствам с открытыми исходными кодами, поскольку это позволяет убедиться в отсутствии недокументированных возможностей. Как уже было сказано, для разработки была выбрана платформа JADE (Java Agent DEvelopment Framework), являющаяся программным обеспечением среднего звена (middle-ware) для создания многоагентных систем разного уровня сложности.
Сравнительная характеристика различных средств разработки приведена ниже (см. таблицу 4.1). Наряду с платформой Java DEvelopment Framework (JADE) в сравнении участвовали: Cougaar Agent Architecture [25]; agentTool [50]; MultiAgent Systems Tool [58]; FIPA-OS (Foundation Intelligence Platform Agents-Open Source) [86].
Достоинствами платформы JADE являются [71]: бесплатность и открытые исходные тексты (лицензия LGPL - Lesser General Public License); распределенный характер платформы, обеспечивающий высокую степень надежности, живучести и масштабируемости разработанной системы; поддержка «легковесных» устройств (таких, как мобильные телефоны, смартфоны, карманные персональные . компьютеры и т.п.); достаточно высокий уровень встроенных средств обеспечения безопасности; поддержка международного набора стандартов на интеллектуальные многоагентные системы FIPA; возможность использования произвольных алгоритмов кодирования для передачи сообщений, что позволяет осуществлять туннелирование через виртуальные частные сети и т. п.; наличие встроенных средств администрирования многоагентнои системы; наличие встроенных средств отладки многоагентных систем.
В ходе своего жизненного цикла агент может находиться в различных состояниях [93]. INITIATED (инициирован) - объект агента создан, но еще не зарегистрировался в AMS, не имеет имени и адреса и не может общаться с другими агентами. ACTIVE (активен) - объект агента зарегистрировался в AMS, имеет корректное имя и адрес и имеет доступ ко всем требуемым возможностям, пре 103 доставляемым платформой (учитывая, естественно, ограничения, накладываемые текущей политикой безопасности). SUSPENDED (приостановлен) - объект агента приостановлен и не выполняет никаких действий. WAITING (ожидание) - объект агента блокирован, ожидая пока будут выполнены некоторые указанные условия (например, придет сообщение и т. д.). DELETED (удален) - агент прекратил свое функционирование, его регистрация в AMS аннулирована. TRANSIT (транзит) — мобильные агенты переходят в это состояние, когда мигрируют с хоста на хост.