Содержание к диссертации
Введение
ГЛАВА 1. Классификация и анализ существующих автоматизированных систем фильтрации незапрашиваемой рассылки. требования к их составу и функциональным возможностям 19
1.1. Исследование и анализ явления незапрашиваемой рассылки, постановка задачи фильтрации незапрашиваемой рассылки 19
1.1.1. Понятие незапрашиваемой рассылки 19
1.1.2. Причины появления и широкого распространения явлений незапрашиваемой рассылки 20
1.1.3. Характеристика ущерба от незапрашиваемой рассылки 21
1.1.4. Анализ процесса распространения незапрашиваемой рассылки 22
1.1.5. Особенности задачи фильтрации незапрашиваемой рассылки, постановка задачи фильтрации 28
1.2. Классификация и анализ возможностей существующих АСФ HP 29
1.2.1. Классификация АСФ HP по архитектуре системы 33
1.2.2. Классификация АСФ HP по способам реализации функций фильтрации 44
1.2.3. Классификация АСФ HP по способу реализации функций выявления ошибок фильтрации 53
1.2.4. Классификация АСФ HP по способу реализации функций настройки фильтров 56
1.2.5. Классификация методов адаптивной фильтрации незапрашиваемой рассылки по контекстным признакам 59
1.3. Требования к составу и функциональным возможностям автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 67
Выводы по главе 1 71
ГЛАВА 2. Функциональное построение и математический аппарат автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 73
2.1. Общие принципы построения многоагентных автоматизированных систем адаптивной фильтрации незапрашиваемой рассылки 73
2.1.1. Многоагентная архитектура АСАФ HP 73
2.1.2. Принципы обмена информацией между агентами АСАФ HP 75
2.1.3. Принципы взаимодействия между равноправными агентами 77
2.1.4. Принципы взаимодействия в группах агентов 78
2.1.5. Общие принципы построения агентов АСАФ HP 80
2.2. Математическая модель подсистемы фильтрации 81
2.3. Формирование обучающих и тестовых выборок 83
2.4. Контекстная фильтрация 86
2.4.1. Математическая модель пространства признаков 88
2.4.2. Математическая модель категоризации текстовых сообщений 103
2.5. Коллективная фильтрация 116
2.6. Математические модели оценки качества системы фильтрации 117
Выводы по главе 2 118
ГЛАВА 3. Аппаратно-программный комплекс автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 120
3.1. Особенности функционирования, требования к проектированию и реализации многоагентной автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 120
3.1.1. Общесистемные требования к реализации АСАФ HP 120
3.1.2. Требования к реализации отдельных агентов 121
3.1.3. Требование к процессам взаимодействия между агентами 122
3.2. Проектирование программных компонентов АСАФ HP 122
3.3. Аппаратно-программное обеспечение 125
3.3.1. Системное программное обеспечение 125
3.3.2. Прикладное программное обеспечение 131
3.3.3. Оценка производительности и требования к аппаратному обеспечению АСАФ HP 151
3.3.4. Аппаратное обеспечение АСАФ HP 154
3.4. Проектирование размещения программных компонентов АСАФ HP 159
3.5. Методическое обеспечение 161 Выводы по главе 3 162
ГЛАВА 4. Экспериментальное исследование автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 163
4.1. Цели и задачи экспериментальных исследований 163
4.2. Методика экспериментальных исследований 163
4.3. План экспериментальных исследований 167
4.4. Состав экспериментального стенда 168
4.5. Выбор массива сообщений 171
4.6. Исследование методов формирования пространства признаков 175
4.6.1. Исследование способов формирования предварительного пространства признаков 175
4.6.2. Исследование методов сокращения размерности пространства признаков 176
4.6.3. Исследование методов выбора комплексных признаков 180
4.7. Исследование методов обучения нейронной сети 189
4.7.1. Исследование настройки одного нейрона с использованием различных функционалов вторичной оптимизации 189
4.7.2. Исследование числа итераций 195
4.7.3. Исследование выбора шага 198
4.7.4. Исследование выбора числа нейронов первого слоя 201
4.8. Исследование порогов 202
4.9. Исследование методов совместной фильтрации 204
4.10. Оценка результатов экспериментального исследования 205
Выводы по главе 4 206
Выводы 207
Список литературы 209
Приложение А 224
- Анализ процесса распространения незапрашиваемой рассылки
- Принципы обмена информацией между агентами АСАФ HP
- Проектирование программных компонентов АСАФ HP
- Исследование методов сокращения размерности пространства признаков
Введение к работе
Современные глобальные системы обработки информации объединили большое число независимых подсистем, предоставив им множество возможностей для свободного получения и распространения информации. Однако, эксплуатация таких систем выявила целый ряд проблем в области взаимодействия их компонентов - отдельных подсистем. Ключевые из них связаны с возможностями навязывания отдельным подсистемам получения незапрашиваемой их пользователями информации (фактически, информационного шума). Обработка такой информации в подсистемах приводит к потерям, обусловленным увеличением стоимости их обслуживания и снижением качества их работы. Все это заставляет разрабатывать различные подходы борьбы с незапрашиваемой информацией.
В настоящее время проблемы незапрашиваемой информации наиболее остро проявляются в системах обработки текстовой информации, таких как электронная почта (ЭП) глобальной сети Интернет, где широкое распространение получила незапрашиваемая рассылка (так называемый "спам"), использующаяся как дешевое средство нелегальной рекламы. По данным различных международных организаций (CAUCE - Coalition Against Unsolicited Commercial Email, IETF - Internet Engineering Task Force и др.) уже сейчас среднестатистический пользователь систем электронной почты может получать несколько десятков и даже сотен незапрашиваемых сообщений в день[1,2], а процентное отношение сообщений незапрашиваемой рассылки (HP) к общему числу сообщений, передаваемых в Интернет, достигает 95%, и эта цифра постоянно растет [3]. Все это уже сейчас приводит ко множеству серьезных затруднений при использовании электронной почты [1,3-9], а в будущем многие прогнозы развития текущей ситуации показывают, что эффективность систем электронной почты будет постоянно снижаться, что может привести к массовым отказам от ее использования [10]. Таким образом, если в самое ближайшее время не будут разработаны средства, способные эффективно противодействовать HP, то это поставит под угрозу саму возможность применения систем электронной почты и нанесет заметный ущерб общему ходу поступательного развития современных высокотехнологичных, эффективных средств общения между людьми.
Сейчас проблемы незапрашиваемой рассылки в глобальной сети Интернет стали активно подниматься на самых различных уровнях [11]. В законодательстве некоторых стран (например, в США и Европейском Союзе) в последние годы появились нормы, устанавливающие юридическую ответственность за распространение HP [12-14]. Состоялось несколько громких процессов по делам, связанным с ущербом, нанесенным распространителями HP. Однако, несмотря на это, юридические нормы до сих пор так и не позволили решить проблемы HP [15]. Это связано с целым рядом причин [16]. Во-первых, понятие незапрашиваемой рассылки с юридической точки зрения является достаточно противоречивым и сложным, что затрудняет разработку и широкое внедрение подобных норм. Во-вторых, применение юридических способов борьбы с HP требует принятия единых правовых норм для всех сегментов сети Интернет, введение которых затруднено из-за различий в законодательствах стран, использующих Интернет. В-третьих, в современных телекоммуникационных системах существует множество возможностей сокрытия идентичности отправителя при осуществлении рассылки, что затрудняет идентификацию злоумышленников. Все это заставляет вместо юридических средств борьбы разрабатывать технические средства фильтрации, предоставляющие возможности для автоматического выявления и блокирования сообщений HP. Их использование в современных условиях является единственным надежным способом защиты от HP.
Выявление сообщений незапрашиваемой рассылки (СНР) с помощью технических средств фильтрации основывается на применении некоторого формального аппарата, позволяющего отнести данное сообщение к одному из двух классов: 1) к классу СНР, либо 2) к классу легитимных пользовательских сообщений (ЛПС). После того, как класс идентифицирован, сообщению назначается соответствующий вид обработки: для СНР - блокирования и уничтожение, для ЛПС - передача пользователю. Подобный же принцип уже давно используется в системах защиты от распространения компьютерных вирусов, формальный аппарат в которых обеспечивает выявление и уничтожение программ, выполняющих опасные действия.
В средствах фильтрации HP определение класса сообщения осуществляется на основании анализа различных признаков (рис. В.1.), таких, например, как адресная информация об отправителе сообщения [17-22], характерные признаки оформления сообщений [21], отдельные ключевые слова текстовой части сообщения [23-25], текст сообщения целиком [26], комплексные признаки, извлекаемые из текста сообщения [27] и т.д.
Технические средства фильтрации HP обеспечивают обработку потоков сообщений различного масштаба: от небольших потоков, поступающих отдельным пользователям, до крупных потоков, поступающих широкой группе пользователей.
Наиболее сложным и перспективным направлением разработки средств фильтрации является построение многопользовательских автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ HP), обеспечивающих комплексную защиту соответствующей группы пользователей. АСФ HP чаще всего функционируют в составе автоматизированных информационных систем (АИС) организаций (рис. В.2.), но могут также применяться и в более крупных системах телеком-операторов, магистральных системах обработки информации, а также в системах спутниковой и мобильной связи.
Эффективность работы АСФ HP определяется в основном характером использующихся для выявления HP признаков, а также применяющимися способами составления и модификации признаков.
В большинстве современных АСФ HP составление и модификация признаков HP осуществляется в ручном режиме, для чего привлекаются эксперты. Однако, в настоящее время, когда общие объемы передаваемых сообщений и число распространяемых видов HP значительно возросло, настройка фильтрации в ручном режиме начинает отнимать все больше времени и становится все менее эффективным средством. Поэтому сейчас особенно остро возникла потребность в разработке и применении более простых, надежных и гибких подходов, обеспечивающих минимизацию времени при настройке фильтров за счет использования автоматических методов.
Исследование и разработка автоматических гибких адаптивных систем фильтрации HP в настоящее время активно ведется во всем мире. В эту работу вовлечены различные организации: университетские лаборатории (лаборатория CSAIL, MIT, США, подразделение Computer Science Division, Калифорнийского университета, США, Computer Laboratory, Великобритания и др.); научно-исследовательские центры (центр NCSR "Demokritos", Греция, исследовательский центр IBM, США [28,29] и др.); коммерческие фирмы (Microsoft, Symantec,
Лаборатория Касперского, и др.). Огромное внимание к рассматриваемой проблеме уделяется международными организациями. Так, в рамках организации IETF (Internet Engineering Task Force) в 2003 г. создана и постоянно действует исследовательская группа ASRG (Anti-Spam Research Group) [30,31], занимающаяся исследованием и разработкой средств противодействия HP. В последние годы стало появляться множество статей по проблемам незапрашиваемой рассылки, было организовано множество международных конференций, саммитов и симпозиумов, посвященных этой теме (NIST Spam Technology Workshop, США, 2004 г., ASRG Meeting, США, 2003, Cambridge Spam Conference, США, 2003-2005 гг., Conference on Email and Anti-Spam (CEAS), Маунтэйн Вью, США, 2004,2005 гг., Spam Forum, Париж, Франция, 2003 г., Anti-Spam-Symposium, Карлсрух, Германия, 2003 г., Spam Summit, Великобритания, 2003 г., Национальная конференция "Проблема спама и ее решения", Москва, др.). Особенно значительный вклад в разработку средств фильтрации вносят программистские коллективы глобальной сети Интернет на добровольных началах (например, Apache SpamAssassin [36,37]).
Большинство разработанных на данный момент средств автоматической настройки фильтров основываются на использовании баз данных выявленных сообщений HP. Выявляемые различными способами сообщения HP регистрируются в таких БД, а при повторном поступлении сообщений, имеющихся в БД, осуществляется их автоматическое блокирование. Использование средств нечеткого сравнения сообщений позволило значительно сократить объем обрабатываемых однотипных сообщений HP. Однако, в ответ на внедрение таких средств автоматизации, распространители HP стали использовать автоматические средства модификации содержания сообщений, что сделало использование таких подходов неэффективным. Поэтому сейчас возникла потребность в разработке более совершенных автоматизированных средств фильтрации, которые должны обеспечивать идентификацию не только полных двойников выявленных ранее сообщений, но способных на основании имеющейся выборки сообщений HP (БД сообщений HP) предсказывать новые виды HP и осуществлять их блокирование по совокупности экстрагируемых признаков. Для настройки фильтров в таких средствах используются алгоритмы автоматического анализа выборки (обучающая выборка).
Для повышения уровня адаптации фильтров АСФ HP к требованиям пользователей, настройка фильтров АСФ HP делегируется ее пользователям. Однако, при одновременной настройке фильтров, осуществляемой различными пользователями, возникают коллизии, связанные с различиями в индивидуальных требованиях каждого из пользователей. Коллизии связаны с тем, что в общем случае различные пользователи могут относить одно и то же сообщение не к одному, а к различным классам. В подавляющем большинстве АСФ HP, коллизии данного типа разрешаются путем ограничения возможностей настройки фильтров, предоставляемых отдельным пользователям. Пользователям при этом разрешается воздействовать только на свои персональные фильтры, и не разрешается воздействовать на другие части системы. Однако, подобный способ решения проблемы коллизий сейчас становится все менее эффективным, поскольку информация о выявленных одним из пользователей СНР не может использоваться другими для идентификации выявленных видов HP. Для преодоления этого недостатка существующих систем требуется построение АСФ HP совершенного нового типа, в которых фильтрация осуществляется на основе анализа результатов голосования отдельных пользователей по множеству поступивших в АСФ HP сообщений. Контур настройки в этом случае оказывается замкнутым на пользователей АСФ HP. Это позволяет обеспечить более полный учет информации, имеющейся в системе по отдельным сообщениям, обеспечить эффективное взаимодействие пользователей при решении задачи фильтрации и автоматизировать многие задачи, решаемые в современных системах в ручном режиме.
АСФ с коллективным управлением относятся к классу интеллектуальных многоагентных (многокомпонентных) систем, в которых, можно выделить, во-первых, агентов пользователей (АП), выполняющих функции фильтрации и настройки от имени отдельных пользователей, во-вторых, агентов фильтрации (АФ), выполняющих функции фильтрации и настройки в группах пользователей, обеспечивающих синхронизацию их работы. Фильтрация и настройка в системах данного класса осуществляется при взаимодействии отдельных агентов системы. Каждый агент осуществляет оценку класса сообщения на основании той информации, которой он располагает, с учетом результатов обработки данного сообщения в других агентах системы. Разработки в области построения систем данного класса сейчас только начинаются. На данный момент создано несколько действующих систем, имеющих подобный принцип работы, однако, все они являются экспериментальными и решают только некоторые частные вопросы. Поэтому сейчас возникает потребность в разработке целостной и законченной программно-аппаратной системы фильтрации, обеспечивающей функции коллективного управления процессами фильтрации потоков сообщений в группах пользователей.
Цель работы. Исследование моделей, методов и алгоритмов адаптивной фильтрации потоков информации в группах пользователей и разработка многопользовательской многоагентной обучаемой пользователями автоматизированной системы адаптивной фильтрации, обеспечивающей автоматическое выявление и блокирование незапрашиваемой рассылки в потоках сообщений систем электронной почты глобальной информационной сети Интернет.
Достижение поставленной цели потребовало решения комплекса задач, в частности:
1) исследование и анализ функциональных возможностей и математического аппарата современных АСФ HP и разработка требований к архитектуре и математическому аппарату многопользовательских адаптивных АСФ HP;
2) исследование и разработка многоагентной архитектуры АСАФ HP, позволяющей пользователям участвовать в процессах фильтрации и адаптации фильтров АСФ HP;
3) исследование и разработка математических моделей, методов и алгоритмов, обеспечивающих адаптивную фильтрацию потоков информации в группах пользователей: методов формирования обучающей и тестовой выборки, методов построения пространства признаков, методов классификации текстовых сообщений по выявленным признакам, методов коллективной фильтрации.
4) исследование и выбор методов программной и аппаратной реализации средств фильтрации HP и разработка реализации АСАФ HP в виде аппаратно-программного комплекса, обеспечивающего фильтрацию HP на основе разработанных принципов;
5) экспериментальное исследование эффективности предложенных моделей, методов и алгоритмов, определение оптимальных параметров, обеспечивающих наивысшие показатели качества фильтрации HP, разработка рекомендаций по настройке системы.
Методы исследования. При решении поставленных задач использована теория информационных систем, теория экспертных систем и обработки знаний, неироматематика, теория нейронных сетей, теория оптимизации, математический аппарат теории автоматического управления, теория вероятностей и математическая статистика, теория Марковских случайных полей.
Научная новизна работы состоит в следующем:
1) Проведено исследование, классификация и систематизация существующих многопользовательских АСФ HP с точки зрения функциональной структуры, особенностей реализации основных функций и применяющегося в них математического аппарата.
2) Исследована и разработана архитектура многоагентной автоматизированной системы адаптивной фильтрации HP, обеспечивающая эффективное взаимодействие пользователей системы при настройке ее фильтров.
3) Исследованы и разработаны математические модели и методы формирования пространства признаков в задаче анализа содержания сообщений электронной почты, что позволило повысить точность анализа за счет учета значимых словосочетаний.
4) Исследован и разработан метод синтеза нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности (до десяти тысяч).
5) Проведены экспериментальные исследования предлагаемых в работе методов и алгоритмов, позволившие определить оптимальные параметры, обеспечивающие их максимальную эффективность.
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена:
1) результатами экспериментальных исследований;
2) результатами внедрения разработанной многопользовательской АСАФ HP в корпоративной системе электронной почты Международного Института Экономики и Права (4000 пользователей);
3) результатами внедрения разработанных в работе моделей, методов и алгоритмов, а также программного комплекса экспериментального исследования алгоритмов фильтрации текстовой информации в учебный процесс МГТУ им. Н.Э. Баумана.
Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач автоматической адаптивной фильтрации незапрашиваемой рассылки в группах пользователей.
Положения, выносимые на защиту:
1) архитектура, функциональный состав и интерфейсы АСАФ HP;
2) метод формирования пространства признаков в задаче фильтрации текстовых сообщений, обеспечивающий учет, как значимых слов, так и значимых словосочетаний;
3) методы и алгоритмы обучения многослойной нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности;
4) аппаратно-программная реализация многоагентной АСАФ HP;
5) результаты экспериментальных исследований разработанных методов и алгоритмов для решения задачи фильтрации незапрашиваемой рассылки.
Практическая ценность работы. Разработанные в диссертации методы формирования пространства признаков, методы учета указаний группы пользователей о выявленных ошибках фильтрации и алгоритмы настройки нейронных сетей, а также аппаратно-программный комплекс, реализующий многоагентную АСАФ HP, построенный на основе разработанных принципов позволяют:
1) повысить эффективность фильтрации потоков незапрашиваемой информации;
2) автоматизировать и упростить контур настройки современных АСФ HP;
3) сократить время, требуемое на адаптацию АСФ HP к выявленным ошибкам;
4) автоматизировать и сократить ручной труд при наладке системы;
5) предоставить пользователям гибкий механизм управления процессом фильтрации сообщений HP.
Разработанные алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования систем интеллектуальной фильтрации и управления потоками текстовой информации.
Реализация результатов. Разработанная в работе аппаратно-программная реализация АСАФ HP внедрена в корпоративную систему электронной почты Международного Института Экономики и Права и обеспечивает фильтрацию потоков сообщений, поступающих нескольким тысячам пользователей этой системы.
Полученные в работе математические модели, методы и алгоритмы, а также разработанный комплекс экспериментальных исследований алгоритмов адаптивной фильтрации потоков текстовой информации, внедрен в учебный процесс МГТУ им. Н.Э. Баумана Копии актов о внедрении прилагаются.
Апробация работы. Результаты работы были представлены на Международной молодежной научно-технической конференции "Наукоемкие технологии и интеллектуальные системы", (Москва, 2003, 2004), Международной молодежной научной конференции "Информатика и системы управления в XXI веке", (Москва, 2003 г.), студенческой научной конференции "Студенческая научная весна-2002", (Москва, 2002).
Публикации. По материалам и основному содержанию работы имеется 15 публикаций в научно-технических журналах и трудах конференций.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы. Общий объем диссертации 208 страниц, 84 рисунка, список использованных источников из 237 наименований.
Анализ процесса распространения незапрашиваемой рассылки
В системе электронной почты, как обычная (легитимная), так и незапрашиваемая рассылка осуществляется с помощью автоматических средств, обеспечивающих массовое распространение сообщений большому количеству получателей. Сообщения, распространяемые с помощью таких средств, имеют тематическую направленность (анонсы, обзоры, реклама, коммерческие предложения и пр.) и носят регулярный или повторяющийся характер.
Различие между обычной (легитимной) и незапрашиваемой рассылкой не является строгим [22, 38]. В простейшем случае, различие между ними заключается в том, что в первом случае пользователь добровольно дает согласие на получение сообщений и имеет возможность отказаться от них, тогда как во втором случае рассылка носит навязчивый характер, осуществляется без явного согласия и вопреки желанию пользователя. Однако, на практике часто сложно определить факт запрашивания информации. Например, пользователь, подписываясь на рассылку "Нейронные сети", может быть заинтересован только в одном каком-либо аспекте этой тематики, тогда как ему будет направляться весь поток информации, соответствующий названию рассылки. Таких примеров достаточно много, что заставляет рассматривать три подкласса рассылок (см. рис. 1.1): 1) навязываемая рассылка; 2) непреднамеренная; 3) легитимная рассылка. Первые два подкласса вместе формируют класс незапрашиваемой рассылки. Приведенный анализ показывает, что граница между незапрашиваемой и легитимной рассылкой определяется не только общими для всех получателей признаками, но и признаками, формируемыми конкретными получателями или некоторой их группой в индивидуальном порядке. Среди причин, обуславливающих появление и широкое распространение явлений незапрашиваемой рассылки в глобальных информационных системах, следует выделить следующие категории [39]: 1) экономические и социальные причины, обуславливающие высокую привлекательность и доходность использования HP в рекламных целях. 2) технические причины, обуславливающие возможность осуществления незапрашиваемой рассылки. Основными экономическими и социальным причинами являются [5,9]: 1) низкая стоимость оборудования, программного обеспечения и канала доступа к глобальной сети, что позволяет осуществлять массовую рассылку без каких-либо серьезных экономических рисков. 2) низкая стоимость рассылок и масштаб аудитории. Затраты на рассылку одного сообщения (порядка $0,0008[40] - $0,002[31]) постоянно падают, тогда как аудитория постоянно увеличивается, что даже при малом проценте откликов (от 0,05%[41] до 0,000025%[40]) дает высокую доходность. 3) возможность широкомасштабного распространения нелегальной продукции (например, пиратское программное обеспечение, наркотические вещества, порнография и т.д.). Компания Arizona AG получила доход в $30млн, распространяя HP только одного вида [5]. Известный предприниматель Алан Ральски, владея 200 серверами электронной почты, сделал свое состояние, распространяя HP [42]. Доходы от нелегального распространения порнографии с помощью HP оцениваются порядка $3,2млрд только в США за 2002 г. (порядка 70% СНР имеют незаконное содержание) [1]. Технические причины связаны с особенностями применяющихся в системах электронной почты стандартов взаимодействия [44]. Среди них наиболее важными являются следующие [45]: 1) возможность обеспечивать анонимность отправителя при осуществлении рассылки HP [31]. 2) возможность быстрой замены собственных идентификаторов в виртуальном пространстве в случае, когда источник сообщений выявляется и блокируется. 1.1.3. Характеристика ущерба от незапрашиваемой рассылки Малая себестоимость распространения HP оборачивается серьезными потерями, связанными с необходимостью обработки HP на стороне получателя. По разным оценкам [1,5] более половины поступающих в системы электронной почты сообщений в настоящее время представляет собой СНР. Число получаемых СНР в среднем увеличивается каждый месяц на 15-20% [5]. В числе потерь, вызванных обработкой HP на принимающей стороне, можно выделить следующие составляющие [1-10]: 1) экономические потери, связанные с повышением стоимости владения системами обработки потоков сообщений электронной почты; 2) потери, вызванные снижением качества обслуживания пользователей систем электронной почты. Экономические потери вызваны увеличением стоимости систем электронной почты, что обусловлено следующими факторами: 1) увеличением количества обслуживающего систему персонала и повышение его квалификации; 2) потребностью покупки, разработки, развертывания и обслуживания специализированного программного обеспечения, обеспечивающего фильтрацию HP; 3) наращивание оборудования для хранения и обработки сообщений; 4) повышение пропускной способности и времени использования каналов передачи данных; Качество обслуживания пользователей снижается в связи со следующими факторами: 1) внедрение жестких методов фильтрации HP приводит к осуществлению блокирования некоторого числа легитимных пользовательских сообщений (в системах провайдеров Интернет блокируется в среднем порядка 17% ЛПС); 2) увеличение времени, затрачиваемого пользователями на чтение, удаление и ответы на сообщения HP, снижение производительности их труда. 3) появление риска случайного удаления обычного сообщения при ручной фильтрации сообщений. 4) пользователи с нарушением зрения, применяющие речесинтезирующие устройства для чтения сообщений, вынуждены тратить дополнительное время на прочтение СНР. В случае нарушений опорно-двигательного аппарата и применения мобильных устройств-пейджеров, получение таких сообщений может вызывать болевые реакции. 1.1.4. Анализ процесса распространения незапрашиваемой рассылки
HP активно распространяется в Интернет уже более десяти лет. Проведено огромное количество исследований этого явления (например, [1-46]), которые можно обобщить с помощью жизненного цикла СНР (см. рис. 1.2). Жизненный цикл можно описать в виде множества операций и средств, обеспечивающих перенос СНР от отправителя (РНР) к получателю.
Распространители HP используют средства создания и распространения сообщений, обеспечивающих максимальный отклик со стороны конечных получателей. Средства создания сообщений реализуют модификацию содержания распространяемых сообщений, обеспечивающих обход фильтров АСФ HP. Средства распространения обеспечивают доставку сообщений множеству получателей и сокрытие информации о действительном отправителе сообщений.
Принципы обмена информацией между агентами АСАФ HP
Архитектура АСАФ HP предполагает использование универсального механизма, позволяющего отдельным агентам обмениваться результатами фильтрации различных сообщений в каждом из них. При этом между агентами передается, во-первых, информация, идентифицирующая сообщение, во-вторых, информация о результатах определения класса этого сообщения.
Для идентификации сообщений в АСАФ HP используются два способа: 1) идентификация с помощью полного текста сообщения; 2) идентификация с помощью идентификатора сообщения (ИС). При идентификации по первому способу между агентами передается полный текст сообщения, включая заголовки и тело. Второй способ идентификации сообщений используется при взаимодействии между агентами в том случае, если в каждом из них имеется информация о запрашиваемом сообщении. Используемый в АСАФ HP идентификатор сообщений представляет собой 128-битный код, который рассчитывается с помощью хэш-функции по содержанию сообщения. Каждый из агентов при наличии полного текста сообщения может по нему рассчитать ИС. Основной спецификой, возникающей при обмене информацией о результатах определения класса сообщений, является то, что в большинстве агентов класс сообщения определяется только с некоторой уверенностью. Поэтому в АСАФ HP информация о классе сообщения содержит, во-первых, информацию о классе сообщения, во-вторых, информацию о степени уверенности агента в том, что класс сообщения определен правильно. Эта информация в АСАФ HP представляется в виде статуса сообщения (СС). Статус сообщения S определяется с помощью комбинации двух элементов: S= STX , где ST - двухсимвольный мнемонический код ST (={NA,HE,HT,HC,SC,ST,SE), Sv -целое число в интервале Sv є [-100,100], строгое описание которых приводится в табл. 4. Числовое значение представляет результат определения класса в унифицированной форме, не зависящей от применяющихся в агенте методах фильтрации. Мнемонический код разбивает диапазон числовых значений на ряд логических интервалов, представляя результат в компактной форме, и позволяет обрабатывать особые ситуации. На рис. 2.2. представлена графическая интерпретация статуса сообщения. и используются специализированные поля заголовков, расширяющие возможности стандартных заголовков. В данной работе для описания дополнительных заголовков используется формальный синтаксис расширенной формы Бакуса-Наура (Augmented Backus-Naur Form - ABNF), согласно общему определению стандарта [158], а также частным дополнениям стандарта [53]. Тело управляющего сообщения может содержать полный текст пользовательского сообщения, относительно которого выполняется запрос. Помимо стандартных обязательных полей заголовка протокола SMTP, каждое управляющее сообщение содержит поля, определяющие: агента отправителя; агента получателя; тип управляющего сообщения; параметры, описывающие взаимодействие агентов. Каждый агент в АСАФ HP при передаче управляющих сообщений идентифицируется с помощью стандартной нотации почтового ящика (mailbox), определенной в стандарте [53]. Идентификатор агента отправителя указывается в поле "From:", а идентификатор агента получателя - в поле "То:". Тип управляющего сообщения определяет характер содержания сообщения и указывается с помощью набора полей заголовка сообщения. 2.1.3. Принципы взаимодействия между равноправными агентами Взаимодействие равноправных агентов строится на основании обмена информацией в режиме "запрос-ответ". Запросы и ответы передаются в виде управляющих сообщений АСАФ HP по протоколу SMTP [52,53]. В данном разделе определяются типы передаваемых между агентами АСАФ HP информации, а также режимы обработки запросов и выдачи ответов на них в различных агентах АСАФ HP. В рамках взаимодействия равноправных агентов любой агент АСАФ HP может запросить у любого другого агента информацию следующих типов: 1) информацию по настройке подсистемы фильтрации; 2) информацию о различных характеристиках отдельных сообщений; 3) информацию о различных событиях, произошедших в агенте. С помощью информации первого типа агенты могут обмениваться данными о черных, белых и серых списках, ведущихся в различных агентах. С помощью информации второго типа агенты обмениваются следующими данными о различных сообщениях: 1) факт получения сообщения агентом; 2) дату(ы) получения сообщения; 3) статус сообщения. С помощью информации третьего типа агенты могут обмениваться данными о различных событиях, зарегистрированных в журнале подсистемы учета и регистрации. Метод обработки поступающих управляющих сообщений (в том числе способы определения статуса сообщений) определяется настройками отвечающего агента. С целью обеспечения конфиденциальности обрабатываемых сообщений, обеспечиваются только автоматические методы обработки запросов, содержащих полные тексты сообщений. Способы обработки ответов в запрашивающем агенте также произвольны, и строго не регламентируется.
Проектирование программных компонентов АСАФ HP
В данной работе для синтеза //-го и ///-его слоев используется конфигурация сети, называемая порогово-дизюнктивной, представляющая собой двухслойную сеть, первый слой которой состоит из обычных нейронов, а второй из единственного нейрона вырожденного вида, реализующего схему ИЛИ. В качестве входного сигнала для синтеза второго и третьего слоев используется [y(n), z(n)], где у(п) - полный набор бинарных векторов {-l,l}Hl, z(n) определенная на нем логическая функция, которая не может быть реализована на одном нейроне.
В основе применяемого здесь метода синтеза лежит использование понятия монотонной функции. Функция является монотонной [199] тогда и только тогда, когда в ее совершенной дизъюнктивной нормальной форме ни одна переменная не встречается одновременно и в прямом и в инверсном виде. Монотонность функции является необходимым условием ее реализуемости на одном нейроне. Как показано в [199] в пересечении простых импликантов всякой монотонной функции всегда имеется общий импликант, называемый центром тяжести. Синтез двухкаскадной сети с элементом ИЛИ на выходе состоит в выделении ряда допустимых конфигураций, таких, что все единицы логической функции "покрываются". Допустимая конфигурация есть подмножество единиц данной логической функции, которое может быть реализовано одним нейроном из входного каскада. Единицы покрыты, если не существует ни одной единицы вне допустимых конфигураций. Поиск допустимых конфигураций производится, отталкиваясь от указанного необходимого условия, связанного с существованием в таких конфигурациях центра тяжести.
Рассмотрим процедуру поиска допустимых конфигураций для случая полностью определенной функции z(n). 1. Выполнение процедуры Квайна-МакКласки [200,201] над функцией z(n), пока не получим всех ее простых импликантов 2. Находим все общие пересечения (центы тяжести) двух и более простых импликантов и объединяем в звезды те простые импликанты, которые имеют общий центр тяжести. Звездой здесь является объединение нескольких простых импликантов, имеющих общий центр тяжести. 3. Находим характеристические векторы каждой звезды и проверяем эти звезды на реализуемость на одном нейроне (с помощью минимизации функционала или по таблице пороговых функций) 4. Для каждой звезды, не реализуемой на одном нейроне находим все возможные подзвезды. При этом подзвезда рекурсивно определяется как реализуемое на одном нейроне подмножество звезды, которое не является подмножеством любой другой звезды. 5. Дополняем перечень простых импликантов реализуемыми на одном нейроне звездами и подзвездами, найденными на 3 и 4-х шагах, и отмечаем наборы, покрываемые каждой записью этого списка. 6. Выбираем наименьшее число записей, покрывающих все единицы функции z(n). Нейроны, реализующие эти записи составляют первый слой порогово-дизъюнктивной сети. Метод нахождения подзвезд заключается в следующем. 1. Определяем все импликанты, которые имеют пересечением центр тяжести рассматриваемой звезды. 2. Эти имликанты вместе с простыми имликантами звезды рассматриваются затем во всех возможных комбинациях, вычисляются их характеристические векторы и затем осуществляется их проверка на реализуемость на одном нейроне. Такая процедура должна осуществляться при начальном рассмотрении групп, покрывающих наибольшее число единиц, а затем необходимо переходить к группам, покрывающим меньшее число единиц.
Исследование методов сокращения размерности пространства признаков
В работах [202,203] автором рассматриваются вопросы, связанные с особенностями проектирования систем реального времени и разработкой аппаратно-программных комплексов данного класса.
Проектирование аппаратно-программного комплекса (АПК) АСАФ HP, производимое в данной работе, осуществляется по компонентной технологии. Вся совокупность функций АСАФ HP реализуется в виде множества законченных программных модулей (компонентов), развертываемых на одном или нескольких вычислительных комплексов.
Взаимодействие компонентов осуществляется с помощью заданного набора интерфейсов (сетевых протоколов [204], RPC [63], каналы [205] и т.д.). Компоненты АСАФ HP - независимые элементы программной структуры АСАФ HP, для которых определяются, во-первых, способы их взаимодействия, во-вторых, способы их развертывания на аппаратных узлах вычислительного комплекса.
Агенты АСАФ HP состоят из ряда взаимодействующих между собой компонентов, обеспечивающих выполнение функций данного агента. Выделение нескольких компонентов в составе агентов АСАФ HP позволяет: 1) осуществлять развертывание отдельных компонентов агента АСАФ HP в физически разделенных вычислительных системах; 2) осуществлять динамическую загрузку и выгрузку частей программных кодов (компонентов) агента в течение его жизненного цикла; 3) использовать в составе агента АСАФ HP готовые программные компоненты сторонних производителей; 4) обеспечивать совместное использование одного программного компонента несколькими агентами АСАФ HP. В соответствии с требованиями раздела 3.1 среди компонентов агента АСАФ HP целесообразно выделить следующие, наиболее крупные компоненты, в состав которых может входить множество более мелких (см. рис. 3.1 ): 1) компонент ядра агента АСАФ HP (ядро); 2) компонент взаимодействия (KB); 3) компонент доступа к данным (КДД); 4) компонент ввода и отображения данных (КВОД). Компонент ядра (ядро) обеспечивает выполнение интеллектуальных функций обработки сообщений (подсистема фильтрации, подсистема учета и регистрации, подсистема обслуживания, большая часть функций подсистемы управления). В составе данного компонента можно выделить большое число более мелких компонентов. Основной особенностью компонентов ядра является то, что они, во-первых, осуществляет интенсивные запросы к базе данных, во-вторых, реализуют сложные многоитерационные вычислительные алгоритмы. Все это заставляет размещать компоненты ядра на высокоэффективных аппаратных вычислителях, имеющих широкополосный доступ к хранилищам данных организации. Поэтому компоненты ядра следует размещать на серверах организации. Компонент взаимодействия (KB) обеспечивает выполнение функций подсистемы взаимодействия. Этот компонент является обслуживающим и выполняет только сервисные функции технической обработки потоков сообщений. Данный компонент имеет следующие особенности: 1) он выполняет только стандартные технические функции систем электронной почты, соответствующие функциям агента передачи сообщений (АПС) функциональной модели систем электронной почты; 2) функционирование этого компонента не зависит от особенностей реализации функций ядра какого-либо конкретного агента АСАФ HP. Первая особенность позволяет использовать готовые программные системы, выполняющие функции АПС, для реализации функций KB в агенте АСАФ HP. Вторая особенность позволяет разделять программный код данного компонента между несколькими агентами без каких-либо существенных изменений. Таким образом в агентах АСАФ HP в качестве KB должен использоваться один из стандартных существующих АПС, который осуществляет обслуживание одного или нескольких агентов АСАФ HP. Поскольку KB выполняет только сервисные функции обслуживания ядер агентов АСАФ HP, то представляется целесообразным размещать KB на той же вычислительной машине, что и обслуживаемые им компоненты ядер агентов АСАФ HP. Это позволит сократить нагрузку на телекоммуникационные ресурсы вычислительной сети организации, повысит надежность АСАФ HP и сократит время обработки сообщений. Компонент доступа к данным (КДД) обеспечивает доступ к средствам управления данными агента со стороны его пользователя или администратора. Здесь осуществляется преобразование данных из внутреннего формата, использующегося в агенте АСАФ HP, в некоторый набор стандартных форматов, с которыми может работать компонент ввода и отображения данных (см. ниже). Компонент доступа к данным должен обеспечивать представление данных как минимум в двух следующих основных форматах: 1) формат протокола IMAP4; 2) формат представления данных в виде страниц, записанных на языке гипертекстовой разметки текстов (HTML), передаваемых по протоколу глобальной сети Интернет HTTP. Так же как и в KB, выполнение указанных функций может быть реализовано с использованием существующих стандартных программных продуктов, реализующих указанные протоколы. Запуск КДД должен осуществляться на той же аппаратной платформе, на которой запущено ядро агента. Компонент ввода и отображения данных (КВОД) осуществляет технические функции вывода на экран данных, необходимых для взаимодействия с пользователем, а также предоставляет средства изменения имеющихся и ввода новых данных. Этот единственный компонент агента АСАФ HP, который непосредственно взаимодействует с пользователем агента АСАФ HP. Он позволяет просматривать и редактировать сообщения, обрабатываемые в агенте, а также управлять различными его настройками. Из соображений удобства для пользователя данный компонент целесообразно размещать на персональном компьютере пользователя.