Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей Мезенцева, Екатерина Михайловна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мезенцева, Екатерина Михайловна. Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей : диссертация ... кандидата технических наук : 05.12.13 / Мезенцева Екатерина Михайловна; [Место защиты: Поволж. гос. акад. телекоммуникаций и информатики].- Самара, 2013.- 145 с.: ил. РГБ ОД, 61 13-5/2467

Содержание к диссертации

Введение

Глава 1. Организация защиты сетей телекоммуникаций 15

1.1 Место сайтов в сетях телекоммуникаций 15

1.2 Причины размещения и специфика спам сообщений на сайтах 16

1.3 Способы распространения и цели размещения спама на сайтах 17

1.4 Негативное влияние размещения спам сообщений на сайтах 20

1.5 Способы защиты сайтов от спама 21

1.5.1 Законодательные меры регламентирующие защиту от спама 21

1.5.2 Технические меры защиты от спама 28

1.6 Анализ методов, моделей и существующих систем защиты сайта от спама 33

1.7 Выводы и результаты 35

Глава 2. Разработка концепции фильтрации спам сообщений в компьютерных сетях 37

2.1 Задача классификации сообщений 37

2.1.1 Способы представления сообщений для задачи классификации 39

2.1.2 Анализ алгоритмов классификации сообщений 41

2.2 Процесс фильтрации 52

2.2.1 Подготовка сообщения для обеспечения наилучшей фильтрации 53

2.3 Процесс принятия решения 59

2.3.1 Вычисление объединенных вероятностей признаков 61

2.3.2 Модуль принятия решения на основе теоремы Байеса 65

2.3.3 Модуль принятия решения на основе метода Фишера 66

2.4 Критерии оптимальности при классификации сообщений на основе статистических методов 71

2.5 Критерии оценки качества работы обученного спам-фильтра 75

2.6 Выводы и результаты 82

Глава 3. Программная реализация спам-фильтра для веб сайтов 83

3.1 Трехуровневая архитектура клиент-серверного приложения для фильтрации спама 83

3.2 Схема фильтрации спама на сайтах участниках системы 85

3.3 Концепция интеграции системы фильтрации с системой сайта 88

3.3.1 Описание связи фильтра с форумом 88

3.3.2 Структура базы данных форума 89

3.3.3 Изменения в исходном коде форума. Функция добавления нового сообщения 92

3.3.4 Изменения в исходном коде форума. Редактирование базы данных 93

3.3.5 Изменения в исходном коде форума. Модификация отображения сообщений 95

3.3.6 Интерфейс администратора форума 97

3.4 Процесс обучения 99

3.4.1 Алгоритм дообучения фильтра 101

3.4.2 Тестирование этапа обучения и работы фильтра на сообщение форума 104

3.5 Выводы и результаты 107

Глава 4. Исследование качества классификации сообщений и апробация системы фильтрации спама 109

4.1 Критерии при оценке работы алгоритмов фильтрации спама 109

4.2 Тестирование модуля распределения хи квадрат 110

4.3 Алгоритм обучения фильтра на тестовой выборке сообщений 111

4.4 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на тестовой выборке сообщений 113

4.5 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на дампе базы данных форума СГАУ 116

4.6 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на форуме ПГУТИ 122

4.7 Экспериментальное исследование степени корректности фильтрации сообщений, совмещенным фильтром 124

4.7 Оценка производительности 126

4.8 Выводы и результаты 128

Заключение 129

Литература 131

Приложение 1 Свидетельства о государственной регистрации программы для ЭВМ 139

Приложение 2 Акты внедрения 141

Введение к работе

Актуальность темы. Задача фильтрации спама в глобальных информационных сетях в настоящее время является весьма актуальной. Это связано с бурным развитием социального общения с помощью сетей телекоммуникаций. Спам-сообщения резко уменьшают полезную компоненту трафика в сетях, приводят к перегрузкам хостинговых компьютеров, снижают доступность и целостность информации. Слабое развитие законодательной базы по пресечению спама вызывает необходимость разработки научных методов анализа спама, инструментальных средств выявления и фильтрации нежелательных сообщений. Особое внимание следует уделять спаму в интерактивных частях сайтов в сети Интернет.

В настоящее время, нет универсальных решений, предназначенных для фильтрации спама в интерактивных разделах сайтов в сети Интернет. Используется небольшое количество инструментов, препятствующих автоматическому размещению сообщений на сайтах. Например, плагины для систем управления контентом, являются узкоспециализированными решениями. Широко распространенный и полностью автоматизированный публичный тест Тьюринга для идентификации компьютеров (САРТСНА) представляет собой ручной метод защиты сайтов от спама.

Другие методы фильтрации спама, которые можно использовать на интерактивных сайтах, известны по опыту фильтрации в электронной почте. Это - построение черных и серых списков, контент-анализ текста, контроль дубликатов, анализ заголовков пользовательских сообщений. Однако наиболее эффективными являются многокомпонентные антиспам-системы, сочетающие в себе несколько методов детектирования спама.

С 2000-х годов ведутся активные исследования в области разработки программных систем обнаружения почтового спама. Вопросу противодействия спаму посвящены работы Пола Греема (Paul Graham), Дж. Здзиарски (Jonathan Zdziarski), Дж. Грэм-Камминга (John Graham-Cumming), У. Иеразуниса (William S. Yerazunis), Г. Робинсона (Gary Robinson), И. С. Ашманова и др. Все разработанные алгоритмы и системы используют базовые принципы фильтрации электронной почты на основе классификации текстовой информации, содержащейся в письме.

В связи с этим, развитие многокомпонентных антиспамовых систем для фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей является актуальной задачей и представляет научный и практический интерес в области защиты информации в сетях телекоммуникаций в части обеспечения доступности и целостности данных.

Законодательные меры регламентирующие защиту от спама

Для эффективной борьбы со спамом, безусловно, требуется правовая база -иными словами, нужны законы, регулирующие правомерность распространения информации на сайтах и предусматривающие ответственность за не запрошенные рассылки.

Законодательство Российской Федерации содержит ряд норм, прямо или косвенно направленных на противодействие распространению спама. К соответствующим законодательным актам следует отнести:

- Федеральный закон от 7 июля 2003 г. № 126-ФЗ «О связи»;

- Федеральный закон от 13 марта 2006 г. № 38-ФЗ «О рекламе»;

- Федеральный закон от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации»;

- Федеральный закон от 27 июля 2006 г. № 152-ФЗ «О персональных данных»;

- Постановление Правительства Российской Федерации от 10 сентября 2007 г. № 575 «Об утверждении Правил оказания телематических услуг связи» [70].

- 28 июля 2012 года подписан Президентом РФ Владимиром Путиным закон и принят как Федеральный закон № 139-ФЗ «О внесении изменений в Федеральный закон „О защите детей от информации, причиняющей вред их здоровью и развитию" и отдельные законодательные акты Российской Федерации».

-Законопроект №292521-6 - «О внесении изменений в отдельные законодательные акты Российской Федерации по вопросам защиты интеллектуальных прав в информационно-телекоммуникационных сетях». Федеральный закон «О связи»

Согласно пункту 1 статьи 62 Федерального закона от 7 июля 2003 г. № 126-ФЗ «О связи», Пользователь услугами связи вправе передать сообщение связи, получить сообщение электросвязи, почтовое отправление или почтовый перевод денежных средств либо отказаться от их получения, если иное не предусмотрено федеральными законами.

В то же время российское законодательство не предусматривает административной или уголовной ответственности за нарушение указанного права. Таким образом, соответствующую норму ФЗ «О связи» можно считать бланкетной [70].

Федеральный закон «О рекламе»

Согласно пункту 1 статьи 18 Федерального закона от 13 марта 2006 г. № 38-ФЗ «О рекламе», Распространение рекламы по сетям электросвязи, в том числе посредством использования телефонной, факсимильной, подвижной радиотелефонной связи, допускается только при условии предварительного согласия абонента или адресата на получение рекламы. При этом реклама признается распространенной без предварительного согласия абонента или адресата, если распространитель рекламы не докажет, что такое согласие было получено. Он обязан немедленно прекратить распространение рекламы в адрес лица, обратившегося к нему с таким требованием.

В то же время ФЗ «О рекламе» не устанавливает механизма контроля над реализацией этой нормы. Очевидно, что расследование случаев нарушения статьи 18 ФЗ «О рекламе» потребует вмешательства в сферу связи, контроль над которой возложен на Министерство связи и массовых коммуникаций и подведомственные ему органы федеральной власти, а не Федеральную антимонопольную службу (ФАС), в компетенции которой находится контроль над соблюдением законодательства о рекламе.

Одновременно, расследование случаев распространения спама может потребовать совершения действий, приводящих к ограничению тайны корреспонденции, что, согласно российскому законодательству, возможно только по решению суда и в ходе оперативных расследований правонарушений в сфере рекламы, не входят в компетенцию органов внутренних дел.

Анализ существующей практики рассмотрения ФАС заявлений, касающихся случаев рассылки спама, показал, что служба часто не имеет возможности в рамках своих полномочий собрать юридически-значимые доказательства вины лиц, рассылающих спам, а также не имеет формальных оснований для передачи материалов в органы внутренних дел, которые могли бы провести соответствующие оперативно-розыскные мероприятия.

Так, не было удовлетворено ни одно из соответствующих заявлений Рабочей группы Проекта «АнтиСпам», даже в тех случаях, когда лицо, подозреваемое в рассылке спама, не отрицало совершения им указанных действий [70].

Федеральный закон «Об информации, информационных технологиях и о защите информации»

Согласно пункту 3 статьи 10 Федерального закона от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации», при использовании для распространения информации средств, позволяющих определять получателей информации, в том числе почтовых отправлений и электронных сообщений, лицо, распространяющее информацию, обязано обеспечить получателю возможность отказа от такой информации.

Очевидно, что эта норма весьма расплывчата и не конкретизирует, в частности:

- что подразумевается под термином определять получателей информации;

- каким именно образом распространитель информации обязан обеспечить возможность отказа от ее получения, и обязан ли он сделать это бесплатно.

Кроме того, как и в случае с ФЗ «О связи», законодательством не устанавливается административная или уголовная ответственность за нарушение данной нормы.

Более того, пункт 3 статьи 17 того же закона освобождает спамеров от гражданско-правовой ответственности. Согласно этому пункту, в случае, если распространение определенной информации ограничивается или запрещается федеральными законами, гражданско-правовую ответственность за распространение такой информации не несет лицо, оказывающее услуги:...

1) либо по передаче информации, предоставленной другим лицом, при условии ее передачи без изменений и исправлений;

Предположительно весь пункт 3 статьи 17 ФЗ «Об информации, информационных технологиях и о защите информации» был направлен на «выведение из-под удара» поставщиков услуг по доступу к сети Интернет, размещению веб-сайтов (хостеров) и т.п. То есть законопослушных третьих лиц, услугами которых могли воспользоваться правонарушители. Спамеры также, в общем случае, лишь оказывают услуги по передаче информации, предоставляемой другим лицом, передавая ее без изменений и исправлений.

Пока не было известно о случаях правоприменения ФЗ «Об информации, информационных технологиях и о защите информации» в части противодействия распространению спама [70].

ФЗ «О персональных данных»

Согласно пункту 1 статьи 15 этого Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных». Обработка персональных данных в целях продвижения товаров, работ, услуг на рынке, путем осуществления прямых контактов с потенциальным потребителем, с помощью средств связи, а также в целях политической агитации, допускается только при условии предварительного согласия субъекта персональных данных. Указанная обработка персональных данных признается осуществляемой без предварительного согласия субъекта персональных данных, если оператор не докажет, что такое согласие было получено.

Согласно пункту 2 указанной статьи, оператор обязан немедленно прекратить по требованию субъекта персональных данных обработку его персональных данных, указанную в части 1 настоящей статьи.

Согласно статье 13.11 кодекса об административных правонарушениях. Нарушение установленного законом порядка сбора, хранения, использования или распространения информации о гражданах (персональных данных) - влечет предупреждение или наложение административного штрафа на граждан в размере от трехсот до пятисот рублей; на должностных лиц - от пятисот до одной тысячи рублей; на юридических лиц - от пяти тысяч до десяти тысяч рублей.

Подготовка сообщения для обеспечения наилучшей фильтрации

Этап подготовки сообщения состоит из следующих модулей:

- предобработки текста;

-выделения признаков сообщения, который в свою очередь состоит из модулей разбиения текста на отдельные слова и словосочетания.

Схема основной программы этапа подготовки сообщения для обеспечения наилучшей фильтрации представлена на рисунке 2.3.

Дадим краткое описание методов данной схемы:

- tokenize($text, $encoding) - удаляет HTMLHTML-разметку, приводит слова к верхнему регистру, разбивает текст на отдельные слова, подключает морфологический словарь, приводит слова к нормальной форме;

- excludeTokens(array $tokens, $encoding) - работает с исключаемыми словами (извлекает из БД массив исключаемых слов, удаляет из массива слов текста исключаемые слова и слова длиной 3 символа и менее);

- contractDoubles($tokens) - производит подсчет слов в тексте, формирует массив пар слово/количество в тексте;

- createOSB($tokens) - реализует алгоритм разбиения на словосочетания (биграмм), который описан ниже. Модуль предобработки текста.

В связи с тем, что сообщение обычно присылается в HTML-формате, производится предобработка текста, то есть удаление всех HTML-тегов, в результате чего остается «чистый» текст, пригодный для анализа (см. рис. 2.4).

Для снижения вычислительной нагрузки принято решение не учитывать при анализе слова, имеющие вероятность 50 %, т.к. такие слова не оказывают влияния на конечный результат. Это в основном общеупотребительные, не несущие смысла слова: предлоги, союзы, частицы, местоимения. Алгоритм удаления исключаемых слов приведен на рисунке 2.5.

Дадим краткое описание данной схемы:

1. Извлекаем из базы массив исключаемых слов;

2. Удаляем из массива слов текста полученные на предыдущем шаге исключаемые слова и слова длиной 3 символа и менее.

Модули выделения признаков сообщения

Модули выделения признаков сообщения представлены двумя модулями:

- Модулем разбиения на отдельные слова. Основой метода статистического анализа сообщения является разбиение текста на отдельные слова с учетом морфологии, т.е. слова в разных словоформах определены как идентичные. Например, слова различных падежей приводятся к именительному (в основную форму). Таким образом, если в тексте встречаются слова в разных формах, они распознаются фильтром не как отдельные слова, а как одно слово.

- Модулем разбиения на словосочетания. В дополнение к разбивке на отдельные слова, в фильтре реализован алгоритм разбиения на словосочетания (биграммы) [6]. Данный метод выделяет редко встречающиеся словосочетания в тексте, для этого последнее слово в сообщении сопоставляется с каждым словом.

Модуль разбиения на отдельные слова

Текст разбивается на отдельные слова - признаки сообщения. При выделении признаков сообщения, необходимо учесть морфологию, то есть привести слова к базовой форме, что позволит идентифицировать повторяющиеся слова в разных формах (падежах, склонениях, числах). Для поиска нормальной формы каждого слова используются специализированные словари. Реализация данного алгоритма приведена на рисунке 2.6.

Морфологические модули группы разработчиков [66] призваны решить указанные выше проблемы, обеспечив научные коллективы и вообще любых возможных энтузиастов-экспериментаторов системой морфологического анализа, которая:

1. уже обладает словарями достаточно большого объема, пополняется добровольцами, поэтому не должна устаревать в будущем;

2. при поиске в словаре использует конечный автомат, что позволяет находить слово за линейное от его длины время;

3. написана на высокоуровневом языке программирования С ++, компилируется под Linux и под Windows;

4. обладает развитой системой добавления новых слов;

5. имеет в распоряжении русский, немецкий и английский лексиконы;

6. распространяется бесплатно под лицензией LGPL в исходных кодах.

Все указанные выше свойства по отдельности можно встретить в существующих модулях морфологического анализа, однако, именно данное сочетание свойств составляет новизну и актуальность представленной системы. На основе данного подхода был разработан модуль на сценарном кроссплатформенном языке РНР, который применяется в нашей системе фильтрации спама.

Алгоритм дообучения фильтра

Дообучение фильтра реализовано функцией train(message, category_id). Происходит в том случае, когда фильтр не может принять решения по сообщению, или решение принято, но оно заведомо ложное. В этом случае, администратор сайта проводит обучение фильтра на сообщении message, относящемся к категории category_id. Где message - текст сообщения, а category_id - это категория сообщения (1 - спам, 2 - нужные). Так же в процессе эксплуатации, в случае ухудшения фильтрации сообщений, администратор может проводить дообучение системы. Для этого неверно классифицируемые данные помечаются как спам или легальные сообщения. Во время этого процесса используются только новые (ранее не участвующие в обучении сообщения) примеры тренировочного набора, поэтому дообучение проходит намного быстрее первоначального обучения на тестовой выборке. Схема работы приведена на рисунке 3.11.

Дадим краткое описание данной схемы:

1. Текст разбивается на признаки;

2. Исключаются общие слова и слова менее 2 символов;

3. Применяется алгоритм OSB, реализация описана во 2 главе;

4. Осуществляется подсчет встречаемости признаков;

5. Происходит сохранение информации о категориях в базе данных фильтра. Если сообщение помечено как спам (category_id == 1), то информация обновляется и сообщению присваивается категория 1, в противном случае, если сообщение помечено как не спам (category_id = 2), то информация обновляется и сообщению присваивается категория 2;

6. Происходит вычисление априорной вероятности признаков.

Оценка производительности

Для оценки производительности предложенных решений была проведена серия экспериментов. Стояла задача получить данные о производительности, во-первых, для алгоритма классификации в отдельности и, во-вторых, для всей экспериментальной системы фильтрации сообщений.

Для решения поставленной задачи был сформирован тестовый поток из 200 сообщений, средний размер одного сообщения 1 Кб.

Тест на производительность осуществлялся на выделенном сервере, с использованием следующего оборудования:

CPU: AMD ХР 3000+;

RAM: 1 GB DDR;

HDD: 2 x 160 GB HDD (Software RAID1);

Port: lOOmbit;

Операционная система: Centos 5 х86_64.

По результатам тестирования, скорость работы алгоритмов классификации для одного сообщения в среднем составила:

Байес: 0,000122s;

Фишер: 0,000655s;

Совмещенный: 0,000857s.

Производительность серверной версии системы фильтрации сообщений с учетом обмена данными между сервером предприятия и сервером фильтрации, обращений к базам данных и работы вспомогательных функций составила 17 сообщений в секунду, при совместной работе алгоритмов, что удовлетворяет требованиям большинства потенциальных пользователей системы.

По результатам тестирования можно сделать вывод, что скорость математических вычислений в целом очень незначительно влияет на производительность системы. Таким образом, с точки зрения производительности мы можем выбрать любой из предложенных алгоритмов классификации. Производительность же системы фильтрации сообщений в целом может быть увеличена путем использования более производительных серверных систем и оптимизации вспомогательных алгоритмов, что не затронет клиентскую сторону.

Похожие диссертации на Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей