Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модель и метод градуированной фильтрации "спама" Семенова Мария Александровна

Модель и метод градуированной фильтрации
<
Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации Модель и метод градуированной фильтрации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Семенова Мария Александровна. Модель и метод градуированной фильтрации "спама" : диссертация ... кандидата технических наук : 05.13.19 / Семенова Мария Александровна; [Место защиты: С.-Петерб. гос. ун-т информац. технологий, механики и оптики].- Санкт-Петербург, 2009.- 207 с.: ил. РГБ ОД, 61 10-5/907

Содержание к диссертации

Введение

Глава 1. Актуальность и постановка задачи 11

1.1. Системный подход к обеспечению фильтрации «спама» 11

1.1.1. Наиболее распространенные виды «спама» 13

1.1.2. Способы распространения «спама» 15

1.1.3. Причины возникновения почтового «спама» 18

1.1.4. Причиняемый вред 20

1.2. Методы борьбы с нежелательной электронной корреспонденцией 21

1.2.1. «Антиспамовые» фильтры в борьбе со «спамом» 23

1.2.2. Автоматизированная фильтрация в борьбе с нежелательной корреспонденцией 26

1.3. Методы автоматизированной фильтрации 27

1.3.1. Алгоритмы фильтрации на основе содержания письма 28

1.3.2. Соотношение полной вероятности и соотношение Байеса 31

1.3.3. Байесовская классификация 32

Выводы по первой главе 34

Глава 2. Модель и метод градации сообщений для фильтрации «спама» 36

2.1. Формулировка исходных положений метода градуированной фильтрации «спама» 36

2.2. Модель градуированной фильтрации «спама» 40

2.2.1. Постановка задачи классификации писем 41

2.2.2. Принцип работы классификатора 42

2.2.3. Правила используемые при фильтрации сообщений 46

2.2.4. Автоматизированная обработка письма 49

2.3. Обоснование использования модели и метода градуированной фильтрации «спама» 51

2.3.1. Анализ оценок нахождения «спама» различными алгоритмами с учетом эвристического коэффициента 53

2.3.2. Анализ оценок нахождения «спама» различными алгоритмами с учетом использования различных способов расчета коэффициентов «спамерности» 57

Выводы по второй главе 60

Глава 3. Имитационный технологический комплекс поддержки модели и метода градуированной фильтрации «спама» 63

3.1. Инструментально-технологический комплекс «контр-спам» 64

3.1.1. Структура и алгоритмы 64

3.1.2. Функциональные возможности работы инструментально-технологического комплекса «контр-спам», созданного на базе метода градуированной фильтрации «спама» 75

3.2. Механизм управления автоматизированной системой фильтрации «спама» 80

3.2.1. Механизм управления «обучением» частотных словарей 82

3.2.2. Механизм управления фильтрацией входящего потока сообщений 85

3.2.3. Механизм управления корректировкой частотных словарей 87

Выводы по третьей главе 88

Глава 4. Результаты экспериментального использования модели и метода градуированной фильтрации «спама» 90

4.1. Исследование динамики изменения значений величин в частотных словарях инструментально-технологического комплекса «контр-спам» 91

4.1.1. Исследование изменения значений величин в частотных словарях с одинаковым количеством писем выбранных для заполнения словарей 91

4.1.2. Исследование изменения значений величин в частотных словарях с преобладанием количества писем выбранных для заполнения частотного словаря «спам» 94

4.1.3. Исследование изменения значений величин в частотных словарях с преобладанием количества писем выбранных для заполнения частотного словаря «не-спам» 96

4.1.4. Анализ результатов исследования динамики изменения значений величин в частотных словарях 99

4.2. Исследование степени корректной фильтрации входящего потока в инструментально-технологическом комплексе «контр-спам» 99

4.2.1. Исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова 101

4.2.2. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова 109

4.2.3. Исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма 109

4.2.4. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма 117

4.2.5. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» 118

Выводы по четвертой главе 119

Заключение 121

Введение к работе

Распространение в Интернете писем, нежелательных для пользователя

(т.е. «спама»), приняло угрожающий характер и начало серьезно мешать работе этой сети. В среднем прием «спама» достигает до 100 писем в день. Ситуация усугубляется тем, что помимо «спама» как такового, т.е. содержащего обычную рекламу, на e-mail еще приходят и вложения с вредоносным кодом (вирусы, «Трояны» и т.д.). Основной способ заработать на «спаме» — это продавать программы, рассылающие «спам», или писать руководство по «спаму».

Одним из первых проявлений «спама» было письмо, озаглавленное «Make money fast» от Давида Родса, которое пользователь отправлял своим знакомым, с предложением разослать его дальше, что позволило Д. Родсу стать миллионером, получая каждый раз за это 100,00$ [3].

Чуть позже «спаммеры» переключились и на e-mail (электронную почту). Составив списки из миллионов адресов, «спаммеры» рассылают всевозможную рекламу. В последнее время, впрочем, основным продуктом рекламы являются программы для рассылки «спама». Купив такую программу, желающие могут разослать по 90 миллионам адресов предложение купить у них какой-нибудь товар. В большинстве случаев, этим товаром оказывается опять программа для «спама».

Сегодня «спаммеров» в нашей стране привлекают к ответственности только за нарушение статей:

ст. 18 «Закона о рекламе» [3, 4];

п. 1 ст. 15 «О персональных данных» [5],

но наказание по этим статьям незначительные, суммы штрафов по сравнению с доходом от рассылок невелики.

В настоящее время создание модели фильтрации «спама», которая позволила бы снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Проектировать модель фильтрации

«спама», которая позволила бы достичь минимизации ошибок, непросто, хотя в этом случае можно положиться на большой объем академических исследований.

Итак, центральная технология для фильтрации сообщения - правильная оценка количества слов, по которым необходимо производить дальнейшие расчеты «спамерности» поступившего сообщения. В зависимости от того, какие данные, содержатся по данным словам в частотных словарях, будет зависеть и результат фильтрации, т.е. к какой категории следует отнести письмо.

В настоящее время не существует ни одного современного фильтра, удовлетворяющего представленным критериям более чем на 80%.

Поэтому, в данной работе предлагается прогрессивные модель и метод градуированной фильтрации «спама», что является актуальной проблематикой и представляет научный и практический интерес.

Значимость и актуальность предопределили направление исследования, цели и задачи работы.

Цель и задачи исследования

Цель исследования состоит в разработке модели и метода градуированной фильтрации «спама» для улучшения качества и увеличения достоверности фильтрации нежелательной корреспонденции.

Данные исследования могут использоваться в развитие Руководящего документа Гостехкомиссии России «Средства вычислительной техники. Межсетевые экраны. Защита от несанкционированного доступа. Показатели защищенности от несанкционированного доступа к информации» 1997г.

Поставленная цель исследования определяет необходимость решений следующих основных задач:

проведение анализа предметной области для установления существующих и разрабатываемых подходов к вопросу «антиспамовой» защиты;

определение критериев качественного функционирования системы фильтрации нежелательной корреспонденции;

создание модели и метода фильтрации нежелательной корреспонденции, которые удовлетворят выбранным критериям;

создание инструментально-технологического комплекса, предоставляющего возможность использования предложенного метода фильтрации «спама»;

проведение исследования экспериментального использования предложенных модели и метода градуированной фильтрации «спама».

В соответствии с целями и задачами диссертационного исследования определены его предмет и объект.

Предметом исследования диссертационной работы является комплекс вопросов, связанных с разработкой модели и метода фильтрации нежелательной корреспонденции, а также оценка использования данных модели и метода. В качестве объекта исследования выступают современные технологии фильтрации «спама».

При решении поставленных задач использовалось математическое соотношение полной вероятности.

Методологическая основа исследования

Методологической основой исследования являются труды отечественных ученых и специалистов по проблемам национальной, экономической и информационной безопасности, руководящие документы Гостехкомиссии России, законодательные акты Российской Федерации, энциклопедическая и справочная литература, материалы периодической

печати, а также опыт организации работы по обеспечению «антиспамовой» защиты.

Научная новизна и теоретическая значимость

Научная новизна и теоретическая значимость работы определяются авторской разработкой модели и метода градуированной фильтрации нежелательной корреспонденции и заключаются в следующем:

  1. Определение критериев качественного функционирования автоматизированной системы фильтрации «спама»;

  1. Разработка новой модели градуированной фильтрации нежелательной корреспонденции («спама»);

  2. Разработка нового метода градуированной фильтрации нежелательной корреспонденции («спама»), уменьшающего количество ложных тревог и пропуска «спама» и повышающего качество оценки данных, в отличие от известных подходов, за счет учета следующих параметров:

- количества писем, в которых встречались слова определенной
категории;

частоты использования слов в письмах определенной категории;

использования слов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе.

4. Разработка нового способа нахождения эвристического коэффициента
(основанного на количестве слов для анализа письма) и оценки
нахождения «спама» с учетом нового расчета коэффициентов
«спамерности».

Теоретическая значимость предлагаемого в работе подхода заключается в возможности оценки нахождения «спама» с учетом эвристического коэффициента (количество слов для оценки письма) и оценки нахождения «спама» с учетом расчета коэффициентов «спамерности».

Практическая ценность работы состоит в том, что разработанные модель и метод градуированной фильтрации «спама» позволяет оценить уровень защиты от «спама», что было подтверждено проведенными исследованиями и практическими применениями полученных результатов в рамках работ на трех различных серверах. Практическая ценность также определяет возможность использования разработанного инструментально-технологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и одобренного организациями и пользователями почтовых систем.

Материалы диссертации могут быть использованы при разработке методических материалов для учебного процесса в вузах соответствующего профиля. Основные из них могут быть применены в лекционных курсах «Защита информации и Интернет», «Антиспамовая защита».

По материалам диссертации опубликованы работы, представленные в списке публикаций.

Научные положения диссертации, выносимые на защиту:

  1. Модель градуированной фильтрации нежелательной корреспонденции («спама»);

  2. Метод градуированной фильтрации «спама» отличающийся от существующих методов новым способом нахождения количества слов для оценки письма и улученным способом вычисления коэффициента «спамерности»;

  3. Критерии качественного функционирования системы фильтрации нежелательной корреспонденции;

  4. Результаты сравнительного анализа использования модели и метода градуированной фильтрации «спама».

Диссертация состоит из введения, четырех глав, заключения и списка литературы, списка публикаций, приложений. Материал изложен на 132 страницах машинописного текста, содержит 36 рисунков и 10 таблиц, список литературы состоит из 59 наименований.

В первой главе представлен аналитический обзор существующих алгоритмов фильтрования нежелательной корреспонденции, используемых при фильтрации «спама», выявлены их достоинства и недостатки.

Во второй главе представлена авторская модель и метод градуированной фильтрации «спама». Произведены необходимые математические исследования и продемонстрирована научная обоснованность модели и метода.

В третьей главе приведен имитационно-технологический комплекс поддержки метода градуированной фильтрации «спама». В соответствии с выполняемыми задачами такой комплекс реализован в виде автоматизированной системы фильтрации нежелательной корреспонденции «контр-спам».

В четвертой главе представлены результаты экспериментального использования модели и метода градуированной фильтрации «спама». Показано, что полученные результаты позволили продемонстрировать состоятельность метода и применимость его в инструментально-технологическом комплексе «контр-спам».

В заключение диссертации изложены основные выводы, обобщения и предложения, вытекающие из логики и результатов исследования.

Методы борьбы с нежелательной электронной корреспонденцией

«Спам» (массовые анонимные рекламные рассылки по электронной почте) в наше время стал настоящей бедой электронной почты. Очень часто переходя по ссылкам в Интернете можно встретить предложения подобного характера «Хотите, чтобы о вас узнало большое количество людей, но при этом не затратить много денег на рекламу? Думаете, это невозможно? Ошибаетесь. Современные технологии позволяют распространить любую информацию посредством Интернета, которая достигнет сотни адресатов в считанные минуты. Вы можете выбрать необходимый регион и статус получателя «спама» рассылки (частное или юридическое лицо), на которых нацелена ваша реклама. Наша обширная электронная база адресов и технические возможности позволяют осуществлять e-mail рассылки на необычайно оперативном и качественном уровне. Рассылка писем, содержащих сведения о ваших товарах и услугах, позволит моментально донести ваше коммерческое предложение до огромной аудитории и привлечь большое число новых клиентов». Для борьбы с получаемой информацией от подобной деятельности (почтовой рассылки) далее рассматриваются методы борьбы с нежелательной электронной корреспонденцией.

Сейчас уже, наверное, не осталось пользователей систем электронной почты, которые ни разу не сталкивались с проблемой «спама». Большинство знакомы с ней не понаслышке. Слово «спам» стало нарицательным, им стали называть все, что навязывалось вопреки желанию, в частности различные письма, открытки, проспекты и прочую макулатуру рекламного характера, которая приходила по почте. Потом этим термином стали характеризовать ненужную рекламную корреспонденцию, рассылаемую по электронной почте.

Невероятная живучесть «спама» обусловлена практически нулевой стоимостью его рассылки. Ведь для ведения «спам»-рассылок только и требуется, что компьютер и доступ в Интернет. Одному человеку вполне по силам ежедневно рассылать до нескольких миллионов писем. Все затраты на рассылку рекламы в итоге ложатся на ее получателей. Именно в этом главное отличие «спама» от обычной почтовой рекламы.

Далее рассмотрим, откуда берется «спам» и как с ним бороться. «Спам» приходит потому, что адрес получателя каким-либо образом стал известен «спаммерам». Это может произойти, в частности, по нижеследующим причинам. Владелец почтового ящика сам где-то указал его в открытом незащищённом виде, чаще всего в гостевой книге, форуме, личной карточке и т. д., и его собрал специальный робот, сканирующий сайты. Адрес почтового ящика представляет собой неуникальное слово, например, распространённое имя или название. У «спаммеров» есть специальные словари, включающие в себя простые слова, имена людей, названия географических объектов и некоторые наиболее популярные сочетания сетевого сленга. Комбинируя этот словарь и перечень доменных имён (открыто публикующийся), «спаммеры» получают список адресов для рассылки. Компьютер человека, с которым переписывался владелец данного ящика, был заражён «троянской» программой, которая незаметно отослала записи из адресной книги его почтовой программы «спаммеру». Список клиентов какой-либо интернет-компании был продан «спаммерам» её сотрудником, возможно бывшим. Адрес был раскрыт в результате технического сбоя. «Спаммеру» эти рассылки практически ничего не стоят, зато дорого обходятся получателю «спама», которому приходится оплачивать своему провайдеру время и трафик, затраченное на получение непрошеной корреспонденции с почтового сервера. Провайдерам, безусловно, «спам» приносит неудобства вследствие повышения нагрузки на каналы (отчасти это окупается повышением оплаты, вносимой пользователями). В силу массового характера почтовых рассылок, последние затрудняют работу информационных систем и ресурсов, создавая для них бесполезную нагрузку [21].

Пользователи сети, кроме того, вынуждены ежедневно тратить время на обработку бесполезных для них рекламных сообщений. Для того чтобы сократить это время, они используют «противоспамные» фильтры, которые могут стереть и важное сообщение, сочтя его за «спам». Впрочем, и человек, вынужденный просматривать десятки рекламных сообщений в день, тоже легко может пропустить среди них нужное.

«Спам», как уже упоминалось ранее, может выступать переносчиком «троянских» программ и компьютерных вирусов — злоумышленник делает рассылку этих программ на определенный диапазон адресов (принадлежащих пользователям определенной компьютерной сети) с целью получения доступа к компьютерным системам, выведения их из строя или получения конфиденциальных данных [22]. Практически, это происходит довольно редко, чаще вирусные программы распространяются самостоятельно, а такое распространение, как было отмечено выше, обычно не относят к «спаму».

Обоснование использования модели и метода градуированной фильтрации «спама»

Таким образом, прежде чем составлять частотные словари необходимо достаточно тщательно проанализировать содержание письма. На уровне теоретической проблемы задача сводится к созданию нескольких вариантов одного и того же рекламного текста, которые будут удовлетворять нижеследующим условиям. 1. Программа фильтрации будет воспринимать эти варианты текста как: — разные, — не связанные с рекламой. 2. Человек, читающий письмо, будет воспринимать те же самые варианты текста как: — одинаковые, — очевидную рекламу. Данная диссертационная работа призвана продемонстрировать новую модель, реализованную в методе фильтрации рекламных писем (нежелательной корреспонденции), используя достоинства существующей реализации методов, устраняя их недостатки, внедряя новые качества. Поскольку рекламные письма, как правило, сильно отличаются от обычной корреспонденции, распространённым методом борьбы с ними стало отсеивание их из входящего потока почты. Этот метод, метод градуированной фильтрации от нежелательной корреспонденции, удовлетворяет всем критериям представленных ранее, которые были получены в ходе анализа исследования настоящего состояния отрасли науки. Актуальность создания модели и метода обусловлена важностью вопросов информационной безопасности в Internet, которые остаются на сегодняшний момент одними их самых актуальных [43]. В современных организациях «антиспамовая» защита выступает неотъемлемой частью систем информационной безопасности. Также метод предусматривает оценку защищенности системы в целом. Метод не может обеспечить абсолютную защиту от «спама», но обладает технологиями, позволяющими свести риск к минимуму. Данный метод фильтрации позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих», так и «хороших» фильтров. Отличия статистической технологии фильтрации от технологии фильтрации на основе признаков: Особенностью статистической технологии является возможность индивидуальной автоматизированной настройки фильтра, что является важным преимуществом, поскольку разные люди или же компании (если фильтр устанавливается на корпоративном почтовом сервере) используют в электронной переписке разную лексику. Настройка фильтра производится по результатам статистического анализа имеющегося архива электронной почты или выборки, полученной за определенный период времени [44]. Такой анализ дает возможность накопить достаточно информации для эффективной фильтрации электронной почты. Результатом оценки является так называемый «вес» письма. При использовании данного метода «вес» письма вычисляется на основе реальных подборок писем.

Статистика архива позволяет автоматически анализировать почтовый поток и периодически корректировать работу уже созданного фильтра. Этот факт позволяет назвать данную систему самообучающейся. Благодаря этому свойству системы практически исключены ошибочные срабатывания фильтра и, следовательно, потери важной информации. Кроме того, автоматизированная самокорректировка значительно облегчает задачу администратора системы по ее контролю и настройке и сокращает время на ее обслуживание.

Статистическая технология является возможностью индивидуальной автоматизированной настройки фильтра, носит в модели усиливающий характер, то есть обеспечивает дополнительные гарантии. Сам метод фильтрации опирается на алгоритм по соотношению Байеса для фильтрации «спама», но с подстановкой новых вероятностей нахождения «спама» в письме. По имеющимся оценкам, этот метод борьбы со «спамом» (алгоритм по соотношению Байеса) является весьма эффективным.

Практическая ценность метода наследования заключается в возможности внедрения в существующие автоматизированные системы и простоты реализации в аппаратных решениях.

На практике одним из важнейших этапов анализа результатов эксперимента является исследование зависимостей между ключевыми параметрами. Визуальное исследование степени зависимости параметров друг от друга будут продемонстрированы ниже.

Каждому слову, встречающемуся в электронной переписке присваивается два значения: вероятность его наличия в «спаме» и вероятность его присутствия в письмах, разрешенных для прохождения. Баланс этих двух значений и определяет вероятность того, что письмо, в котором встречаются данные слова, является «спамом».

Для наглядности изобразим графики определения «спама» с учетом эвристического коэффициента по алгоритму Байеса, по алгоритму Пола Грэма (использующий для анализа сообщений 15 слов), по алгоритму Бартона (использующий для анализа сообщений 27 слов) и по методу градуированной фильтрации «спама» (использующий для анализа сообщений среднее количество слов, для которых коэффициенты «спамерности» слов попадут в указанный пользователем интервал, т.е. будут наиболее сильно отличаться от нейтрального значения 0,5).

Функциональные возможности работы инструментально-технологического комплекса «контр-спам», созданного на базе метода градуированной фильтрации «спама»

Инструментально-технологический комплекс «контр-спам», представляющий собой средство защиты информации, обнаруживает нежелательные сообщения электронной почты двумя способами [57]. Первый — посредством базового набора правил, которые предназначены для автоматизированной фильтрации нежелательных сообщений электронной почты. Такие правила включаются в функцию и могут обновляться вместе со следующими версиями ПО. Второй способ — обнаружение программным обеспечением «контр-спам» нежелательных сообщений электронной почты с помощью фильтра, основанного на методе градуированной фильтрации нежелательной корреспонденции. Фильтр, основанный на методе градуированной фильтрации «спама» может быть настроен для отдельных пользователей, когда пользователь вручную отмечает достаточное число входящих сообщений в качестве разрешенных для прохождения сообщений или в качестве «спама». Второй способ фильтрации сообщений представлен в виде нескольких функций, описанных ниже (и представленных в приложении 1) и выполняющихся в определенной последовательности. Как уже упоминалось ранее, базовой функцией используемой в автоматизированной системе фильтрации «спама» является функция заполнения частотных словарей. Для получения писем с почтового сервера в автоматизированной системе фильтрации используется функция Get Email, позволяющая получить строку байтов, которая преобразовывается с помощью стандартной кодировки UTF-8, для того чтобы можно было прочитать текст сообщения и служебную информацию об этом сообщении. Чтение байтов происходит с помощью стандартной библиотеки поставляемой вместе с инструментально-технологическим комплексом, а определение типа кодировки происходит с помощью функций созданной в инструментально-технологическом комплексе «контр-спам». Для того, чтобы определить кодировку для раскодирования сообщения в представленном программном продукте создана функция GetMes sageEncodingName, в которой осуществляется поиск определенной строки в которой указана данная информация. После того как будет получена данная информация с помощью стандартной функции GetEncoding можно преобразовать сообщение используя кодировку, которая была определена в функции GetMes sageEncodingName с помощью передачи в функцию GetEncoding типа кодировки в качестве параметра и вызова из нее функции DecodeMessage. В связи с тем что некоторые кодировки имеют своеобразную структуру в инструментально технологическом комплексе «контр-спам» были созданы следующие, необходимые для раскодирования сообщения, функции: ConvertBodyFromQuotedPrintable, ConvertBodyFromBase64, ConverFromHTML. Для тех случаев когда сообщение состоит из нескольких частей, для раскодирования сообщения используются следующие функции : GetMessageBoundary - данная функция предназначена для разграничения частей сообщения; GetMes sage Part - предназначена для возврата части сообщения указанного типа; FindMessagePart возвращает индекс, с которого начинается часть сообщения указанного типа. Процесс «обучения» (заполнения частотных словарей) происходит с помощью созданной в программе функции SpamTraining_Click (для словаря «спама») и NotSpamTraining_Click (для словаря «не-спама»). Данная функция позволяет получать письма с указанными номерами с помощью функции Training, в которую передается одним из параметров номера тех сообщений которые были указаны. После прочтения сообщений с указанными номерами, вызывается функция обработки «спама» Spam. Данная функция с помощью функции GetMes sageBody получает текст сообщения ( т.е. сообщение без служебной информации, содержащей в себе информацию следующего рода: тип кодировки, время получения, кем было отправлено письмо, тема сообщения и т.д.) и разбивает его на отдельные слова с помощью функции GetWords. В инструментально-технологическом комплексе «контр-спам» предусмотрена возможность фильтрации не только по «телу» сообщения, но и по информации содержащейся в других областях письма, к которым относятся: заголовок, тема, от кого пришло письмо и т.д. В данных областях письма могут использователься различные кодировки, и т.к. функции описанные выше могут не подойти для раскодирования данного текста в инструментально-технологическом комплексе «контр-спам» была создана функция ConvertMessageHeaderString получающая информацию о кодировке и раскодирующая данную строку.

После того как сообщение будет разбито на отдельные слова, вызывается функция Save То File. Эта функция предназначена для сохранения этих слов в ранее созданных словарях. В автоматизированной системе фильтрации «спама» предусмотрена возможность просмотра, пользователями данного программного продукта, составленных частотных словарей, с помощью функции ShowVocabularyDataGridView.

Помимо самих слов в структуре словаря также сохраняются следующие значения: счетчик количества раз встречи слова во всех письмах; коэффициент «спамерности» слова (используемый при расчете суммарных коэффициентов «спамерности»/ «не-спамерности»); счетчик количества писем в которых встретилось слово; коэффициент «спамерности» слова; относительная частота появления слова в словаре, которая вычисляется каждый раз при изменении счетчика в одном из словарей. Для получения значения количества одинаковых слов, встретившихся в письмах определенной категории в инструментально-технологическом комплексе «контр-спам» создана функция AppendVocabulary производящая запись из временного массива, содержащего данные по одному сообщению в общий массив. Для расчета относительной частоты и вероятности, расчитанной на основе исторических данных, в инструментально-технологическом комплексе «контр-спам» используется функция RelativeFrequency. После того как было завершено заполнение частотных словарей, можно переходить к фильтрации входящего потока сообщений.

Исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова

В диссертационной работе осуществлено исследование проблемы «антиспамовои» защиты, выступающей неотъемлемой частью системы информационной безопасности, предложена модель градуированной фильтрации «спама», разработан метод градуированной фильтрации «спама», создан инструментально-технологический комплекс «контр-спам», реализующий метод градуированной фильтрации «спама», проведено исследование экспериментального использования разработанных и предложенных модели и метода градуированной фильтрации «спама».

В процессе исследования проведен анализ предметной области, установлены существующие и разрабатываемые подходы к вопросу «антиспамовои» защиты. В процессе анализа выявлены главные недостатки существующих алгоритмов, представляющие собой: — неверное зачисление письма в «спам»; — пропуск «спама»; — ограниченное количество слов для оценки письма; — игнорирование слов ранее мало встречавшихся. В результате исследования предметной области были описаны методы борьбы с нежелательной корреспонденцией, а также методы автоматизированной фильтрации «спама». После анализа существующих систем фильтрования «спама» получены основные критерии качества работы «антиспам»-сервисов: — ложные тревоги - доля нормальных (не являющихся «спамом») сообщений, ошибочно классифицированных как «спам» (ложные срабатывания; — пропуск «спама» - доля пропущенного «спама» в общем потоке «спама»; — качество фильтрации (зависимость результата фильтрации от фактора ложного выявления и пропуска «спама»). Решение задачи повышения качества фильтрации нежелательной корреспонденции «спама» достигается путем создания метода градуированной фильтрации «спама», который за счет градуирования соотношения «спама» и «не-спама», использования слов впервые встретившихся в письме и не существовавших до этого в частотных словарях, а также нахождения выборки слов («токенов»), на основе анализа которых делается вывод о «спамерности» конкретного сообщения, позволяет получить меньшую долю (по сравнению с существующими фильтрами) ложных срабатываний и пропуска «спама», а также исключить остальные недостатки существующих систем фильтрации. Главным принципом создания такой автоматизированной системы фильтрации «спама» является обеспечение заданного уровня фильтрации «спама». Реализация системы фильтрации от «спама» включает в себя: — разработку модели градуированной фильтрации «спама» от нежелательной корреспонденции; — создание метода градуированной фильтрации «спама» для фильтрации входящего потока сообщений, по средствам реализации данной модели градуированной фильтрации «спама»; — создание инструментально-технологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и представляющего собой автоматизированную систему фильтрации «спама»; — разработку научно-практических рекомендаций по работе с автоматизированной системой фильтрации «спама». Реализация разработанных в диссертационной работе модели и метода ведет к повышению таких качеств, как надежность и безопасность, а также к уменьшению риска получения «спама», что в свою очередь, поможет снизить риск возникновения уязвимостей. Основные требования к данной автоматизированной системе фильтрации «спама»: — она должна быть самообучающейся, т.е. должна обладать возможностью индивидуальной автоматизированной настройки фильтра; — ее структура, формы и средства должны позволять отслеживать результаты, чтобы можно было своевременно повлиять на ход (процесс) фильтрации входящего потока сообщений, обеспечивая при этом состояние необходимой защищенности. Автором были достигнуты главные цели диссертационного исследования: — создание модели градуированной фильтрации «спама» позволяющей уменьшить количество ложных тревог и пропуска «спама»; — создание метода фильтрации «спама», который позволил бы улучшить качество фильтрации и избежать остальных недостатков существующих методов фильтрации; — создание автоматизированной системы фильтрации «спама» для проверки предложенного метода градуированной фильтрации «спама»; — контроль эффективности использования модели и метода градуированной фильтрации «спама». В результате диссертационного исследования разработаны рекомендации по работе с инструментально-технологическим комплексом «контр-спам» для получения наилучших результатов. Так опытно-экспериментальные исследования подтвердили, что с изменением порогов «спамерности» слов, а также порогов оценки письма результаты существенно изменяются. В ходе исследования были определены диапазоны значений порогов коэффициентов «спамерности» слов и порогов оценки письма, в результате использования которых автоматизированная система фильтрации «спама» достигает наилучших результатов. Результаты диссертационного исследования доказали возможность использования разработанного инструментально-технологического комплекса, реализующего разработанный метод градуированной фильтрации «спама», пользователями почтовых систем. Таким образом, результаты диссертационного исследования позволяют сделать вывод, что предложенные модель и метод градуированной фильтрации «спама» приводят к уменьшению доли пропуска «спама» и ложных срабатываний фильтра, а также позволяют исключить остальные недостатки существующих методов и тем самым подтверждают целесообразность использования модели и метода градуированной фильтрации «спама» для фильтрации входящего потока сообщений.

Похожие диссертации на Модель и метод градуированной фильтрации "спама"