Введение к работе
Актуальность работы.
На современном этапе состояния общества информационные технологии (ИТ) породили все увеличивающийся поток разнородной информации. Основной задачей поисковых систем (поисковых машин) является предоставление качественных результатов, т.е. наиболее важных релевантных страниц. Для этого необходимо решать задачу классификации (classification problem). Поэтому теория, методы и алгоритмы классификации информации являются бурно развивающимся научным направлением.
Классификация информации в сетях, и в частности в сети Интернет, позволяет решать различные задачи, например: документооборот, автоматическое аннотирование и реферирование, машинный перевод, составление интернет- каталогов, ограничение области поиска в поисковых системах, определение кодировки и языка текста, классификация новостей и т.д.
В России большими темпами активно развиваются классификационные системы и специализированные системы полнотекстового анализа, позволяющие производить автоматическую классификацию и реферирование текстов, например, "Следопыт", "ТекстАналист" и другие.
Одной из важнейших проблем, встающей практически перед каждым пользователем Интернет, является борьба со спамом, то есть задача фильтрации (классификации) поступающей информации.
Кроме того, в связи с бурным ростом объема информации в сети Интернет поисковые машины стали основным средством для эффективного доступа к ней. Задача поисковой машины - на каждый поисковый запрос выдавать ранжированный набор страниц, наиболее соответствующих запросу. Мера соответствия страницы запросу, называемая релевантностью, вычисляется на основе характеристик страниц и запросов. Некоторые владельцы сайтов пытаются повлиять на работу поисковых машин, чтобы повысить релевантность страниц. Это явление получило название поискового спама.
В настоящее время существуют технологии создания фильтров-сервисов отсекания навязываемой информации. Их принято разделять на два класса: настраиваемые вручную и автоматизированные. Технологии из первого класса применяют списки доступа и настраиваются пользователем, выбирающему или запрещенные, при политике «черного списка», или разрешенные, при политике «белого списка», адреса. Но такие разделения навязываемой информации неэффективны так как необходимо частое обновление списков доступа.
Кроме того, ручная категоризация неприменима, если необходимо классифицировать большой объем информации за ограниченное время.
Применение автоматизированных технологий фильтрации основано на использовании методов распознавания образов, искусственного интеллекта, применении математической статистики и т.д.
Фильтрам, созданным с применением теории искусственного интеллекта, обучение необходимо лишь в самом начале. Они, в процессе эксплуатации, дообучаются самостоятельно. При этом заметно снижается нагрузка пользователя.
Одной из самых используемых технологий построения фильтров, является технология, базирующаяся на байесовском подходе (наивный байесовский классификатор), в котором предполагается, что у термов сообщения отсутствует корреляция друг с другом. По опубликованным оценкам, байесовские фильтры могут отфильтровать до 97% спама.
Для повышения эффективности таких фильтров требуется учет семантических связей между термами, а это требует применения методов семантического анализа, что достаточно увеличивает нагрузку на систему, увеличивая время работы самого фильтра, при небольшом увеличении эффективности фильтрации.
Таким образом, исходя из вышесказанного, существует потребность в разработке новых методов и алгоритмов классификации информации для решения задачи фильтрации нежелательных сообщений, что подтверждает актуальность темы диссертационной работы.
Все вышесказанное определило цели и задачи диссертационного исследования.
Целью диссертационной работы является повышение эффективности фильтрации информации в сети Интернет с использованием разработанных методов и алгоритмов.
Для достижения поставленной цели в диссертационном исследовании были сформулированы и решены следующие задачи:
Разработка и анализ алгоритмов детектирования текстового спама на базе машинного обучения.
Исследование моделей массово создаваемых неестественных текстов.
Разработка и реализация метода построения разделяющей гиперплоскости в гильбертовом пространстве на основе фейеровского отображения для решения задачи сильной отделимости.
Разработка системы классификации информации в Интернете, удовлетворяющей следующим условиям:
точность и полнота обнаружения спам-документов;
применимость к различным естественным языкам.
Объектом исследования методы и модели классификации информации в Интернете.
Методы исследования. Решение вышеперечисленных задач происходит с применением методов теории защиты информации, системного и структурного анализа, функционального анализа и методов математического моделирования.
Научная новизна диссертационного исследования состоит в разработке моделей построения обучающей выборки и методов обнаружения спам-документов.
Положения, выносимые на защиту:
-
-
Математические модели построения обучающей выборки.
-
Метод построения разделяющей гиперплоскости обучающей выборки на базе фейеровского отображения;
-
Алгоритм классификации документов.
Практическая значимость заключается в том, что полученные в диссертации результаты исследований могут быть использованы при разработке классификаторов информации в Интернет, позволяющих производить обнаружения спам- документов. Разработанная система моделей и механизмов их реализации позволяет сформировать рациональный классификатор в соответствии с предложенными функциональными критериями и ограничениями.
Достоверность научных результатов и обоснованность научных положений, выводов и рекомендаций обеспечена полнотой анализа теоретических и практических исследований, положительной оценкой на научных конгрессах, конференциях и семинарах, практической проверкой и внедрением полученных результатов исследований на ряде предприятий.
Апробация работы. Основные положения диссертационного исследования докладывались и обсуждались на международных конгрессах и конференциях различного уровня: Всероссийская научно-практическая конференции с
Vj*
международным участием. Йошкар-Ола: Марийский государственный технический университет, 2012; 1-ый Международный симпозиум "Гибридные и синергетические интеллектуальные системы: теория и практика". Россия, Калининград, БФУ им. И.Канта, 2012; Международный конгресс по интеллектуальным системам и информационным технологиям AIS-IT'12. Россия, Дивноморское (Геленджик), 2012.
Результаты исследований реализованы в СПб НИУ ИТМО и используются в учебном процессе при проведении занятий по дисциплинам: «Защита информации», «Информационная безопасность», «Информационная безопасность и защита информации», ООО «ДорСтройИнжиниринг», ООО «Тонар».
Публикации. По тематике диссертации опубликовано девять работ, в том числе три работы входят в список рекомендованный ВАК для защиты кандидатских диссертаций.
Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы.
Структура и объем работы. Диссертация состоит из введения, 5 глав, заключения, изложенных на 98 листах машинописного текста, содержит 14 рисунков и 11 таблиц. Список литературы включает 62 наименования.
Похожие диссертации на Методы и алгоритмы классификации информации для защиты от спазма
-