Введение к работе
Актуальность исследования. Стремительно возрастающий объем данных в Интернете и необходимость их быстрой обработки, вызывают потребность в создании специализированных систем тематической категоризации (СТК) ресурсов Интернета. В настоящее время необходимость в СТК, а вместе с ними и системах для управления доступом к интернет-ресурсам не вызывает сомнений. Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 миллионов человек, из них 2 миллиона детей. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети Интернет может привести к серьезным угрозам для детей и учащихся. Кроме того, Интернет зачастую используется в личных целях работниками, имеющими доступ к глобальной сети, что снижает эффективность их работы и снижает производительность корпоративной сети. Методы прямого регулирования (цензуры) для управления информацией в сети Интернет неэффективны, встречают протест пользователей и юридически несостоятельны, поскольку противоречат естественным правам граждан на получение и распространение информации, свободу высказываний и волеизъявления.
В связи с этим решение проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от нежелательного и опасного контента, который пользователи могут использовать по своей воле и по своему усмотрению. Реализация такого инструмента тесно связана с категоризацией интернет-ресурсов, которая имеет много важных и востребованных в современном мире применений. Одним из них является механизм фильтрации полезной информации от агрессивной и опасной. Для этого интернет-ресурсы разбиваются на категории и, после соответствующего обучения, становится возможной автоматическая категоризация.
Ряд авторитетных исследователей, таких как И.Е. Поляков, А.Н. Тихонов, А.Д. Иванников, А.К. Скуратов, В.А. Мордвинов,
И.С. Некрестьянов, А.Е. Ермаков, B.C. Чернявский, М.С. Агеев, В.В. Плешко, В.Ю. Добрынин, М.Р. Когаловский, И.В. Сегалович, G. Salton, R. Baezo-Yates, J. Cho, A. Singhal, F. Sebastiani, S. Lawrence, P. Foltz, L. Gravano своими работами внесли значительный вклад в развитие информационно-поисковых систем и СТК.
Активно ведут работы в этом направлении такие организации, как Гарант Парк Интернет, ООО «Мегаверсия», Центр Анализа Интернет Ресурсов, ФГУ ГНИЙ ИТТ «Информика», Институт программных систем РАН, корпорация «Галактика», Научно-производственный инновационный центр «Микросистемы», компания «MediaLingua», Яндекс, Рамблер, Апорт, Google, Secure computing, SurfControl, Websense, Cobion и другие.
Таким образом, актуальность темы настоящей диссертации диктуется необходимостью создания алгоритмических, программных и архитектурных решений, упорядочивающих информацию, представленную в сети Интернет для управления доступом к ней.
Цель работы настоящей диссертации заключалась в разработке и исследовании алгоритмических, программных и архитектурных решений для категоризации русскоязычной информации, содержащейся в сети Интернет.
Задачи исследования. Для достижения указанной цели в работе были поставлены следующие задачи:
провести анализ существующих средств, моделей и методов поиска и тематического анализа для определения перспектив развития систем тематической категоризации интернет-ресурсов;
на основе результатов анализа выбрать и модифицировать модель для категоризации интернет-ресурсов;
разработать методику составления тематических профилей для описания категорий;
разработать оригинальную архитектуру проектируемой системы тематической категоризации;
разработать программные решения, позволяющие формировать и автоматически поддерживать в актуальном состоянии базу категорированных ресурсов сети Интернет;
провести экспериментальные исследования функционирования разработанных технических решений;
осуществить практическое применение разработанных алгоритмических,
программных и архитектурных решений.
Объект исследования. В настоящей работе объектом исследования являлись алгоритмические и программные средства, модели поиска, методы тематического анализа и категоризации интернет-ресурсов, способствующие созданию систем тематической категоризации для определения принадлежности интернет-ресурсов к заранее определенным категориям и упорядочивания информации, представленной в сети Интернет, а также обеспечивающие контроль функционирования компьютерных сетей.
Методы исследования. При проведении исследований в работе использовались теория информационного поиска, методы машинного обучения, методы объектно-ориентированного программирования.
Научная новизна заключается в том, что разработанные в работе алгоритмические, программные и архитектурные решения позволяют реализовать специальную надстройку для высокорелевантного поиска текстовой информации в интернет-ресурсах и тем самым повысить точность категоризации интернет-ресурсов, в том числе:
модифицирована векторная модель представления текстовых документов для категоризации интернет-ресурсов;
разработана оригинальная архитектура системы тематической категоризации интернет-ресурсов;
применена оценка качества для проверки результатов категоризации за счет использования метрик информационного поиска;
предложена методика составления тематических профилей, которая использует термин, весовой коэффициент, признак исключения и порог;
спроектирована система тематической категоризации интернет-ресурсов, обеспечивающая контроль функционирования компьютерных сетей.
Новизна подтверждена свидетельством об отраслевой регистрации разработки № 9072 в отраслевом фонде алгоритмов и программ от 24 сентября 2007 г. «Разработка алгоритмических, программных и архитектурных решений для проектирования систем тематической категоризации интернет-ресурсов в телекоммуникационных сетях».
Научные результаты диссертации использовались в учебно-исследовательской работе на кафедре «Технических и информационных средств систем управления» Государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)».
На защиту выносятся результаты:
Модифицированная векторная модель представления интернет-ресурсов, позволяющая проводить индексацию интернет-ресурсов и автоматически категорировать их на основе обучающего множества текстовых примеров за счет вычисления степени соответствия между категорией и интернет-ресурсом и сравнением ее с величиной порогового значения категории.
Методика составления тематических профилей, которая использует тематический профиль, строящийся на основе подборок положительных и отрицательных примеров текстов и состоящий из термина, весового коэффициента, признака исключения и порога.
Оценка качества категоризации с использованием метрик информационного поиска для проверки результатов категоризации в ходе обучения с оценкой, сделанной экспертами.
Оригинальная архитектура системы тематической категоризации интернет-ресурсов, включающая компоненты: поиск новых сайтов, ведение информационных ресурсов, обход сайтов, каталогизация сайтов и другие.
Проектирование системы тематической категоризации интернет-ресурсов в части создания компонентов, обеспечивающих поступление новых ресурсов для анализа, поиска новых доменных имен сайтов, ведения информации о категориях и сайтах, получения информации от интернет-ресурсов и занесения ее в базу данных системы, а также анализа страниц и категоризации сайтов.
Практическая значимость работы. Результаты исследований были использованы при разработке системы тематической категоризации для составления тематического каталога интернет-ресурсов и обеспечения контентной фильтрации опасных ресурсов Интернета. Разрабатываемые решения обеспечивают точность категоризации интернет-ресурсов за счет применения модифицированной векторной модели представления интернет-
ресурсов и использования разработанной методики составления тематических профилей для описания категорий.
Практическая значимость работы подтверждается актами о внедрении результатов исследования в Центре Анализа Интернет Ресурсов и ФГУ ГНИЙ ИТТ «Информика». Результаты, полученные в работе, использовались в рамках выполнения следующих проектов: государственный контракт № 02.461.11.7003 от 01 июля 2005 года «Научно-методическое обеспечение создания национального информационно-аналитического центра по мониторингу приоритетных направлений развития науки, технологий и техники в области информационно-телекоммуникационных систем», государственный контракт №02.447.11.1008 от 01 августа 2005 года «Разработка и реализация алгоритмических и программных средств тематической категоризации интернет-ресурсов с использованием семантического анализа текстового содержимого web-страниц», государственный контракт №1211 от 29 ноября 2005 года «Создание автоматизированной системы поиска, семантического анализа и рубрикации электронных информационно-образовательных ресурсов», государственный контракт № П 85 от 17 июля 2006 года «Разработка автоматизированной системы обеспечения эффективного и безопасного использования сети Интернет в образовательных учреждениях различного уровня». В учебном процессе на кафедре «Технических и информационных средств систем управления» государственного образовательного учреждения высшего профессионального образования «Московский государственный институт радиотехники, электроники и автоматики (технический университет)».
Апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на научно-практических конференциях и семинарах, в том числе: семинарах аспирантов и научных сотрудников ФГУ ГНИЙ ИТТ «Информика» (Москва 2005 г., Москва 2006 г.), XII Всероссийской научно-методической конференции «Телематика'2005» (Санкт-Петербург, 6-9 июня 2005 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Анталия, 19-26 мая 2006 г.), XIII Всероссийской научно-методической конференции «Телематика'2006» (Санкт-Петербург, 5-8 июня 2006 г.), Международной научно-практической конференции «Новые информационные технологии в образовании»
(Екатеринбург, 26-28 февраля 2007 г.), 56-й Научно-технической конференции МИРЭА (Москва, 14-24 мая 2007 г.), Международной научной конференции «Информационные технологии и телекоммуникации в образовании и науке» (Турция, Фетхие, 18-25 мая 2007 г.), XIV Всероссийской научно-методической конференции «Телематика'2007» (Санкт-Петербург, 18-21 июня 2007 г.).
Публикации. Основное содержание диссертационной работы было отражено автором в 13 печатных работах (в том числе 2 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 1 публикация в сборнике научных статей, 7 публикаций в трудах научных конференций, 3 публикации в учебно-методических пособиях).
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 83 наименований и 2 приложений. Работа изложена на 157 страницах, содержит 52 рисунка и 16 таблиц.