Введение к работе
Актуальность темы. В течение последнего десятилетия наблюдается экспоненциальный рост числа источников информации в информационном Веб-пространстве. Только в открытой (индексированной) части Веб-пространства на сегодняшний день насчитывается более 20 миллиардов документов и более 200 миллионов Веб-сайтов, не говоря уже о скрытой (неиндексированной) части, в которой эти показатели больше в несколько раз. Для эффективной работы с таким объемом информации требуются современные инструменты и технологии, роль которых играют различные средства информационного поиска.
Наиболее распространенные современные системы поиска информации в Веб-пространстве (Google, Яндекс, Рамблер) имеют ряд проблем. Во-первых, это недостаточная актуальность информации1. Она возникает из-за того, что эти системы выполняют два вида работ: модификация индекса и поиск информации по запросам пользователей в индексе. Модификация индекса занимает большое количество времени (от дней до нескольких месяцев), что существенным образом снижает актуальность источников информации в Веб-пространстве. Во-вторых, ранжирование результатов поиска, существующих систем, основано на авторитетности документов в индексе и формальной близости документов к запросу пользователя. Отсутствие поиска по ссылкам в глубину часто приводит к ошибкам ранжирования.
Кроме того, как известно, методы полнотекстового поиска, ранжирования и классификации, используемые существующими информационно-поисковыми системами, также требуют улучшения.
Цели и задачи работы. Цель данной работы заключается в разработке и реализации новой стратегии информационного поиска, позволяющей значительно повысить актуальность найденных информационных источников и улучшить их ранжированность. Поставленная цель определяет следующие задачи исследования:
системный анализ архитектурных особенностей поисковых роботов и систематизация набора критериев эффективности, которые могут применяться для реализации любых типов поисковых роботов;
выявление и описание общего, универсального ядра Веб-краулера (тип поискового робота, основанного на классическом обходе Веб-пространства) ;
1 Актуальность (свежесть) информации - это доля соответствия контента информационных источников, находящихся в индексе поисковой системы, контенту их подлинников из Веб-пространства в момент времени t.
исследование классического алгоритма ранжирования Клейнберга
HITS и реализация его модификации для информационного поиска
тематических сообществ;
исследование алгоритма взвешивания текста документов TF-IDF и
реализация его модификации для информационного поиска
тематических сообществ;
построение и тестирование программного комплекса на основе
поискового робота с универсальным ядром и модифицированного
алгоритма Клейнберга HITS;
построение и тестирование программного комплекса на основе
поискового робота с универсальным ядром и модифицированного
алгоритма взвешивания текста TF-IDF;
создание нового алгоритма информационного поиска тематических
сообществ, учитывающего информацию о тексте и гиперссылочной
структуре;
построение и тестирование программного комплекса на основе
поискового робота с универсальным ядром и совместного
использования модифицированных алгоритмов TF-IDF и HITS;
создание тестовых коллекций документов для исследования
качества поиска тематических сообществ;
получение экспериментального подтверждения практической
применимости разработанного программного комплекса;
оценка качества метода поиска тематических сообществ,
основанного на совместном использовании модифицированных
алгоритмов TF-IDF и HITS, в сравнении с методами, использующие
те же самые методы по отдельности;
сравнение с существующими реализациями поисковых роботов,
выполняющими поиск в Веб-пространстве.
Методы исследования. Для решения задач, рассматриваемых в диссертационной работе, использовались математические методы теории вероятности и высшей алгебры. А для создания программного комплекса также методы технологии программирования. Для эксперимента использовались известные показатели по оценки качества в информационном поиске, а также создавались тестовые коллекции документов по запросам.
Научная новизна. Научная новизна работы заключается в следующем: 1. Создан метод поиска - направленный поиск тематических сообществ в Веб-пространстве, основанный на модификации классического алгоритма Клейнберга HITS, использующего информацию о гиперссылочной структуре найденных документов.
Создан метод поиска - направленный поиск тематических сообществ в Веб-пространстве, основанный на совместном использовании модификаций алгоритмов HITS и TF-IDF, учитывающем как информацию о тексте, так и информацию о гиперссылочной структуре документов.
Выдвинута идея универсального ядра поискового робота, на базе которой строится любая модель тематического робота, и разработана его структура.
Разработан комплекс программ, реализующий предложенные методы поиска тематических сообществ.
Практическая ценность. Созданный на основе универсального ядра программный комплекс может использоваться в разных режимах, как для различных вариантов тематического поиска, так и для различных вариантов классического. Разработанные методы и алгоритмы могут использоваться в различных информационно-поисковых системах для уточнения результатов поиска и улучшения алгоритмов ранжирования.
Реализация и внедрение результатов работы. Отдельные элементы созданного программного комплекса, предложенные алгоритмы, а также полученные результаты использованы компанией ООО "Клауд Инструменте" в коммерческих продуктах.
Достоверность и обоснованность полученных результатов обеспечиваются общепринятыми показателями, оценивающими качество информационного поиска, значения которых были получены в ходе экспериментов на созданных тестовых коллекциях по запросам, выбранным случайным образом. Программный комплекс прошел отладку и тестирование на созданных тестовых коллекциях.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались
на Всероссийской Научной Конференции по электронным
библиотекам RCDL - г. Суздаль (Россия), 2006 г.;
на семинаре в компании IPM (Informed Portfolio Management) - г.
Стокгольм (Швеция), ноябрь, 2010 г.;
на семинарах в компании ООО «Клауд Инструменте» - г. Санкт-Петербург (Россия), 2010, 2011 г.;
неоднократно на заседаниях и семинарах кафедры технологии
программирования (ПМ-ПУ, СПбГУ 2009-2011);
на научном семинаре по информационному поиску IR workshop на
факультете ПМ-ПУ СПбГУ (2010 г.);
на семинаре в Карельском Научном Центре Российской Академии
Наук - г. Петрозаводск (Россия), 2011 г.
Личный вклад автора. Все результаты диссертационного исследования получены автором лично.
Публикации. По материалам диссертации опубликованы 3 работы, 2 из которых в изданиях, входящих в перечень ВАК рецензируемых научных журналов. Список работ приведен в конце автореферата.
Структура и объем диссертации. Диссертационная работа изложена на 122 страницах машинописного текста и состоит из введения, шести глав и списка литературы, включающего 65 наименований. Работа содержит 23 рисунка и 11 таблиц.