Введение к работе
Актуальность темы
Информационный поиск является одной из ключевых областей информатики. И, хотя исследования в этой области продолжаются уже более 30 лет, осталось еще много нерешенных проблем.
Центральная проблема информационного поиска формулируется просто — помочь пользователю найти ту информации, и которой он заинтересован [18]. Однако, описать информационные потребностей пользователя, а также определить меру релевантности (соответствия) информации этим потребностям, совсем не так просто [1].
Классическая задача информационного поиска — это поиск документов, удовлетворяющих запрос}' пользователя, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Запросом может быть задан как набор ключевых слов и словосочетаний, фрагмент текста на естественном языке или даже документ-образец. К области информационного поиска относится также и ряд других задач, например, задачи кластеризации [9, 16], классификации [23, 17], фильтрации [3, 15] и т.п.
Несмотря на множество предлагавшихся методов решения задач информационного поиска, зачастую, качество поиска далеко от идеального. Хотя, по-видимому, обеспечить идеальное качество невозможно, повышение качества поиска — одіта из наиболее важных задач информационного поиска.
Бурное развитие Интернет сделало наиболее популярной областью применения методов информационного поиска. Природа Интернет обуславливает ряд важных факторов, которые необходимо учитывать при рассмотрении задач поиска: огромный объем информации (по состоянию на июнь 2000 года в Интернет было опубликовано более миллиарда страниц), до 40% которой ежемесячно изменяется [10]; неконтролируемое качество информации; разнородность представлений информации (не только форматов, но языков и даже алфавитов). Важным отличием поисковых систем Интернет от классических систем информационного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам
на момент выполнения запроса, т. с. только на основе построенных индексов.
В целях повышения производительности її надежности, большинство современных многоцелевых систем имеют уже не централизованную, а параллельную архитектуру [1]. Активно исследуется возможность применения распределенных архитектур к поисковым системам [2G, 4, 6].
В распределенных поисковых системах единый индекс разбивается но некоторому принципу на несколько отдельных частей (коллекций). Для повышения эффективности и надежности системы поиск производится не во всех коллекциях, а только в некотором их подмножестве. Этот процесс называется маршрутизацией запросов. Поскольку качество маршрутизации напрямую влияет на общее качество поиска, то методы маршрутизации запросов привлекают много внимания [33, 8, 21].
Одной из новых задач информационного поиска является задача сбора информации о доступных в Интернет информационных ресурсах [13, 5]. Собранная информация может быть использована, например, для создания индексов поисковых систем [12]. Огромный объем информации и высокая динамика Интернет делает невозможным посещение всех доступных ресурсов, что делает актуальным исследование стратегий обхода ресурсов Интернет.
Актуальной темой является также сравнительный анализ эффективности различных подходов к решению одной и той же задачи информационного поиска. При этом важно использовать стандартные наборы данных, такие, например, как созданные в рамках серии конференций TREC [25].
Понятие "тематика" давно используется в области информационного поиска, хотя оно и плохо формализуемо. В качестве примера можно привести задачи тематической классификации [23, 17, 2, 22] и фильтрации [7, 3, 11]. Перспективным направлением исследований является использование неявной информации о тематике в специализированных методах информационного поиска для повышения качества поиска [9, 19, 20, 24].
Цели работы
Изучить возможность применения тематико-ориентированных методов поиска для решения некоторых задач информационного поиска. Провести сравнительный анализ эффективности предлагаемых тематико-ориентированных методов по сравнению с ранее известными методами па па основе стандартных наборов тестовых данных.
Общая методика
Исследование проводилось в контексте алгебраических моделей информационного поиска. Рассматривались известные подходы к решению задач информационного поиска и изучалась возможность их модификации для учета информации о тематике. Для выявления и представления информации о тематике использовалась следующие гипотезы:
"тематика" — понятие относительное, т.е. о "тематике" можно рассуждать только в рамках некоторого контекста,
словарный запас и частоты использования слов зависят от тематики [22],
типичный документ среднего размера затрагивает не единственную тематику [20, 19].
Эффективность предлагаемых подходов проверялась экспериментально по сравнению со стандартными методами. Для проверки использовались стандартные наборы тестовых данных — TREC-5 [25] и R.euters-21578.
Основные результаты
В работе получены следующие основные результаты:
1. Предложен метод автоматической классификации документов по множеству заданных тематик. Метод использует латентно-семантический анализ для извлечения семантических взаимосвязей между словами. Метод применим для классификации документов, поступающих в систему динамически.
-
Предложен метод построения описаний коллекций и выбора коллекций для обслуживания запроса в распределенных поисковых системах, учитывающий тематическую специализацию коллекций. Использование тематических описаний позволяет значительно (до 40%) сократить размер описаний без потерь в качестве маршрутизации.
-
Проведен сравнительный анализ нескольких методов маршрутизации запросов в распределенных системах как с тематическими, так и нетематнческими коллекциями. Некоторое преимущество имеет подход, основанный на корреляционной модели распределения термов.
-
Показано, что применение прямолинейных процедур сокращения описаний может значительно снизить качество маршрутизации.
-
Продемонстрирован потенциал методов, учитывающих тематическую информацию, на примере использования оценок тематической релевантности для выбора стратегии обхода сети.
G. Показано, что относительно простые и вычислительно нетрудоемкие методы фильтрации вполне пригодны для грубого отсева не соответствующих заданной тематике документов.
-
Предложен новый метод организации поиска по документу-образцу в рамках заданной коллекции относительно больших документов, учитывающий тематические особенности документа-образца в контексте рассматриваемой коллекции.
-
Проведена обширная экспериментальная проверка предложенных методов на основе стандартных наборов тестовых данных.
Отметим, что результат, сформулированный в пункте 4, демонстрирует неточность вывода, о возможности удаления информации о редких термов из описаний, сделанного в [4]. Эта неточность обусловлена использованием в [4] относительно грубых критериев оценки качества маршрутизации.
Научная новизна
Все основные научные результаты диссертации являются новыми.
Практическая и теоретическая ценность
Полученные результаты могут быть использованы как отправная точка для дальнейшего совершенствования методов, а также при решении ряда других задач информационного поиска, например, задачи маршрутизации запросов в метапоисковых системах. Отметим, что многие полученные результаты согласуются с результатами полученными другими исследователями [8, о], что важно в связи с эмпирическим характером методов информационного поиска.
На практике, предложенные методы могут быть использованы для создания различных информационно-поисковых систем.
Аппробация работы
Результаты диссертации докладывались на семинаре московской секции ACM SIGMOD, а также на конференциях по электронным библиотекам (DL'1999, Санкт-Петербург, Россия и DL'2000, Протвино, Россия), интеллектуальным сервисам (1S&N'99, Барселона, Испания) и распределенным информационным системам (SCT99, Орландо, США).
Предложенные методы и полученные результаты были использованы при разработке распределенной поисковой системы OASIS, прототип которой доступен по адресу .
Публикации
Основные результаты диссертации изложены в восьми работах [27, 28, 29, 30, 31, 32, 33, 34] , перечисленных в конце автореферата.
Структура и объем диссертации