Введение к работе
Актуальность темы
Задача тематического информационного поиска (ИП) появилась еще в библиотечных системах, где она решалась вручную профессиональными библиографами. Широкое распространение Интернет привело к тому, что с задачей тематического ИП приходится сталкиваться не только профессиональным библиографам, но и рядовым пользователям.
Задача ИП в общем виде состоит в том, чтобы в заданном пространстве поиска найти документы, релевантные информационной потребности пользователя, заданной в виде запроса. Частные варианты задачи информационного поиска определяются свойствами пространства поиска и свойствами информационной потребности пользователя.
С конца 50-х годов применительно к библиотечным системам активно разрабатывались методы решения так называемой традиционной задачи ИП, которая основывалась на предположениях о статичности пространства поиска и информационной потребности пользователя. Интернет как пространство поиска существенно меняет задачу ИП по сравнению с традиционной задачей ИП.
Задача тематического ИП в Интернет является частным случаем задачи ИП, в котором пространство поиска и информационная потребность пользователя обладают следующими свойствами:
отсутствует централизованное хранилище метаинформации об объектах поиска;
невозможно построить единую базу данных объектов поиска;
отсутствует регламент создания объектов поиска;
объекты поиска не содержат описания ихсодержимОШі _^
З і бКвЛНОТСі:/,
большинство объектов поиска представляют собой гипертекстовые
страницы, которые могут содержать гиперссылки на другие
страницы. Страницы, связанные гиперссылками, образуют граф
Web;
в начале поиска пользователь не знает четко свою информационную потребность, а имеет о ней лишь общее представление - тему. Поэтому он не может сформулировать запрос к информационно-поисковой системе (ИПС), в ответ на который будут выданы интересующие его объекты;
в процессе поиска пользователь уточняет свою информационную потребность. Результатом поиска является не только отбор нужных пользователю объектов, но и уяснение им самим своей информационной потребности.
Описанные свойства задачи делают невозможным прямое применение существующих наработок в области традиционного ИП для решения задачи тематического ИП в Интернет.
Для информационного поиска в Интернет в настоящее время наиболее широко используются системы поиска по ключевым словам (СПКС). Однако, как показано в работах М. Bates, N. Belkin и др.1, применение СПКС для тематического ИП в Интернет неэффективно в силу
Bates М, The design of browsing and berrypicking techniques for the online search interface. Online Review 13,5,1989.
Belkin N., Cool C, Stein A., Thiel U. Cases, Scripts, and Information-Seeking Strategies: On the Desingn of Interactive Information Retrieval Systems, Expert Systems and Applications, 9(3): 379-395 1994
того, что они построены на основе традиционной модели ИП, не учитывающей особенностей тематического ИП.
Наиболее удобным средством тематического ИП в Интернет являются тематические каталоги.. Однако большинство имеющихся в Интернет тематических каталогов строятся вручную экспертами, в результате чего полнота их содержимого и частота обновления не соответствуют темпам развития Интернет.
В последние годы исследования2 тематической структуры Интернет продемонстрировали принципиальную возможность решать некоторые частные случаи задачи тематического ИП в Интернет без предварительной обработки данных (построения базы данных объектов поиска) и без наличия информации об организации предметной области (например, онтологии). В то же время существующие методы не учитывают важных особенностей задачи тематического ИП: они не позволяют пользователю осуществлять поиск итерационно, уточняя информационную потребность в процессе поиска.
Таким образом, возникает необходимость в разработке новых специализированных методов тематического информационного поиска в Интернет, учитывающих специфику задачи и обеспечивающих большую эффективность поиска по сравнению с существующими методами.
2 Davison В. Topical locality in the Web. Proceedings of the ACM SIGIRIOOO Conference,
2000.
Chakrabarti S., Dom В., Kumar S., Raghavan P., Tomkins A., Gibson D., Kleinberg J.
Mining the Web's link structure. IEEE Computer, 32(8) pp 60-67,1999.
Цель работы
Целью данной работы является разработка метода решения задачи тематического ИП в Интернет, учитывающего динамическое уточнение информационной потребности пользователя и динамическое уточнение пространства поиска.
В рамках данной работы ставятся следующие задачи:
Разработать формальную модель тематического ИП в Интернет, которая учитывает динамическое уточнение информационной потребности пользователя и динамическое уточнение пространства поиска.
Разработать алгоритм тематического ИП в Интернет, который реализует эту модель.
Провести экспериментальное исследование эффективности предложенного алгоритма по сравнению с существующими методами тематического ИП в Интернет.
Объектом исследования является русскоязычная часть Интернет -Рунет, однако предлагаемые в данной работе методы применимы и для Интернет в целом.
Основные результаты работы
Построена модель тематического информационного поиска в Интернет, которая учитывает динамическое уточнение информационной потребности пользователя и динамическое изменение пространства поиска.
Разработан алгоритм тематического информационного поиска в Интернет, обобщающий методы поиска тематических сообществ в части:
направленной организации итерационного процесса поиска;
новой интерпретации механизма обратной связи;
расширения алгоритма анализа структуры гиперссылок (алгоритма SALSA) средствами анализа текстов страниц.
3. Получены оценки точности и сложности предложенного алгоритма, которые показывают, что он обеспечивает более высокую точность поиска по сравнению с существующими алгоритмами поиска тематических сообществ за счет определенного увеличения вычислительной сложности.
Научная новизна
В диссертации построена формальная модель тематического ИП в Интернет, которая учитывает динамическое уточнение информационной потребности пользователя и динамическое изменение пространства поиска.
Разработан алгоритм тематического ИП в Интернет, реализующий предложенную модель за счет обобщения методов поиска тематических сообществ.
Практическая ценность
В работе показано, что предложенный алгоритм обеспечивает более высокое качество поиска по сравнению с существующими методами применительно к задаче поиска ключевых ресурсов. Проведена экспериментальная реализация предложенного алгоритма.
Результаты данной работы могут быть применены в следующих областях:
Для расширения функциональности систем поиска по ключевым словам с целью предоставления пользователям средств тематического ИП в Интернет.
Для. автоматизации построения вторичных, тематических информационных ресурсов - тематических каталогов (portholes3).
Методы исследования
При. разработке метода тематического ИП в Интернет использовались методы анализа социальных сетей, методы линейной алгебры, методы статистического анализа текстов.
Апробация работы и публикации
По теме диссертации опубликовано 5 печатных работ. Результаты работы докладывались на объединенном научно-исследовательском семинаре кафедр Автоматизации систем вычислительных, комплексов, Алгоритмических языков и Системного программирования факультета ВМиК МГУ, на научных семинарах лаборатории Вычислительных комплексов кафедры Автоматизации систем вычислительных комплексов факультета ВМиК МГУ, а также на следующих конференциях:
Международная научная конференция «Научный сервис в сети
Интернет» (Новороссийск, 2000);
Международная научная конференция «Интеллектуализация
обработки информации» (Алушта, 2000);
Chakrabarti S., Van Den Berg M., Dom В. Focused crawling: A new approach to topic-specific Web resource discovery. Eights World Wide Web Conference, Toronto, May 1999.
Международная научная конференция «Интеллектуализация обработки информации» (Алушта, 2002);
Научная конференция «Ломоносовские чтения» (Москва, 2004).
Структура и объем диссертации