Введение к работе
Актуальность проблемы. Накопленные к настоящему времени колоссальные объемы информации в совокупности с непрерывно увеличивающимися темпами её роста определяют актуальность и значимость исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления.
При сегодняшних объемах доступной информации решение задач информационного поиска является приоритетным для обеспечения своевременного доступа к интересующим данным в рамках информационной среды (ИСр).
Концепция информационной среды впервые была предложена Ю.А. Шрейдером, который рассматривает информационную среду не только как проводника информации, но и как активное начало, воздействующее на её участников. Информационная среда – совокупность технических и программных средств хранения, обработки и передачи информации, а также социально-экономических и культурных условий реализации процессов информатизации.
В настоящее время работает ряд авторитетных международных конференций, посвящённых обсуждению вопросов информационного поиска, например, таких как:
TREC (Text Retrieval Conference) – цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) – одного из авторитетных органов стандартизации информационных технологий в США;
SIGIR (Special Interest Group on Information Retrieval) – цикл конференций проводимых ACM SIGIR (ACM – Association of Computing Machinery) –международной группой специалистов по информационному поиску;
WWW (World Wide Web) Conference – специально организованная конференция для решения задач, связанных с Интернет.
Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.
Из отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию «Электронные библиотеки» (RCDL) и семинар по компьютерной лингвистике «Диалог».
Также необходимо отметить ряд отечественных научных школ:
SPBU IR Group – исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);
Исследовательский центр ИИ ИПС РАН;
Центр информационных исследований (НИВЦ МГУ).
Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, AOT и др.
Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некрестьянов, И.E. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, M. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg, J. Sparck, D. Carmel, S. Brin, L. Page, A. Singhal., T. Haveliwala.
Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов при помощи латентно семантического анализа. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем.
Представленные на сегодняшний день в большинстве популярных поисковых систем способы организации полнотекстового поиска не учитывают в достаточной мере семантику. В то же время, именно семантическое сходство непосредственно обусловливает высокую степень пертинентности. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к искомому результату.
Целью работы является разработка и исследование способа повышения показателей пертинентности информационного поиска, основанного на концепции интерфейсной поисковой системы (ИнтПС), осуществляющей объединение и переупорядочивание откликов на запросы пользователей популярных поисковых систем сети Интернет.
Задачи исследования. Для достижения целей диссертационной работы необходимо решение следующих задач.
-
Формализация описаний факторов ранжирования поисковых систем сети Интернет.
-
Модификация существующих факторов ранжирования, слабо защищенных от влияния искусственно создаваемых непродуктивных связей между компонентами сети.
-
Создание методологии оценки пертинентности информационного поиска на основе экспертных оценок.
-
Разработка концепции поисковой системы многоальтернативного поиска и адаптивного переранжирования.
Методы исследования. Исследования осуществлялись на основе методов системного анализа, линейной алгебры, теории вероятностей, математической статистики, математической логики, теории графов, теории множеств, методов структурного и объектно-ориентированного программирования.
Научная новизна работы состоит в следующем.
-
Созданы новые методики: 1) расчета основных факторов ранжирования документов с алгоритмической завершённостью вычислительных процедур; 2) экспертной оценки пертинентности документов на основе показателей контентной эквивалентности; 3) вычисления PageRank страниц для произвольного фрагмента сети.
-
Предложены новые количественные показатели: 1) контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических; 2) пертинентности откликов поисковых систем на запросы пользователей (пертинентностная точность выдачи; подлинная пертинентность документа; максимальная пертинентность документов выдачи; кумулятивная пертинентность выдачи; векторная пертинентность выдачи; средние значения указанных ранее показателей, вычисляемые по 32-м точечным значениям); 3) авторитетности страниц ресурсов сети Интернет.
-
Сформулированы и доказаны теоремы, определяющие: 1) свойства показателей контентной эквивалентности; 2) диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет; 3) зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
-
Разработана концепция интерфейсной поисковой системы многоальтернативного поиска и адаптивного переранжирования, отличающаяся формированием точечных и средних значений оценок подлинной пертинентности документов, выдаваемых системой, контролем указанного среднего значения и изменением способа формирования итоговой выдачи при попадании этого значения в критическую область.
-
Разработан рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет, отличающийся рекурсивным использованием стандартного сервиса определения обратных ссылок.
Практическая ценность. Совокупность полученных теоретических и практических результатов может использоваться для построения метапоисковых и интерфейсных информационно-поисковых систем, позволяющих повысить эффективность информационной поддержки профессиональной целенаправленной деятельности сотрудников малых и средних предприятий и организаций, для которых гипотеза о тематической однородности запросов наиболее правдоподобна.
Для практического воплощения концепции интерфейсной поисковой системы в диссертации созданы два программных продукта (AltoSearch/АльтПоиск и SearchAnalizer/ПоискАнализатор), позволяющие автоматически формировать общую выдачу – обобщённый набор документов, получаемых от нескольких поисковых систем сети Интернет в ответ на запрос пользователя и расчет показателей контентной эквивалентности. Создан макет интерфейсной поисковой системы, опытная эксплуатация которого в рабочем процессе ООО «Мегапром» показала повышение подекадного среднего значения подлинной пертинентности на 10 – 18 % по сравнению с популярными поисковыми системами.
Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются использованием надежных методов исследования и подтверждаются: корректностью использования адекватного математического аппарата; хорошей апробацией материалов диссертации; успешным внедрением результатов в практику.
Реализация и внедрение результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены в ООО «Мегапром», ОАО «Рязанский проектно-технологический институт» (ОАО РПТИ), в ГОУВПО «Рязанский государственный радиотехнический университет» (ГОУВПО РГРТУ).
Разработанные программные продукты имеют свидетельства об официальной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):
-
программная система SearchAnalizer/ ПоискАнализатор. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., рег. № 2009612105;
-
программа AltoSearch/АльтПоиск. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., № 2009612104.
Информация о регистрации указанных программ содержится в журнале: Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ) № 3 (68). 2009 г. С. 90.
Основные положения, выноcимые на защиту.
-
Формализованные описания основных факторов ранжирования поисковых систем сети Интернет и методика их расчета.
-
Показатели контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических.
-
Теоремы, определяющие свойства показателей контентной эквивалентности.
-
Показатели пертинентности откликов поисковых систем на запросы пользователей.
-
Методика экспертной оценки пертинентности на основе показателей контентной эквивалентности.
-
Теорема, определяющая диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет.
-
Теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
-
Методика вычисления PageRank страниц для произвольного фрагмента сети.
-
Методика исследования зависимости авторитетности страниц произвольного фрагмента сети от внешнего потока PageRank.
-
Дополнительный показатель авторитетности страницы как фактор ранжирования в поисковых системах – SolidPageRank.
-
Концепция интерфейсной поисковой системы многоальтернативного поиска и адаптивного переранжирования.
-
Рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет.
Апробация работы. По теме диссертации сделаны доклады на 15-й Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2008 г.; XII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2007 г.; XIII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2008 г.; XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2009 г.; 4-й межвузовской научно-технической студенческой конференции «Актуальные проблемы персональных компьютеров и сетей», Москва, 2006 г.; Международной конференции «Инновационное управление в информационной среде», Рязань, 2007 г.; Третьей международной конференции «Инновационное управление в информационной среде», Рязань, 2008 г.;., а также на научных семинарах кафедры ВПМ РГРТУ.
Публикации. По теме диссертации опубликовано 20 научных работ, в том числе 11 материалов и тезисов докладов на международных и всероссийских конференциях и семинарах. Опубликовано 5 статей, из них 2 в издании, включённом в список ВАК. В Реестре программ для ЭВМ зарегистрированы 2 программы.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, основных обозначений и сокращений, списка использованной литературы и приложений. Основной текст содержит 146 страниц, 5 таблиц, 38 рисунка. Список литературы состоит из 117 наименований. Приложения выполнены на 5 страницах.