Введение к работе
Актуальность. Интернет представляет собой всемирную сеть передачи данных, абонентами которой являются пользователи компьютеров. Основными свойствами этой сети являются: - доступность для потенциальных пользователей (практически каждый владелец компьютера имеет возможность подключиться к Интернет, и в настоящее время в мире насчитывается порядка 200 млн. пользователей Интернет); - возможность каждого абонента сети сделать свою информацию доступной любому другому пользователю; -децентрализоваиность (отсутствие единого центра управления и единой адресной базы данных). Первые два обстоятельства определяют огромную роль Интернет практически во всех сферах человеческой деятельности, третье -определяет потребность в достаточно эффективных средствах навигации в Интернет.
В настоящее время по разным оценкам в Интернете находится от 800 млн. до 1 млрд. страниц, доступных любому пользователю. Очевидно, практическую ценность этот огромный объем информации может иметь для пользователя только при наличии эффективных средств поиска необходимых данных. Существуют два основных способа поиска информации в Web-пространстве Интернет: по ключевым словам с использованием поисковых машин (ПМ), и с использованием иерархических классификаторов (директорий). Директории предоставляют пользователям Интернет иерархические тематические рубрикаторы (выбрав подходящую рубрику, пользователь получает список страниц на заданную тему). Недостатком этого способа является большая трудоемкость наполнения директорий (производится экспертами вручную), в результате чего по количеству охваченных страниц директории па два порядка отстают от ПМ.
При поиске по ключевым словам ПМ позволяют отыскать подходящие страницы по поисковому запросу, основу которого составляют ключевые слова, отражающие тему поиска. Можно считать, что всей совокупностью существующих ПМ сегодня покрыто практически все Web-пространство, однако ни одна ПМ не охватывает его целиком. Сегодня известно около двух десятков основных универсальных ПМ (работающих по всему Web-пространству без каких-либо ограничений) и порядка двух тысяч специализированных: тематических, региональных, корпоративных и прочих ПМ.
Существующие ПМ, имея, в основном, общие принципы построения,
значительно отличаются друг от друга, как по охвату Web-пространства, так
и но возможностям языка запроса. .
Попытки исправить главный недостаток существующих ПМ - неполное, покрытие Web-пространства привели к созданию так называемых мета-поисковых средств (метапоисковых машин и метапоисковых утилит). Суть этих средств заключается в том, что они позволяют один запрос пользователя адресовать нескольким ПМ и .получить обобщенный результат, вероятность содержания полезной информации в котором оолыне, чем при обращении к каждой ПМ в отдельности. Однако,эти средства сохранили и во многих случаях усугубили другие недостатки ПМ, главными из которых являются:
различия в синтаксисе и оснащенности языков запроса;
невысокая точность результатов; ;
неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц);
погрешности в ранжировании результатов по релевантности;
потеря актуальности результатов (по наличию, по содержанию, по дате).
В данной работе рассматриваются вопросы повышения эффективности метапоиска информации по ключевым словам в Web-пространстве Интернет.
Цели и задачи работы. Целью работы является разработка интегрированной технологии решения задачи поиска информации в Web-пространстве Интернет, и реализация основных элементов этой технологии.
Для достижения поставленной цели решались следующие задачи:
-
Исследование современного состояния средств поиска информации на уровне поисковых и метапоисковых машин.
-
Структуризация пространства параметров, на основе которых осуществляется поиск.
-
Создание модели обобщенного языка запроса, охватывающего большинство параметров, по которым ведут поиск существующие поисковые машины, и расширение этого языка с целью поддержки новых поисковых технологий.
-
Создание архитектуры Интегрированной системы поддержки технологий работы в Web-пространстве Интернет (Web-машина), реализующей обобщенный язык запросов на трех уровнях:
на уровне обращения к ПМ;
на уровне обработки полученных от ПМ ответов (результатов);
на уровне анализа содержания страниц, адресуемых элементами списков адресов.
5. Реализация макета основных элементов Web-машины.
Методы исследования. При выполнении работы использовался аппарат теории сложных систем, структурного и функционального программирования, а также компьютерное моделирование. Общей методологической основой является системный подход. Научная новизна:
-
Предложена концепция обобщенного языка запросов, интегрально описывающего различные процедуры поиска информации в Web-пространстве Интернет, и реализована модель этого языка.
-
Предложена концепция интегрированной системы поиска информации в Web-пространстве Интернет как «машины», реализующей программу поиска, представленную на специальном процедурном языке.
-
Предложена и реализована технология матричной обработки списков адресов WEB-страниц
Практическая значимость. Полученные в работе результаты представляют собой методологическую основу для создания реальных интегрированных систем поиска информации в Web-пространстве Интернет. Они были использованы в ИПИ РАН при создании метапоисковой системы РО-БОНЕТ.
Апробация работы. Основные результаты диссертационной работы были изложены в докладах, представленных и обсужденных на научных конференциях и семинарах: «Социальная информатика-98» (Москва, 1998 г.), «Социальная информатика-99» (Москва, 1999 г.), на заседаниях Ученого Совета и научных семинарах ИПИ РАН (1984-2000 гг.) и др.
Структура и объем работы. Диссертационная работа состоит из введения, 3 глав, заключения по работе и списка литературы.