Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Интегрированная технология работы в Web-пространстве Internet Адамович Игорь Михайлович

Интегрированная технология работы в Web-пространстве Internet
<
Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet Интегрированная технология работы в Web-пространстве Internet
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Адамович Игорь Михайлович. Интегрированная технология работы в Web-пространстве Internet : диссертация ... кандидата технических наук : 05.13.11.- Москва, 2000.- 195 с.: ил. РГБ ОД, 61 01-5/962-9

Содержание к диссертации

ВВЕДЕНИЕ 5

Развитие Интернет 5

Структура Интернет-пространства, основные функции системы 7

Функции информационного обеспечения пользователей системы 9

Коммуникационные функции (функции связи) 11

Социально-коммуникационные функции 13

Функции поддержки процессов купли-продажи через Интернет. 14

Вспомогательные функции 15

Поиск информации в Интернет, эволюция технологий 16

Цели и задачи работы 21

Глава 1. СОВРЕМЕННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ 23

  1. Классификация средств поиска 23

  2. Поисковые машины 25

1.2.1. Общие принципы работы ПМ 25

  1. Пополнение и обновление индекса 25

  2. Формирование запроса на поиск информации 28

  3. Поиск и выдача результатов 28

  4. Последующая обработка результатов 29

1.2.2. Язык запроса 29

1.2.2.1. Критерии семантического отбора 30

Поисковое выражение 30

Запрос на естественном языке 34

Стоп-слова 34

Шаблон 36

Все формы слов 36

Ограничения по тематике 36

Указатели элементов страниц 37

  1. Указатели области Web-пространства 37

  2. Указатели ограничений по времени 39

  3. Указатели типов данных 39

  1. Мета-слова 39

  2. Управление параметрами расчета показателей релевантности и сортировкой 41

  3. Управление формой представления результатов 42

1.2.3. Поиск 42

1.2.3.1 Показатели качества результатов поиска 44

  1. Строгое и не строгое выполнение ПВ 45

  2. Вычисление показателей релевантности страниц... 46 Факторы, значение которых зависит от конкретного

запроса 46

Факторы, значение которых не зависит от конкретного
запроса 47

1.2.4. Представление результатов 48

  1. Формирование HTML-страниц с результатами поиска 48

  2. Общие сведения о результатах поиска 48

  3. Список результатов 50

  4. Разделы списков результатов 52

1.2.5. Продолжение поиска 53

  1. Метапоисковые средства 55

  2. Резюме 63

Глава 2. ЯЗЫК ОПИСАНИЯ ТЕХНОЛОГИЙ РАБОТЫ В WEB-
ПРОСТРАНСТВЕ - WWL(WORK IN WEB LANGUAGE)
66

  1. Предпосылки для создания языка 66

  2. Основные языковые сущности 69

  3. Объекты WWL 69

  1. Функциональные объекты 70

  2. Информационные объекты 71

2.4. Процедуры WWL 77

2.4.1. Процедуры поиска и обработки результатов 77

2.4.1.1. Поиск 78

Форма представления результата 85

Область размещения результатов 86

  1. Сжатие списка адресов 87

  2. Объединение списков адресов 91

  3. Сортировка списка адресов 93

  4. Конвертирование форм представления документов 94

  5. Сканирование 96

  1. Процедуры модификации запроса 98

  2. Процедуры формирования области поиска 100

  3. Процедуры работы с индексом 102

  4. Процедуры представления данных 103

  5. Операторы управления 104

Глава 3. ИНТЕГРИРОВАННАЯ СРЕДА ПОДДЕРЖКИ
ТЕХНОЛОГИЙ РАБОТЫ В WEB-ПРОСТРАНСТВЕ - WWE
(WORK IN WEB ENGINE)
107

3.1. Общие требования к WWE 107

  1. Позиционирование WWE 108

  2. Поддержка интерактивности 108

  3. Использование существующих поисковых инструментов 109

  4. Расширяемость и масштабируемость 110

  5. Гибкость и управляемость 112

  1. Основные задачи, решаемые пользователями WWE 112

  2. Основные принципы WWE 115

  1. Поддержка формирования запроса пользователя 115

  2. Получение первичного результата 116

  3. Анализ результатов поиска 119

  4. Вторичная, послепоисковая обработка 120

  1. Вторичный поиск 120

  2. Сжатие 121

  3. Объединение списков результатов 121

  4. Модификация запросов 124

3.3.5. Хранение данных 125

  1. Основные процессы (технологии) WWE 130

  2. Архитектура WWE 137

  3. Макетирование и экспериментальная проверка предлагаемых решенй 142

  1. Цель экперимента 142

  2. Описание Robonet 142

  1. Архитектура Robonet 142

  2. Механизм адаптации системы к функциональным возможностям и синтаксису входного и выходного языков ПМ 144

  3. Механизм обработки списков адресов 157

  1. Тестирование Robonet

  2. Проверка технологии сканирования 159

  3. Результаты эксперимента 165

ЗАКЛЮЧЕНИЕ 167

СПИСОК ЛИТЕРАТУРЫ 168

Приложение. ЯЗЫК ROBOSCRIPT 171

Основные понятия языка 171

Матрицы, векторы и их элементы 172

Инструкции 173

Комментарии 173

Операции 174

Операции, изменяющие свойства матрицы 175

Операции поиска 177

Операции сохранения и загрузки матрицы 177

Операции с несколькими матрицами 180

Методы анализа и преобразования содержимого матрицы 183

Операции преобразования матрицы без анализа содержимого. 191

Введение к работе

Развитие Интернет

Сегодня, в канун 21 тысячелетия «всемирная паутина» (World Wide Web) или как ее чаще называют «Интернет» получила необычайно широкое развитие, и наряду с такими «атрибутами цивилизации», как атомная энергетика, освоение космоса, персональный компьютер, по праву претендует на роль символа уходящего века.

И хотя ни одно из перечисленных направлений нельзя назвать стагни-рующим, все они продолжают неуклонное развитие, темпы роста индустрии Интернет не только превосходят рост других «отраслей цивилизации» сегодня, но и по мнению многих специалистов, сохранят это превосходство по крайней мере в первой четверти нового столетия.

Рост сети Интернет сегодня происходит по двум основным направлениям:

расширение числа индивидуальных и корпоративных пользователей сети;

расширение сферы ее применения..

Первое «количественное» направление роста Интернет является более или менее предсказуемым и его темпы связаны прежде всего с социально-экономическими аспектами жизни человеческого общества.

Второе, «качественное» направление кроме того во многом определяется как уровнем развития (прежде всего уровнем компьютеризации) охватываемых Интернетом сфер человеческой деятельности, так и готовностью представителей этих сфер идти на определенные риски и потери, неизбежные на этапе становления любой новой технологии.

Все эти факторы, как социально-экономические, так и корпоративно-технологические являются «внешними» по отношению к процессу развития Интернет. Главное, объединяющее их свойство заключается в том, что по мере развития сети Интернет, ее количественного и качественного рос-

та, сдерживающее, негативное влияние этих факторов будет уменьшаться, а положительное, позитивное - увеличиваться.

Иными словами, между процессом развития сети Интернет и процессами развития тех сфер человеческой деятельности, которые используют Интернет существует положительная обратная связь:

В то же время процесс развития сети Интернет (которую, наверное, уже пора называть не сетью, а глобальной, распределенной информационно-коммуникационной системой) содержит в себе некоторое внутреннее, объективное противоречие, которое можно сформулировать следующим образом:

По мере роста информационного пространства Интернет, практическая ценность размещенной в этом пространстве информации снижается из-за увеличивающейся сложности и трудоемкости процессов ее поиска и идентификации.

Это значит, что между процессом развития Интернет и процессом практического использования хранящейся в ней информации существует отрицательная обратная связь.

Следует отметить, что это противоречие, присущее любому информационному пространству предназначенному для практического использования содержащейся в нем информации, возникло задолго до появления Интернет. Секционированные стеллажи книго- и документохранилищ, базы данных, всевозможные каталоги, рубрикаторы и классификаторы, перфокарты с краевой перфорацией , информационные языки запросов и многие, многие другие средства облегчения доступа к информации, часть из которых известна человеку со времен античности и средневековья свидетельствуют о том, что борьба за смягчение этого противоречия (устранить его невозможно, ибо оно является абсолютно объективным) велась на всех этапах информатизации человеческого общества.

Однако именно с появлением Интернет, которая исходно, по определению создавалась, как система глобального объединения информационных ресурсов человеческого общества, эта проблема встала особенно остро.

И хотя умудренное предшествующим «доинтернетовским» опытом человечество начало решение проблемы поиска информации в Интернет практически одновременно с созданием самой глобальной сети, эта проблема в настоящее время весьма далека от своего решения.

Структура Интернет-пространства, основные функции системы.

В общем случае, рассматривая Интернет, как глобальную, распределенную информационно- коммуникационную систему все объекты этой системы, можно разбить на 2 класса:

- объекты, реализующие коммуникационную, транспортную функ
цию системы;

- объекты, реализующие информационную функцию Интернет.
Объекты первого класса, к которым относятся всевозможные модемы,

маршрутизаторы, усилители, коммутаторы, а также проводные, оптические, радио каналы связи в контексте данной работы будем считать вспомогательными, и исключим из дальнейшего рассмотрения.

Что касается объектов второго класса, то они делятся на две основные группы:

объекты, предоставляющие информацию ее потребителям, путем оказания тех или иных информационных услуг (объекты-доноры или серверы);

объекты, получающие, принимающие информацию от объектов-доноров (объекты-акцепторы или клиенты).

Здесь необходимо отметить, что в общем случае, в зависимости от характера решаемой задачи или стадии ее решения, один и тот же объект системы может выполнять (как поочередно, так и одновременно) функции сервера и клиента.

Рассматривая информационное пространство Интернет (рис.1) необходимо выделить в нем следующие подпространства:

основную информацию;

дополнительную или метаинформацию;

8 - служебную информацию.

Рис 1. Структура информационного пространства Интернет

Служебная информация, несущая в себе главным образом сведения о том, как должна быть представлена клиенту основная или вспомогательная информация также в дальнейшем рассматриваться не будет.

Что касается метаинформации, то она в свою очередь подразделяется на два типа:

адресная метаинформация, т.е. информация о том, где размещен тот или иной информационный ресурс в Интернет-пространстве;

семантическая метаинформация, т.е. семантическая «свертка» того или иного информационного ресурса Интернет, отвечающая на вопрос что содержит информационный объект, охарактеризованный соответствующим объектом метаинформации.

Основная же информация Интернет сегодня настолько обширна и многообразна, что наиболее адекватной ее характеристикой будет утверждение:

Сегодня в Интернет есть всё!

Рассматривая структуру функционального пространства Интернет (рис.2) можно выделить в нем 4 основные группы функций (подпространства).

Функции информационного обеспечения пользователей системы.

Это наиболее мощная (с точки зрения нагрузки на трафик сети Интернет) группа функций.

В этой группе в свою очередь можно выделить три основные подгруппы.

Подгруппа «просветительных» функций обеспечивает размещение в Интернет-пространстве и предоставление пользователям системы разнообразной информации, используемой ими в своей трудовой деятельности, в быту, в учебном процессе, в процессе рекреации и т.д.

Электронные версии периодических печатных изданий, учебные курсы, электронные версии литературных и музыкальных произведений, кинофильмы и видеозаписи театральных постановок - вот далеко не полный перечень информационных ресурсов Интернет, охватываемых функциями этой подгруппы.

Основными средствами, реализующими в Интернет эти функции, являются WWW и FTP серверы, являющиеся источниками этой информации, а также Интернет-браузеры, выполняющие функции приемников этой информации на клиентских рабочих местах.

Подгруппа рекламных функций обеспечивает размещение в Интернет-пространстве и доведения до пользователей Интернет информации рекламного характера.

Сама по себе рекламная информация по чисто формальным, структурным признакам мало, чем отличается от информации «просветительской». Да и концептуально граница между этими понятиями довольно размытая. Однако «продвижение» рекламной информации к пользователю поддерживается некоторыми специальными функциями и механизмами.

Функциональное

пространство

Интернет

Функции информационного обеспечения пользователей Интерент

Коммуникационные функции

Социально-коммуникационные функции

Функции поддержки процессов купли/продажи

"Просветительские" функции

Поддержка режима "точка - точка"

Поддержка

процессов

волеизъявления

Поддержка процесса выбора товара

Рекламные

функции

Поддержка режима "селектор"

Поддержка игровых

и других рекреационных процессов

Поддержка процесса оплаты товара

Справочные функции

Поддержка режима "конференция"

Поддержка процессов нефор-мального общения

Поддержка процесса

сопровождения

товара

Поддержка процессов дистанционного образования

Рис. 2. Структура функционального пространства Интернет

Прежде всего, это механизм взаимного обмена между WWW-серверами специальными рекламными объявлениями «баннерами». Баннер представляет собой небольшую заставку рекламного характера, размещаемую на страницах одного или нескольких сайтов. Основная задача баннера - привлечь к себе внимание посетителей этих сайтов. Технически баннер выполнен в виде кнопки, кликнув которую пользователь попадает на сайт, представителем которого и является данный баннер.

Другой механизм доведения до пользователей рекламной информации опирается на так называемые «Push-технологии». Суть их заключается в том, что активность в распространении, т.е. пересылке информации на рабочие места пользователей, берет на себя сервер. *

С определенной периодичностью он рассылает браузерам-клиентам заранее определенную информацию, обычно носящую рекламно-справочный характер.

Подгруппа «справочных» функций является, по сути, подмножеством, разновидностью подгруппы «просветительных» функций. Основное отличие заключается в том, что сайты, содержащие информацию справочного характера, (адреса, телефоны, тарифы, цены, курсы валют, курсы акций, данные метеосводок и т.д.) имеют достаточно жестко зафиксированную по структуре форматов хранения и по содержанию информацию. «Семантика» таких информационных объектов определяется в основном значениями их атрибутов.

Коммуникационные функции (функции связи).

Эти функции обеспечивают обмен информацией между пользователями Интернет.

Наиболее «древней» из функций этой группы является электронная почта, т.е. обмен данными между пользователями сети, осуществляемый через электронный почтовый ящик, куда передающая сторона «кладёт» и откуда принимающая сторона «вынимает» предназначенные ей сообщения.

Начавшись с почтового обмена текстовыми сообщениями между двумя абонентами, электронная почта претерпела ряд существенных эволюционных преобразований.

Прежде всего, её развитие шло в направлении расширения типологии информационных объектов, пересылаемых по почте.

Сначала появилась возможность передавать наряду с текстовыми графические объекты, а затем и объекты других форматов (звуковые объекты, видеофайлы, бинарные коды программ и т.д.). Эти объекты «прикреплялись» к текстовой части письма (которая в общем случае могла и отсутствовать) и пересылались в почтовый ящик адресата. Затем появились специализированные почтовые службы (голосовая почта, факсовая почта), которые, как и классическая текстовая электронная почта работали в режиме off-line, осуществляя обмен через почтовые ящики служб Интернет.

Другим направлением развития коммуникационных функций стал переход к обмену информацией в режиме on-line, при котором этот обмен производится в реальном масштабе времени. Хорошим стимулом для прогресса в этом направлении является существующая сегодня «ценовая маржа» между стоимостью трафика в классических телефонных сетях и в Интернет.

На первом этапе были созданы программы текстового (диалогового) и речевого взаимодействия между пользователями Интернет по принципу точка-точка. Устройства, поддерживающие эти функции, получили название «Интернет-телефонов». Большинство из этих устройств, среди которых наибольшую популярность получил продукт компании Microsoft "Net Meeting", обеспечивают выполнение обеих функций, а Интернет-телефон, разработанный специалистами ИЛИ РАН, кроме того, обеспечивает в режиме on-line обмен файлами произвольного формата.

Дальнейшая эволюция этой функциональности привела к появлению Интернет-коммуникаторов, т.е. устройств, позволяющих передавать в режиме on-line любую информацию - тексты, графику, звук, факсы, видео.

Наконец, еще одним направлением развития коммуникационных функций стал переход от режима обмена «точка-точка» (один к одному) к

13 режимам «селектор» (один ко многим) и «конференция» (много ко многим).

Социально-коммуникационные функции.

Функции этой группы обеспечивают поддержку таких важных процессов социально-бытовой активности человека, как его гражданское волеизъявление, рекреационная активность, активность, связанная с потребностью в неформальном общении с другими людьми, активность, связанная с процессами получения образования.

Поддержка процессов гражданского волеизъявления обеспечивается созданием и вводом в эксплуатацию различных систем проведения опросов, организации дискуссии и голосования по Интернет.

Следует отметить, что техническая реализация механизмов поддержки процессов гражданского волеизъявления не представляется чрезмерно сложной, так как большинство этих процессов опирается на уже сформировавшиеся и апробированные технологии Интернет (Push-технологии, News-технологии и т.д.).

Поддержка рекреационной активности населения также во многом опирается на механизмы обеспечения перечисленных выше функций, хотя и имеет определенную специфику. Эта специфика относятся прежде всего к поддержке рекреационных процессов, осуществляемых в игровой форме.

С этой целью в Интернет были внедрены и продолжают внедряться специализированные игровые серверы (Game Zone), а на клиентских станциях устанавливаются сложные агенты этих игровых серверов, осуществляющие связь с ними по специальным игровым протоколам.

Поддержка процессов неформального общения также во многом опирается на общие (неспецифические) технологии. К их числу относятся технологии текстовой и голосовой связи по Интернет, механизмы и технологии конференций (News), диалогового обмена (Chat). В то же время обеспечение такой важной функции неформального общения, как выбор партнеров, потребовал создания специализированных коммуникационных

14
серверов (так называемых Directory-серверов). Главной их

задачей является регистрация пользователей, подключившихся к данному серверу с целью поиска партнеров для общения. Чаще всего эти пользователи подключаются к определенным группам «по интересам». Иногда эти группы являются «элитными», «замкнутыми». Тогда подключение к соответствующей директории этого сервера может осуществляться только после ввода специального пароля, который предполагает предварительную регистрацию в этой группе.

Получающие в последнее время всё большее распространение Системы Дистанционного Образования по Интернет также во многом опираются на универсальные технологии. Однако специфика поддержки функций дистанционного обучения, безусловно, требует специализированных решений. В данном случае эти решения должны обеспечивать поддержку всех этапов процесса Дистанционного образования (рассылку методических материалов, поддержку заочных консультаций, контроль за степенью усвоения учебного материала, проведение зачетных и экзаменационных сессий и т.д.).

Функции поддержки процессов купли-продажи через Интернет.

Торговля через Интернет хронологически является самой «молодой» сферой его применения. И объясняется это прежде всего особо высокими требованиями к защите информации и надежности функционирования алгоритмов, реализующих функции купли/продажи [1].

Структурно функции поддержки торговли через Интернет огут быть разбиты на три основные группы:

функции, обеспечивающие выбор товара;

функции, обеспечивающие покупку товара, оплату его стоимости;

- функции, обеспечивающие доставку товара покупателю.
Функции первой подгруппы чаще всего реализуются через так назы
ваемые Интернет-магазины [2.3].

Основная задача Интернет- магазина это предоставление пользователю максимально полной информации как о товарной номенклатуре, так и потребительских свойствах ( включая Design) каждого из продуктов.

Решение этих задач во многом определяется профессионализмом и художественным вкусом Web-дизайнера магазина.

Функции, обеспечивающие покупку товара, т.е. оплату его стоимости осуществляют связь между сервером магазина и сервером платежной системы, к которой подключен данный магазин [4,5].

С помощью этих функций покупателю предоставляется интерфейс для ввода в платежную систему параметров его кредитной карты и суммы платежа, если она не формируется автоматически магазином при выборе товара покупателем.

В случае получения положительного ответа из платежной системы начинают функционировать процессы обеспечения доставки товара.

Для товаров, которые могут быть пересланы по сети, формируются специальные электронные посылки-контейнеры, содержащие саму электронную версию проданного продукта, а также необходимую информацию для его установки и ввода в эксплуатацию.

В случае если объектом продажи был товар, который принципиально не может быть переслан по электрическим каналам (например, мебель) функции, обеспечивающие доставку товара, ограничиваются формированием необходимых сопроводительных и отчетных документов.

Вспомогательные функции

На рис. 2 показаны только основные «рабочие» функции Интернет.

Однако реальное и эффективное функционирование системы предполагает наличие в ней механизмов поддержки ряда «служебных», вспомогательных функций.

Помимо уже упомянутых функций обеспечения информационной безопасности системы, т.е. защиты системы от несанкционированного доступа, к числу таких функций относятся функции, обеспечивающие за-

щиту пользователя от ненужной, избыточной (а для

несовершеннолетних и вредной) информации, а также функции, обеспечивающие процесс поиска информации, необходимой пользователю.

Назовем функции первой группы функциями «информационной фильтрации», а второй - «информационного поиска».

Несмотря на различие конечных целей каждого из этих процессов между ними существует фундаментальная общность. «Найти, чтобы оградить пользователя от найденной информации» - вот лаконично изложенная сущность процесса информационной фильтрации.

«Найти, чтобы предоставить пользователю найденную информацию» -вот «лозунг» процесса информационного поиска.

Нетрудно заметить, что общим в обоих предложениях является глагол «НАЙТИ». Назовем процесс, инициируемый задачей «Найти» - процессом «информационной идентификации». Этот процесс и опирающиеся на него информационный поиск и информационная фильтрация в той или иной мере присутствует во всех разделах «рабочего» функционального пространства Интернет.

Однако наибольшую значимость эти процессы приобретают в ходе выполнения самых массовых, самых «востребованных» функций» Интернет - функций информационного обеспечения пользователей сети. Рискуя повториться, еще раз подчеркнем, что от эффективности процессов информационного поиска и информационной фильтрации во многом зависит будущее всемирной паутины.

Поиск информации в Интернет, эволюция технологий

Как известно, вся информация в Интернет размещается на серверах, предоставляющих различные Интернет-услуги своим пользователям-клиентам. Внутри каждого сервера информация структурируется так, что отдельные ее фрагменты размещаются на страницах этого сервера. Каждая страница характеризуется своим адресом в Интернет, который включает в себя две компоненты: адрес сервера в сети Интернет и адрес страницы на сервере. Поскольку адреса серверов в сети Интернет являются

17
уникальными и адрес страницы на сервере также является

уникальным, то уникальным является и адрес страницы в Интернет.

В общем случае считается, что пользователь представляет себе, ЧТО его интересует, предполагает, что эта информация размещена в Интернет, но не знает ГДЕ (по какому адресу или по каким адресам) она находится. На ранних стадиях развития Интернет проблема поиска решалась традиционным путем. Владельцы сайтов давали информацию о них в редакции специальных справочников по информационным ресурсам Интернет. Эти справочники (по аналогии с телефонными называвшиеся «Желтые страницы») регулярно издавались и какое-то время служили главными источниками сведений об информационных ресурсах Интернет и единственным средством поиска информации в Web-пространстве. Однако, очень скоро темпы роста информационных ресурсов Интернет достигли таких значений, при которых «бумажный» метод хранения информации о ресурсах Интернет уже не смог справиться ни с объёмом этих ресурсов, ни с темпами их появления.

На смену бумажным хранилищам информации о ресурсах Интернет пришли электронные - так называемые машины поиска или поисковые машины (Search Engine).

С самого начала поисковые машины (ПМ) строились на базе двух различных принципов. Поисковые машины первого типа представляли собой иерархически организованный тематический каталог (дерево), к узлам которого прикреплялись списки адресов страниц, содержащих информацию соответствующего уровня и направленности. Такие ПМ называются «директориями».

ПМ второго типа строятся на базе так называемого «Индекса». В общем случае индекс можно представить себе как массив кортежей переменной длины. Первым элементом каждого кортежа является слово из словаря того языка, на котором будет вестись поиск. Последующие элементы кортежа представляют из себя адреса тех страниц Интернет-пространства, в которых данное слово встретилось хотя бы один раз.

Предполагается, что массив кортежей отсортирован по их первому элементу. Вектор-столбец, состоящий из этих элементов и являющийся по сути «расписанным в столбик» словарем, и служит индексом для поиска информации «по ключевым словам».

Отметим, что в общем случае ПМ может осуществлять поиск не только по отдельному ключевому слову, но и по логическому выражению, операндами которого являются ключевые слова.

Понятно, что ПМ «найдет» только те адреса страниц, которые на момент поиска были занесены в её «директорию» или «индекс». В первом случае в реальной практике такое занесение делается вручную одним или несколькими «экспертами», ответственными за наполнение ПМ-директории.

Во втором случае построение индекса осуществляется специальным механизмом (crawler), который входит в состав «индексной» ПМ. Crawler по определенному алгоритму сканирует некоторое множество сайтов, являющееся «зоной охвата» данной ПМ.

По мере развития сети Интернет увеличивалось число ПМ, расширялись зоны охвата наиболее мощных из них. Появились ПМ, специализирующиеся на определенных «тематических» или «географических» подпространствах общего пула Интернет-ресурсов. Однако рост Интернет-пространства, безусловно, опережал увеличение зон охвата ПМ, которые в относительном значении становились все уже.

Ликвидация этого «разрыва» явилась главной задачей появившихся вслед за поисковыми машинами средств «метапоиска» (МП).

Наиболее примитивные из них просто представляли из себя Интернет-страницу, на которой были собраны вместе адреса (ссылки) некоторого множества поисковых машин. Пользователь, «кликнув» любую из них, попадал на главную страницу ПМ, а завершив процедуру работы с данной поисковой машиной возвращался на исходную страницу, которая представляла собой некоторый «адресный мульплексор» или «портал».

Следующим шагом на пути метапоиска стало появление средств, предоставляющих пользователю не набор ссылок на группу ПМ, а непосред-

19 ственные интерфейсы к этим машинам. На этих интерфейсах пользователю давалась возможность сформулировать запрос (для каждого интерфейса на языке той ПМ, агентом которой он является) и обратиться с ним к соответствующей ПМ.

В обоих случаях после обращения к каждой ПМ пользователь получал результат в виде нескольких HTML страниц с перечнем ссылок на найденные Интернет-ресурсы. Объединять же результаты, полученные от каждой ПМ, дабы добиться увеличения «охвата», пользователь должен был вручную.

Дальнейшая эволюция средств метапоиска привела к появлению так называемых метапоисковых машин (МПМ). МПМ автоматизировала два основных процесса многомашинного поиска - обращение с запросом к набору ПМ и объединение полученных результатов.

Следует отметить, что некоторые МПМ по сути являются метапоиско-выми машинами «второго порядка», так как включают в число поисковых средств, к которым они обращаются, не только ПМ, но и МПМ.

Однако проблемы, связанные с удовлетворением информационных потребностей пользователей Интернет не сводятся только к первичному поиску, осуществляемому на базе поисковых и метапоисковых машин. Технологии, применяемые при работе в WWW, значительно шире.

Во-первых, каким бы точным не оказалось логическое выражение на ключевых словах, лежащее в основе поискового запроса, полученный список адресов обязательно будет в той или иной степени содержать «мусор», «шум».

Какие-то страницы содержат информацию уже не актуальную, т.к. их содержание подменили уже после того, как эта страница была последний раз обработана поисковой машиной.

Некоторые страницы за этот период могут быть просто удалены.

Поэтому уже сегодня в качестве одной из технологий начинает находить применение процесс удаления из результатов работы ПМ (или МПМ) «мусора неактуальности».

20 Иногда пользователь заранее знает, какие ограничения на поиск необходимо наложить изначально, но у конкретной поисковой машины нет средств для задания (ну и, разумеется, реализации при поиске) этих ограничений.

Например, пользователь хотел бы получить информацию только из Web-ресурсов Австралии (расширение ".аи" в адресах страниц). Или пользователь не хотел бы получать список, в который включено множество адресов страниц, относящихся к одному сайту. Ему было бы достаточно адреса Home page этого сайта. Поскольку сегодня далеко не всем ПМ (МПМ) можно предписать выполнение таких процедур усечения и сжатия, то технология такой «послепоисковой» обработки также имеет полное право на существование.

Борьба за выживание в океане WWW-информации постоянно побуждает создателей инструментария для работы в Интернет к поиску новых решений.

К ним можно отнести и построение собственных (корпоративных) индексов для повышения эффективности работы сотрудников корпорации. В таком вторичном корпоративном подпространстве Интернет-информации существенно снижается уровень шума при реализации запросов. Кроме того, уменьшается время доступа, т.к. для большинства пользователей этого ресурса доступ к нему предоставляется по локальной сети.

Однако не следует заблуждаться в том, что рост числа различных Web-технологий и инструментов, их реализующих, вызывает адекватный эффект от их применения.

Во-первых, большое число разрозненных, зачастую полностью дублирующих друг друга по функциям и при этом существенно различающихся по интерфейсам устройств, вносят известную сумятицу в головы пользователей, приводя иногда к парадоксальному «не выбрал ничего из-за обилия предложений».

Во-вторых, отсутствие каких-либо стандартов на большинство WWW-технологий, их разобщенность приводит к тому, что даже выбрав наиболее удачные из WWW-инструментов, пользователь при их совместном

21 использовании будет вынужден вручную выполнять множество операций, призванных состыковать изначально несогласованные информационные интерфейсы.

Сегодня достаточно очевидно, что унификации Web-инструментов, интеграция Web-технологий - вот та ключевая задача, без решения которой к.п.д. от увеличения информационных ресурсов в Интернет-пространстве будет постоянно снижаться, парадоксально контрастируя с ростом их объема.

Проблеме унификации и интеграции Web-технологий, как важнейшему средству, обеспечивающему развитие Интернет с точки зрения повышения эффективности его использования, посвящается настоящая работа.

Цели и задачи работы

Целью работы является разработка интегрированной технологии решения задачи поиска информации в Web-пространстве Интернет, и реализация основных элементов этой технологии.

Для достижения поставленной цели решались следующие задачи:

  1. Исследование современного состояния средств поиска информации на уровне поисковых и метапоисковых машин.

  2. Структуризация пространства параметров, на основе которых осуществляется поиск.

  3. Создание модели процедурного языка, описывающего все основные технологии работы в Web-пространстве и позволяющего гибко управлять процессами интеграции этих технологий. (Язык работы в Web-пространстве, Work in Web Language - WWL).

  4. Создание архитектуры Интегрированной системы поддержки технологий работы в Web-пространстве Интернет (Web-машина), реализующей функцию интерпретатора программ на WWL и обеспечивающей интеграцию процессов на трех уровнях:

на уровне обращения к ПМ;

на уровне обработки полученных от ПМ ответов (результатов);

на уровне анализа содержания страниц с текстами документов.

22
5. Реализация макета основных элементов Web-машины и

экспериментальная проверка отдельных технологий.

Похожие диссертации на Интегрированная технология работы в Web-пространстве Internet