Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Многоагентная система для поиска и обработки тематико-ориентированной информации Карцан Игорь Николаевич

Многоагентная система для поиска и обработки тематико-ориентированной информации
<
Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации Многоагентная система для поиска и обработки тематико-ориентированной информации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Карцан Игорь Николаевич. Многоагентная система для поиска и обработки тематико-ориентированной информации : диссертация ... кандидата технических наук : 05.13.01 / Карцан Игорь Николаевич; [Место защиты: Сиб. аэрокосм. акад. им. акад. М.Ф. Решетнева]. - Красноярск, 2007. - 185 с. : ил. РГБ ОД, 61:07-5/4210

Содержание к диссертации

Введение

1 Мультиагентные системы ...9

1.1 Основные понятия 9

1.2 Архитектуры мультиагентных систем 11

1.3 Проектирование мультиагентных систем 12

1.4 Агентные системы и поиск информации 14

1.5 Типовая структура и алгоритмы поисковой мультиагентной системы 18

Выводы по разделу 1 28

2 Принципы организации поисковых систем сети Internet 30

2.1 Проблемы поиска в Интернете 30

2.2 Виды и принципы работы поисковых систем 34

2.3 Особенности поисковых систем и каталогов 46

2.4 Принципы организации поисковых систем 51

2.5 Метапоисковые системы 54

2.6 Персонифицированная поддержка навигации в сети Internet , 58

2.7 Этапы процесса персонификации 61

2.8 Системы создания информационных ресурсов и информационные ресурсы с

поддержкой персонификации 66

2.9 Перспективы применения персонификации в информационных системах 68

Выводы по разделу 2 69

3 Модели и алгоритмы многоагентных систем поиска и обработки мультилингвистической информации 71

3.1 Обобщенный алгоритм работы поисковых систем 72

3.2 Модели информационного поиска 75

3.3 Алгоритмическое обеспечение тем атико-ориентиро ванно го мониторинга и персонификации 101

3.4 Оценка качества поисковых алгоритмов 123

Выводы по разделу 3 125

4 Система формирования и управления тематическими коллекциями узкоспециализированной информации 127

4.1 Функциональная структура системы 127

4.2 Алгоритм работы подсистемы формирования тематико-ориентированпых коллекций 129

4.3 Алгоритм работы подсистемы обработки пользовательского запроса 141

4.5 Реализация алгоритмов системы поиска информации 150

4.6 Реализация алгоритмов системы обработки пользовательского запроса 157

4.7 Архитектура подсистемы тематико-ориентированного мониторинга 160

4.8 Проведение эксперимента 163

Выводы по разделу 4 , 171

Заключение 173

Список использованных источников 175

Введение к работе

Информационные технологии и компьютерные информационно-поисковые системы занимают все более существенное место в науке и образовании. И, естественно, возрастает потребность в оперативно доступных научно-образовательных материалах» позволяющих одновременно улучшить и ускорить как процесс обучения, так и научно-технический прогресс. Кроме того, в последние годы отмечается рост количества иностранной литературы, необходимой студентам, специалистам и инженерам, а также научным сотрудникам, что обуславливает потребность в иностранной научно-технической и познавательной информации. Поэтому неудивительно, что все больше внимания уделяется Internet, как обширному справочному инструменту. Это не случайно, тенденция развития Internet-технологий не стоит на месте. Ежедневно увеличивается количество информационных ресурсов, предоставленных для открытого доступа, увеличивается сфера развлечений и бизнеса. Все это позволяет сделать вывод о том, что увеличивается объем те-матико-ориентированной информации по всевозможным предметным областям. Так же развитие глобальной сети и широкие возможности подключения к ней обусловили увеличение числа пользователей Internet.

Однако, несмотря на популярность и динамический рост глобальной сети, Internet до сих пор при поиске информации возникает множество вопросов. На текущий момент времени можно выделить три типа поисковых машин в сети: поисковые сервисы, каталоги и относительно новый вид - ме-тапоисковые технологии. Самое интересное в их работе состоит то, что их принципы обработки и управления информации существенно отличаются друг от друга. На текущий момент времени производятся попытки по комбинированию данных алгоритмов и методов. Однако большинство данных исследований останавливаются только на этапе совмещения информационных баз, а не на выработке принципиально новых комбинированных поисковых агентов. А ведь комбинированные сервисы позволят решить проблему ин формационной избыточности сети Internet. Также большинство крупных поисковых систем строится на агентном принципе, что позволяет производить модификацию отдельных агентов не зависимо от работоспособности системы в целом.

Диссертационное исследование направлено на решение следующей научной проблемы, включающей: поиск тематико-ориентированной информации для формирования и актуализации тематико-ориентированных коллекций (сервисов); компьютерный анализ тематико-ориентированной информации с целью определения принадлежности ее к предметной области, для отнесения документов к рубрикам тематической коллекции (сервиса); использование частотных характеристик терминов для определения коэффициента ранжирования информации в рамках тематической коллекции (сервиса); организация отклика системы для конечного пользователя тематико-ориентированной коллекции (сервиса). Наличие данных проблем, которые охватывают весь процесс работы те мати ко-ориентирован но го информационного сервиса, и обуславливает актуальность работы.

Объектом диссертационного исследования являются поисковые сервисы и тематико-ориентированные коллекции сети Internet.

Предмет исследований - модели и алгоритмы многоагентной сетевой поисковой технологии на основе компьютерных методов обработки информации.

Цель диссертационной работы: повышение эффективности много-агентных систем для поиска, анализа и компьютерной обработки тематико-ориентированной информации за счет реализации новых поисковых технологий, основанных на специализированных тематических коллекциях.

Поставленная цель достигается путем решения следующих задач:

• анализ компьютерных систем поиска и метапоиска информации в глобальной сети Internet;

• анализ алгоритмов работы многоагентных систем поиска и обработки информации в сети Internet;

• анализ существующих подходов к мониторингу различных аспектов работы пользователей с информационными системами и используемых в них алгоритмов и методов моделирования объектов предметной области;

• модификация и разработка новых алгоритмов поиска и управления информацией в тематико-ориентированных коллекциях, обеспечивающих высокий уровнь релевантности поисковых процедур;

• разработка алгоритма определения уровня релевантности Internet-отклика запросу, удовлетворяющему предметной области и тематике запроса в рамках многоязычной предметной области, с использованием мультилингвистических частотных словарей;

• разработка алгоритма тематико-ориентированного мониторинга предпочтений пользователя информационной системы и метода определения тематических предпочтений пользователя;

• разработка независимой структуры многоагентной системы с возможностью применения предлагаемых агентов в любых системах поиска и обработки информации в сети Internet.

Методы исследования

При выполнении работы использовались методы системного анализа, методы поиска и управления информацией, методологии структурного анализа и проектирования сложных систем, статистические методы обработки данных, аппарат теории графов.

Научной новизной обладают следующие результаты работы:

- алгоритм анализа отклика системы на пользовательский запрос при многоагентном поиске и обработке информации;

- алгоритмы ранжирования и определения релевантности узкоспециализированной информации для тематико-ориентированных коллекций;

-алгоритмическое обеспечение и архитектура подсистемы тематико-ориентировапного мониторинга пользователей узкоспециализированной информационной коллекции;

- многоагентная система на базе метапоисковой технологии, обеспечивающая эффективное формирование и актуализацию тематико-ориентированных коллекций;

- структура и программная реализация многоагентной системы персонифицированного поиска и обработки тематико-ориентированной информации.

Значение для теории. Результаты, полученные в ходе выполнения диссертационной работы, создают теоретическую основу для разработки методов и алгоритмов формирования персонализированных компьютерных систем поиска и обработки тематико-ориентированной информации. Обоснована возможность применения частотных мультилингвистических тематических словарей для формирования и управления тематико-ориентированными коллекциями (сервисами).

Практическая ценность

Разработанное в диссертации модельно-алгоритмическое обеспечение позволяет повысить эффективность функционирования адаптивных много-агентных систем поиска информации и улучшить качество компьютерной обработки информации при анализе релевантности электронных документов. Это возможно в рамках нового направления в поисковой технологии анализа и управления информацией в Internet, основанного на многоязычных тематико-ориентированных частотных словарях. Разработанная в диссертации программная система обеспечивает автоматизированный поиск и формирование информационно-терминологического базиса мультилингвистической адаптивно-обучающей технологии.

Использование системы позволяет:

• эффективно формировать и управлять тематико-ориентированными коллекции узкоспециализированных источников информации (журнальные статьи, книги, монографии, диссертации и т.п. по заданным предметным областям);

• производить автоматизированный анализ тематических коллекций на качество представленной в них информации с точки зрения принадлежности к предметной области.

Реализация результатов работы

Разработанная автором диссертации компьютерная система поиска и обработки информации принята в опытную эксплуатацию на кафедрах Информатики, Информационных технологий и Юнеско Сибирского федерального университета.

Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения и списка использованной литературы из 108 наименований.

Архитектуры мультиагентных систем

Машины поиска являются в Интернете самым распространённым и доступным ресурсом для извлечения информации. При пополнении своих баз данных поисковые машины используют сетевых роботов - слайдеров. Спай-деры перемещаются по Web от сайта к сайту. Некоторые из них перемещаются от сервера к серверу беспорядочно, другие используют приоритеты, например посещаемость сайта. Оказавшись на сайте, спайдер посылает отчёт поисковой системе и продолжает индексирование.

Основными характеристиками поисковых систем являются объём индекса, язык запросов пользователя, представление исходных и входных документов, время индексации и поиска.

Как правило, поисковые машины обеспечивают интерфейс типа «текстовое поле-кнопка», с помощью которого пользователь может скомпоновать запрос на поиск информации, использую ключевые слова и логические связки. Большинство машин находят огромное количество «релевантных» страниц по запросу пользователя. Каждый найденный документ ранжируется по степени его корреляции с запросом. Релевантность каждого документа оценивается с помощью разных технологий: учёта частоты появления на странице искомых слов, «расстояния» между искомыми словами, содержимого метатегов, пространственно-временного контекста документа, популярности ресурса в рейтингах, использование индекса цитирования.

Типичную организацию машин поиска можно рассмотреть на примере машины WebCrawler, разработанной в университете Вашингтон (Сиэтл, США).

WebCrawler начинает процесс поиска новых сайтов с известных ему документов и переходит по ссылкам на другие страницы. Он рассматривает сетевое пространство как ориентированный граф и использует алгоритм обхода графа, работая в следующем цикле [36]: найти новый документ; отметить документ как извлечённый; расшифровать ссылки с этого документа; проиндексировать содержание документа.

Поисковый механизм работает в двух режимах: поиск документов в реальном времени и индексирование документов. В режиме индексирования система строит индекс информации из найденных документов, в режиме поиска - документы, максимально соответствующие запросу пользователя.

Агенты в системе WebCrawler отвечают за извлечение документов из сети. Для выполнения этой работы поисковый механизм находит свободного агента и передаёт ему задание на поиск. Агент приступает к работе и возвращает либо содержание документа, либо объяснения, почему документ не может быть доставлен. Агенты запускаются как отдельные процессы, что позволяет изолировать основной процесс работы системы от ошибок и проблем с памятью. Одновременно используется до 15 агентов [52].

В базе данных хранятся метаданные документов, связи между документами и полнотекстовый индекс. База обновляется каждый раз, когда поступает новый документ. Для отсечения семантически незначимых слов существует стоп-словарь. Словам из документа приписывается вес, равный частоте их появления в данном тексте, делённой на частоту появления слова в ссылках на другие документы. Такой индекс позволяет быстро находить по заданному слову ссылки на документы, его содержащие.

Аналогичным образом устроены и другие машины поиска. Они не могут настраиваться на предпочтения пользователя и не имеют достаточных средств для анализа информации, а сетевым роботам становится всё труднее справляться с постоянным ростом ресурсов Интернета. Главной задачей машин поиска является индексация ресурсов глобальной сети. Фактически в базах данных машин поиска хранится информация о том, где и что лежит в Сети. Поэтому можно считать, что существующие машины поиска обеспечива ют низкоуровневый сервис для клиентских поисковых программ более высокого уровня.

Первым уровнем надстройки над поисковыми машинами являются неспециализированные поисковые агенты. Такие агенты обеспечивают поиск по ключевым словам и устойчивым словосочетаниям. Кроме поиска они поддерживают различные и многочисленные сервисы, например, передача запроса пользователя на множество машин поиска, настройка на личные предпочтения пользователя, формирование тематической базы данных на основе результатов поиска пользователя. Системы агентов объединяют ссылки на сайты, найденные множеством машин поиска, и удаляют неработающие ссылки.

Специализированные поисковые агенты предназначены для поиска информации узкой тематики. Большинство таких агентов устроено очень жестко. Они умеют очень хорошо работать на сайтах своей тематики и показывают очень слабые результаты на всех остальных сайтах. При этом даже адреса сайтов могут быть зашиты в исходные коды агента. Системы, построенные на базе специализированных агентов, предоставляют пользователям определённый пакет для организации и управления найденной информацией. Как правило, такие системы содержат набор агентов, каждый из которых ориентирован на поиск информации только по одной теме [17].

Проблемы поиска в Интернете

Проблема поиска информации занимает все большее место в современной жизни. Во всем мире все больше внимание уделяется Интернету, как обширному справочному инструменту. И это не случайно. Тенденция развития Интернет-технологий не стоит на месте. Ежедневно увеличивается количество информационных ресурсов предоставленных для открытого доступа, увеличивается сфера развлечения и бизнеса. Это влечет за собой увеличение числа пользователей Интернета. По данным на декабрь 2004 года только в русскоязычном сегменте Интернета, в самом большом поисковом сервисе "Yandex" [32], на долю которого приходит порядка 50% поисковых запросов, насчитывается 410 840 200 уникальных документов [14]. И это только открытый сегмент, в котором не учтены платные информационные ресурсы, доля которых велика. О динамике роста объема информации в Интернете могут говорить следующие цифры: в начале 1999 году " Yandex" насчитывал только 4 512 231, на январь 2001 году число проиндексированных документов составляло порядка 20 000 000, как уже говорилось в 2004 году 410 840 200, а уже в мае 2007 года эта цифра составляет 2196359182 страниц. Динамику изменения можно посмотреть на рисунке 3. Видно, что за пять лет число проиндексированных документов увеличилось в 91 раз. [14,32].

Несмотря, на то, что данные за 1999 год можно утверждать, что и сейчас Интернет интересует пользователей примерно в тех же пропорциях и категориях, на это показывают регулярные опросы пользователей на мелких частных форумах небольших сетей. Нужно, конечно же, оговориться, что данные незначительно разняться, но общая тенденция сохраняется (для примера можно ввести в поисковой строке Rambler фразу «что для вас Интер нет» будет долучено примерно 100 ссылок)- На приведенном рисунке наибольший процент уделен ( Справочнику» (23,76%). Достаточно высокий процент у Новостей.» (12,32%) и «Библиотеки» (7,02%), Вен эти категории, так, или иначе, сщгзаны с информацией и в совокупности, можно сделать вывод, что 13.1% используют Интернет для поиска информации. И не удившельно, что в "том же опросе был выдяинут вопрос о качестве .поиска информации. Результаты ответов на второй вопрос можно увидеть на рисунке 5. Как видно из результатов опроса 16,91 % пользователей Интернета пе могут найти необходимую им информацию. И только 9.9! % опрошенных пользователей всегда может найти то, что им нужно.

Рисунок 5 - Опрос на чему нахождений ннформашж. Не менее интересные данные на вопрос, чего не достает Интернет, можно выделить следующие категории; ответов: 1. 4,3 % не хватает бесплатных услуг, сайтов, программ и бесплатности как таковой; 2. 5,8 % считают, что в Интернете все есть; 3. 5,9 % не хватает порядка, упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и еиетематижрованности информации 4. 9,6 % не хватает скорости, быстрой загрузки, пропускной способности 5. 9,8 % не хватает возможности найти, то есть хорошего поискового сервиса, тематического каталога и классификатора, рубрикатора, путеводителя, наконец, лоцмана 6. 12,3% не хватает информации, в основном научной (библиотеки, документации, публикации), а также просто нужной [32].

Необходимо обратить внимание на тот факт, что наибольшей категорией является отсутствие информации (6 пункт - 12,3%) в противовес ответа что в Интернете есть все (пункт 2 - 5,8%). Данная проблема может быть связана как с отсутствием самой информации, так и с отсутствием хороших средств поиска данной информации (5 пункт - 9,8%). Также в рамках нашей работы не менее важен 4 пункт (не хватает скорости - 9,6%), которые отвечают за структурирование и скорость обработки информации, зачастую данные термины взаимосвязаны.

В серии опросов принимали участие 1717 чел. [29, 37]. Как видно приличные проценты от пользователей сети Интернет не удовлетворены ее качеством. Очевидно, что проблема поиска информации должна занимать все больше ресурсов, как финансовых, так и временных. В связи с этим необходимо отметить, что в России в 2002 году начинает работу конференция, посвященная проблемам поиска в Интернете. И данная конференция продолжает развиваться и приобретать все больше сторонников, например в 2006 году конференцию посетило около 550 специалистов, было сделано 19 докладов, проведены два круглых стола. Впервые в рамках конференции состоялась выставка, в которой приняли участие десять компаний.

На первой конференции Игорем Ашмановым (руководитель проекта по разработке последней версии поисковой машины Rambler) были выделены пять групп участников поисковых технологий: поисковые системы; оптимизаторы; рекламные агентства; владельцы сайтов; пользователи поисковых систем.

На второй конференции в 2003 году Сергей Петренко (главный редактор Searchengines.Ru) предлагает разделять оптимизаторов, рекламные агентства и владельцев сайтов объединить в одну группу. И это, наиболее верное ранжирование, учитывая цели и долю участия каждой группы в проблеме поиска информации в глобальной сети.

Обобщенный алгоритм работы поисковых систем

Обобщенно алгоритм работы поисковой системы и рейтинг, который она выстраивает на основе запроса (ключевое слово, словосочетание), учитывает и анализирует следующее [26, 92, 97]: 1. Общее количество ключевых слов на сайте. 2. Общее количество ключевых слов на странице. 3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте. 4. Соотношение общего числа слов на странице к количеству ключевых слов на странице. 5. Индекс цитирования. 6. Популярность тематики. 7. Число запросов по конкретному ключевому слову за определённый период времени. 8. Общее количество страниц сайта. 9. Применение стиля к страницам сайта. 10.Общий объём текста сайта. 11. Общий объём сайта. 12.Общий объём каждой страницы сайта. 13.Общий объём текста каждой страницы сайта. Ы.Возраст сайта. 15.Название URL сайта (имя домена) Іб.Периодичность обновления информации на сайте. 17-Последнее обновление страниц сайта. 18.0бщее число картинок (рисунков) на сайте. 19.0бщее количество мультимедийных файлов. 20.Наличие замещающих надписей на рисунках (картинках). 21.Длину (в количестве символов) замещающих надписей рисунков (картинок). 22.Использование фреймов. 23.Язык сайта (русский или иностранный). 24.Размер шрифта, которым оформлены ключевые слова. 25.Жирность шрифта ключевых слов. 26.Написаны в разрядку или нет ключевые слова. 27.Написаны или нет заглавными буквами ключевые слова. 28.Как далеко от начала страницы располагаются ключевые слова. 29.Стиль заголовков и наименований ключевых слов. ЗО.Наличие и анализ мета-тэгов. 31.Наличие и содержание описания и свойств страницы. 32.Наличие файла "робот". ЗЗ.Географическое месторасположение сайта. 34.Комментарии внутри программного кода сайта.

35.К какому типу страниц относится каждая страница сайта: html или asp. Зб.Наличие в составе сайта flash модулей. 37.Наличие в составе сайта страниц с незначительными отличиями друг от друга. 38.Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт. 39.Наличие "шумовых слов" ("стоп слов"). 40.Общее количество гиперссылок сайта. 41.Количество внутренних гиперссылок сайта. 42.Количество внешних гиперссылок сайта. 43.Глубина сайта.

44. Ряд других специальных технических параметров. Необходимо отметить, что некоторые поисковые машины сложного алгоритма как такового вообще не имеют, а работают по упрощенной схеме. Их работа сводится, в основном, к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте по их частоте.

Может быть это и правильно, потому что чем сложнее алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке самого алгоритма. Другими словами, усложняя алгоритм работы поисковой машины можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты.

Работа по поиску информации в любой поисковой системе примерно одинакова, и сводится к работе нескольких агентов, о которых рассказывалось выше. Суть работы агентов заключается в следующем [98]: отслеживание существующих ссылок; анализ страниц на наличие ссылок на другие страницы; поиск информации по новым ссылкам, полученным при анализе текстов; просмотр новых страниц, которые регистрирует хозяин нового ресурса.

Если рассматривать поиск информации на основе работы метапоиско-вых систем, то здесь все проще: они работают с поисковыми системами и у них остаются только агенты, занятые опросом поисковиков, и, возможно, проверкой существования выдаваемых ссылок.

3.2 Модели информационного поиска

Классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами (словоформами). Терм - это, обычно, просто слово, семантика которого помогает описать основное содержание документа.

Алгоритм работы подсистемы формирования тематико-ориентированпых коллекций

Предлагаемый алгоритм разбит на два взаимосвязанных процесса: нахождение текстов для тематической коллекции и окончательное определение релевантности текста предметной области [27, 34]. На рисунке 23 представлена главная диаграмма процесса поиска мультилингвистическои узкоспециализированной информации.

Как видно из диаграммы, работа по формированию тематической кол-лещин может быть шищналиаироваяа как необходимостью составления новой коллекции, так й расширением существующей коллекции или, другими словами, обновлением сллцеетвующего множества релевантных документов тематической коллекции. Необходимо организовать работу системы с использованием словаря администратора системы, предназначенного как для хранения мультнлингвистичееких терминов с их частотными .характеристиками, так Й для работы администратора и содержащим дополнительную информацию для построения и управления мудьтилиигвистическими узкоспециализированными тематическими коллекциями.

Частотный, словарь при поиске ненолдзуется для расчета частотных характеристик в процессе определения релевантности документа, а также в пронесее автоматического формирования етооки аапооса. Как уже отмена лось выше, на текущий момент времени Internet является самым обширным и доступным хранилищем всевозможной информации, поэтому на первом этапе работы с системой необходимо произвести опрос нескольких поисковых сайтов для каждой языковой принадлежности, исходя из структуры словаря, над которым сейчас производится работа (принцип работы метапоисковых систем).

Например, для русскоязычного поиска можно использовать сайты YANDEX, RAMBLER и др., в результате опроса будут получены ссылки на документы, считаемые каждым из опрошенных сайтов релевантными запросу. На следующем шаге необходимо произвести отсев не релевантных ссылок, и на выходе будет получено множество условно релевантных документов.

В дальнейшем каждый документ проверяется на степень релевантности текста предметной области словаря, и в итоге получится набор документов, релевантных предметной области словаря, используя которые следует проводить работу по формированию, пополнению или актуализации самого частотного мультилингвистического словаря. Рассмотрим более подробно каждый из перечисленных этапов.

На рисунке 24 представлен алгоритм подбора текстов для дальнейшей их обработки с целью получения документов, которые будут проанализированы на принадлежность к предметной области словаря.

При нахождении текстов, используя глобальную СОТІ. Internet необходимо сформировать запрос для опроса поисковых сайтов. Далее необходимо произвести опрос нескольких разноязычных поисковых сайтов, используя сформированную строку поиска. На выходе будет подучено множество ссылок с каждого опрашиваемого поискового сайта. Особенность полученных ссылок заключается в том, что они заранее отсортированы но принадлежности к определенному языку, что связано с технологией опроса поисковых сайтов. Далее необходимо сформировать несколько множеств ссылок, каждое viT которых принадлежит конкретному языку

Начальными событиями для активации данного процесса являются: актуализация существующей тематической коллекции и / или создание новой коллекции. Необходимо рассмотреть каждое из них отдельно. В первом случае администратор системы уже имеет существующий мультилинпзистипе ский частотный словарь и, следовательно, можно использовать словоформы (термы) для формирования запросов. Формирование запросов происходит с использованием векторной модели представления документа через весовые коэффициенты: где j - номер языкового множества, qjг- строка запроса для данного языкового множества, ty = termu gy, (41) ,={J, (42) /у - / - й терм (словоформа) у - го языкового множества, / = 1.../. gjj = 1, если терм включен в строку запроса, и 0, если не включен. В связи с тем, что в актуализации нуждается весь словарь, необходимо производить поиск с использованием поисковых строк, принадлежащих разным языковым множествам. Необходимо отметить, что по критерию поиска в поисковые строки попадут разноязычные словоформы не обязательно являющиеся переводом словоформ с разных языков. Это связано с тем, что в рамках данного критерия используются частотные характеристики словоформ, а они не однородны по языковой принадлежности, например: acceptance, 3-Annahme, 9 f- принятие, 33, прием, 31; accuracy, 47 - Genauigkeit, 35 f- точность, 139; quotient, 23 - Quotient, 1 m - частное, 21, коэффициент, 9, и т.д.

При создании новой коллекции по новой предметной области необходимо формировать строку поиска полностью силами администратора системы и/или аналитика предметной области. Для снижения числа не релевантных ссылок в результате запроса, лучше привлечь на данном этапе аналитика для формирования нескольких поисковых строк на разных языках. В случае необходимости можно привлекать аналитиков из разной языковой принадлеж ности, например, русскоязычного, англоязычного и т.д. Дынный" подход ПОВЫСИТ качество разноязычных поисковых строк, В случае отсутствия аналитика, принадлежащего к какому-либо языку, можно просто перевести поисковые строки .из другого языкового множества, используя любой .из словарей-переводчиков. После того как разноязычные поисковые строки сформированы, необходимо приступить к опросу сайтов в Internet. Опрос может идти в двух направлениях: опрос поисковых, а также доказавших свою релевантность предметной области сайтов. Алгоритм опроса нескольких поисковых сайтов ноедставлен на рисунке 26.

Похожие диссертации на Многоагентная система для поиска и обработки тематико-ориентированной информации