Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Крошилин Александр Викторович

Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр
<
Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Крошилин Александр Викторович. Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр : Дис. ... канд. техн. наук : 05.13.11 : Рязань, 2003 166 c. РГБ ОД, 61:04-5/411-0

Содержание к диссертации

Введение

ГЛАВА 1. Системы поиска информации 13

1.1. Поиск информации в вычислительных сетях 13

1.1.1. Основные понятия поиска информации 13

1.1.2. Проблемы изадачи поиска информации 14

1.1.3. Этапы поискового процесса 16

1.1.4. Общая архитектура и механизм поиска 18

1.2. Анализ существующих поисковых систем 21

1.2.1. Поисковые системы, базирующиеся на запросах 23

1.2.2. Поисковые системы, базирующиеся на классификационных списках 25

1.2.3. Мета-поисковые системы 26

1.2.4. Недостатки существующих поисковых систем 27

1.3. Интеллектуальные информационно-поисковые системы 29

1.3.1. Развитие направлений интеллектуального поиска 29

1.3.2. Применение интеллектуальных информационных поисковых систем для поиска информагщи 34

1.3.3. Функции экспертной системы в интеллектуальных поисковых системах 38

1.3.4. Общая архитектура экспертной системы 40

Основные результаты 43

Глава 2. Интеллектуальная информационно-поисковая система, основанная на семантических сетях 44

2.1. Модели представления знаний 44

2.1.1. Логические модели 45

2.1.2. Семантические сети 46

2.1.3. Фреймы 48

2.1.4. Продукционные системы 49

2.1.5. Нейронные сети 51

2.2. Универсальная алгебра описания предметной области 53

2.2.1. Определение универсальной алгебры 53

2.2.2. Нечеткие множества 55

2.2.3. Нечеткие объекты 57

2.3. Применение семантической сети для описания предметной области 58

2.3.1. Описание семантической сети 61

2.3.2. Определение операций на множестве элементов семантической сети , 67

2.3.3. Определение операций над семантическими сетями 70

2.3.4. Определение отношений между элементами семантической сети 73

2.3.5. Определение отношений на семантических сетях 75

Основные результаты 76

ГЛАВА 3. Поиск информации в интеллектуальной информационно-поисковой системе 78

3.1. Механизм логического вывода 79

3.1.1. Генерация возможных вариантов и их оценка 81

3.1.2. Согласование решений 11

3.1.3. Анализ динамики развития ситуации 82

3.1.4. Выбор решения 82

3.2. Модель пользователя 85

3.2.1. Понятие модели пользователя вИИПС 85

3.2.2. Формирование модели пользователя 86

3.2.3. Сетевая модель пользователя в ИПС 87

3.2.4. Типы моделей пользователя интеллектуальной информационно-поисковой системы

3.3. Модель действий пользователя 91

3.3.1. Поиск документов 92

3.3.2. Знакомство с предметной областью 93

3.4. Применение модели для поиска информации 94

3.4.1. Оценочная функция 94

3.4.2. Расширенный поиск 96

3.4.3. Ординарный поиск 97

3.4.4. Распределение документов в пространстве ПО 99

Основные результаты 102

Глава 4. Программная реализация интеллектуальной информационно-поисковой системы 104

4.1. Основные задачи, реализуемые программным пакетом 104

4.1.1. Проектирование системы поиска информации 104

4.1.2. Проектирование подсистемы поиска информации в вычислительной сети 105

4.1.3. Проектирование подсистемы приобретения знаний 105

4.1.4. Технические и программные средства для создания и функционирования ИИПС 106

4.2. Описание реализации ИИПС 107

4.2.1. Способ построения, подсистемы поиска информации в вычислительной сети 109

4.2.2. Особенности работы ИИПС в сети со стандартными поисковыми машинами 111

4.2.3. Описание базы данных 112

4.2.4. Проектирование подсистемы приобретения знаний 114

4.3. Принципы функционирования ИИПС 117

4.3.1. Определение наименования модели предметной области... 118

4.3.2. Выделение и ввод понятий с отношениями между ними 118

4.3.3. Ввод тем для поиска и определение принадлежащих им понятий 120

4.3.4. Поиск информации интеллектуальной поисковой системой 121

Основные результаты 122

Заключение 124

Основные обозначения и сокращения 126

Список использованной литературы 127

Введение к работе

Актуальность проблемы

В настоящее время глобальные сети включают в себя большой объем ди
намически изменяющейся информации и развиваются весьма бурными темпа
ми. Для того чтобы как-то упорядочить этот непрерывный поток данных, а са
мое главное дать возможность пользователям сети находить нужную информа
цию, были созданы специальные поисковые системы. Развитие данных систем
^ идет по пути автоматизации информационного поиска, и главным критерием

при этом является увеличение релевантности найденной информации.

На современном этапе к ряду проблем поиска информации в вычислительных сетях можно отнести следующие.

Временные затраты: в результате автоматизированного поиска в сети, согласно запросу, пользователь получает большое количество ссылок, просмотр которых занимает много времени, и даже простой выбор необходимой информации зачастую представляет собой нелегкую задачу.

Экономические затраты: большие временные затраты невыгодны с экономической точки зрения для пользователей, подключенных в лимитном режиме. Кроме того, некачественные связь и линии также затрудняют работу и увеличивают трафик.

Неэффективность поиска при работе группы пользователей, осуществляющих поиск информации по одинаковой тематике: каждому приходиться просматривать и анализировать одну и ту же информацию, при этом затрачивается время для работы в сети.

Нерациональность и непоследовательность действий пользователей при поиске информации.

» Трудности при составлении запросов: пользователь часто не может сірого

определить цель поиска и использует нечетко определенные понятия.

Вместе с тем, следует отметить недостатки существующих поисковых систем.

Относительно низкая релевантность поиска в результате неучета в системах взаимодействия элементов информации между собой и отношения пользователя к знанию.

Неспособность к самообучению (неумение системы адаптироваться к потребностям пользователя и стилю его работы).

Пользователю во время процедуры поиска информации необходимо определиться с темой для поиска, согласно которой затем выявить ключевые понятия поиска и их значимость.

В рассматриваемой области можно использовать наиболее известные результаты: концепции построения поисковых систем (особенно гибридные системы поиска информации, такие как «порталы»), теоретические концепции моделей представления знаний, построения экспертных систем, универсальных алгебр, нечетких множеств и применения теории выбора. Эти вопросы освещены, в частности, в работах Поспелова Г.С, Поспелова Д.А., Мальцева А.И., Кона П., Попова Э. В., Минского М. Л., Айзермана М.А., Нильсона Н., Глуш-кова В.М., Саати Т., Заде Л., Кофмана А. и др. Теория поиска информации представлена в работах Крейнеса М.Г., Дубинского А. Г., Кузнецова СВ., Се-мененко А.В., Осикова Г.С и др.

Использование формального подхода к построению модели предметней области для информационного поиска и описание предметной области (ПО) с помощью тем являются малоизученной проблемой. Решение этой проблемы позволит не только упростить идентификацию свойств модели предметной области, но и облегчить процесс обработки и поиска информации, необходимой пользователю. Математическим аппаратом автоматизации решения упомянутых проблем являются семантические сети, универсальные алгебры и нечеткие множества, позволяющие автоматизировать процесс поиска информации, а также процесс построения и обработки модели предметной области.

В диссертации предлагаются новый подход к построению и обработке модели предметной области для систем обработки знаний, ориентированных на поиск информации, а также новый подход к созданию интеллектуальных поисковых систем в вычислительных сетях.

Целью работы являются разработка и анализ интеллектуальных поисковых программ в вычислительных сетях на основе универсальных алгебр.

С учетом цели, в работе поставлены следующие задачи исследования:

определение формальной модели построения предметной области с применением темы для поиска, используемой при создании интеллектуальной поисковой системы;

создание моделей пользователей, применяемых при поиске информации, и их анализ;

описание новых механизмов логического вывода, используемых при поиске информации в вычислительных сетях;

создание методики извлечения знаний для формирования персональной модели знаний пользователя с целью повышения релевантности поиска;

формирование проектных решений по программной реализации компонентов интеллектуальной поисковой системы.

Методы исследования. Исследования осуществлялись на основе теории универсальных алгебр, теории множеств, теории нечетких множеств, теории принятии решений, методов структурного и объектно-ориентированного программирования.

Научная новизна. Предложена принципиально новая концепция генерации возможных альтернатив выбора документов. В основе данной концепции используется гипотеза о подобии, заключающаяся в поиске документов и тем, базовые понятия которых наиболее близки по смыслу понятиям заданной темы.

Основу предложенной концепции составили:

  1. методика построения модели предметной области на основе семантической сети информационно-документальной базы знаний и темы поиска;

  2. основные принципы построения механизма логического вывода для выбора информации согласно запросу пользователя, основанного на теории принятия решений;

  3. методология поиска информации, необходимой пользователю в базе знаний, и методология пополнения этой базы из вычислительной сети;

  4. алгоритм индексации найденного документа согласно ключевым понятиям из предметной области;

  5. механизм извлечения знаний эксперта, основанный на многослойных репертуарных решетках Келли.

Практическая ценность. Результаты работы являются основой для проектирования интеллектуальных поисковых систем. Предложенные в диссертации формализм и методы позволяют производить поиск документов согласно запросу пользователя и представлять их в виде ранжированного списка по степени релевантности с осуществлением индексации документа.

Результаты диссертации нашли отражение в реальной программной системе "AnNet" v.1.03, предназначенной для поиска информации в вычислительных сетях.

Разработанные средства могут быть приняты за основу при создании интеллектуальных поисковых систем, машин поиска, машин поиска каталогового типа и систем управления знаниями, используемых для поиска информации в распределенных информационных системах, глобальных и локальных сетях типа Internet и Intranet.

Внедрение результатов. Теоретические и практические результаты диссертационной работы внедрены (приложение 5):

в Рязанском центре научно-технической информации,

компьютерной фирме ЗАО «Рязань Онлайн»,

учебном процессе Рязанской государственной радиотехнической академии.

Программный продукт имеет свидетельство об официальной регистрации программы для ЭВМ №2003613612, Россия. Интеллектуальная информационно-поисковая система "AnNet" (ИИПС "AnNet"). Зарегистрировано в РОСПАТЕНТ 22.05.2003, заявка №2003613612.

Структура диссертационной работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы и приложений.

Во введении дается обоснование актуальности темы работы, кратко излагается содержание диссертации и сформулированы цели исследований.

Первая глава посвящена обоснованию темы диссертации. Определяются основные цели и задачи разработки и анализа поисковых систем, приводится обзор имеющихся публикаций по данной теме диссертации, вводятся основные понятия и определения. Особое внимание уделено вопросам построения существующих поисковых систем, развитию направлений интеллектуального поиска и общей архитектуре экспертной системы для поиска информации.

Во второй главе рассматриваются модели представления знаний, универсальные алгебры и нечеткие множества. Приведена структура разрабатываемой интеллектуальной поисковой системы. Описывается семантическая сеть и рассматриваются основные операции, отношения и структуры, образованные базой знаний, основанной на семантической сети.

Третья глава посвящена вопросам поиска информации согласно запросу пользователя, описано построение моделей пользователя и моделей действий пользователя. Определена оценочная функция и рассмотрен расширенный и обычный поиск. Предложен новый алгоритм эффективной группировки документов согласно темам для поиска в базе знаний.

В четвертой главе сформулированы основные задачи проектирования программы интеллектуального поиска информации на основе системы управления знаниями. Приведена архитектура интеллектуальной информационно-поисковой системы "AnNet". Разработан алгоритм поиска информации в вычислительной сети согласно предметной области или запросу конкретного

пользователя. Рассмотрена структура базы знаний, приводится ее мифологическая схема. Затронуты принципы построения базы знаний, приведены основные классы, описывающие поиск информации согласно запросу пользователя.

В заключении проводится обобщение основных результатов диссертационной работы.

Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:

  1. 16-й всероссийской научной конференция молодых ученых и студентов «Реформы в России и проблемы управления», Москва, Государственный университет управления, 2000 г.;

  2. международной научно-технической конференции "Проблемы передачи и обработки информации в сетях и системах телекоммуникации", Рязань, РГРТА, 2001 г.;

  3. VII всероссийской научно-технической конференции студентов, молодых ученных и специалистов, посвященной 50-летию РГРТА, Рязань, РГРТА, 2001 г.;

  4. международной научно-технической конференции "Математические методы и информационные технологии в экономике, социологии и образовании", Пенза, Приволжский дом знаний, 2001 г.;

  5. 9-й всероссийской межвузовской научно-технической конференции "Микроэлектроника и информатика 2002", МИЭТ, Москва, 2002 г.;

  6. международной научно-практическая конференции "Инновационные процессы в управлении предприятиями и организациями", Пенза, Приволжский дом знаний, 2002 г.;

  7. 11-й Международной научно-технической конференции "Проблемы передачи и обработки информации в сетях и системах телекоммуникации", Рязань, РГРТА, 2002 г.,

а также на научных семинарах кафедры ВПМ РГРТА.

Публикации. По результатам работы диссертационного исследования опубликовано 13 печатных работ [85-97].

Применение интеллектуальных информационных поисковых систем для поиска информагщи

Интеллектуальная мета-поисковая система «Следопыт» предназначена для «смыслового» поиска информации в русских и английских текстах по запросам, составленным на естественном языке [32]. Программа, разработанная компанией «МедиаЛингва», основана на технологии нечёткого поиска текстовой информации с вычислением степени близости документов и запроса.

Система обеспечивает удобный и эффективный поиск документов по их содержанию. Найденные документы не обязательно содержат те же слова в том же порядке и в тех же грамматических формах. Эффективность поиска в «Следопыте» не зависит от лексики предметной области и одинакова как для газетных и деловых текстов, так и для документов по узким тематическим направлениям. ПС "Следопыт" является так называемой индексирующей системой. Серверный Следопыт используется для поиска информации на сервере Медиа-Лингва.

В работе [107] «Ключи от текста» используется интеллектуальная технология смыслового поиска, анализа и индексирования текстовой информации, которая заключается в использовании алгоритмами информации о смысле и значении слов и не нуждается в смысловых тезаурусах. Предлагаемые алгоритмы в ходе формальной процедуры выделяют своеобразное «семиотико-семантическое поле» - множество слов, наиболее сильно связанных по смыслу в конкретном анализируемом тексте, на основании сопоставления анализируемого текста с представительной для предметной области совокупностью текстов. Технологий смыслового поиска предметно независимы, поскольку не нуждаются в тезаурусах и других формах толковых словарей.

В работе [107] введено понятие смыслового портрета, которое основано на двух принципиальных гипотезах: а) семиотические характеристики (семиотические связи слов в тексте) являются определяющими для семантики текста, б) для понимания смысла конкретного текста необходимо определить совокупность текстов, в контексте которых следует воспринимать конкретный текст.

Процедуры построения смыслового портрета текста решают задачу адаптивного к интересам конкретного носителя языка (профессиональной или политической группы, индивидуума, определенного автора, издания, группы изданий) и вычислительного смыслового индексирования текстовой информации. Результаты такого вычислительного индексирования интересны как средство автоматического создания вторичных информационных ресурсов -списков ключевых слов. Смысловые портреты позволяют выделять в тексте наиболее важные для тематики и содержания всего текста фрагменты, что обеспечивает автоматическую генерацию рефератов. Система позволяет получить высокоточные и полные результаты поисга и избавить человека от необходимости решать очень сложную задачу описания своих интересов в виде короткого списка слов. FireExpert - мультиагентная система поиска информации на основе онтологии [14]. Онтологии потенциально обладают свойством совместного накопления и использования знаний (группой агентов/пользователей). В случае информационного поиска в информационной сети онтология играет роль модели информационного пространства, в рамках которого целесообразно осуществлять поиск. Система FireExpert рассчитана на класс пользователей, которые ищут информацию по одной или нескольким темам в предметной области, где они являются экспертами и могут достаточно четко описать ее концептуализацию и определить модель. Средства системы ориентированы на поиск в узкой предметной области на основе заранее составленного описания информационных потребностей пользователей в виде специализированных баз знаний — онтологии.

Вводится понятие образа релевантного документа, формируемого на основе запроса пользователя с помощью онтологии и эвристических правил. Такой образ является описанием характеристик релевантного запроса документа. Заключение о релевантности HTML-документа теме поиска состоит в его "сравнении" с образом релевантного документа на основе эвристических правил и формирования рейтинговых оценок применения правил.

Анализ семантической структуры HTML-документов в целом позволил обнаружить ряд закономерностей и на их основе выделить базовые семантически значимые элементы структуры HTML-документов, описать соответствующие правила их анализа. Такими базовыми элементами, кроме основного содержания, являются заголовок HTML-файла и его составляющие, заголовки внутри документа, ссылки.

Система OneWorld создана на основе информационных Web-серверов из 250 организаций. Она предназначена для получения информации по интересующей пользователя тематике с использованием всех ее информационных ресурсов. Система анализирует, индексирует ключевые слова, выделяет и суммирует все новые документы, которые помещаются в базу данных. Концепция специализированного механизма поиска, выделение исключительно по теме -ключевой подход OneWorld. Пользователь, использующий механизм поиска OneWorld, знает, что используемая область содержит только определенный материал [7].

Использование Intelligent Miner for Text (IBM) позволяет автоматически построить категоризацию документов после ее обучения выборкам желательных категорий поиска документов. Система KnowledgeX (IBM) позволяет формировать карту знаний, используя ряд узлов (концепций) и ссылок между узлами. Карта знаний позволяет делать визуализацию, манипуляцию и навигацию источников информации и знаний подобно каталогам [28].

Недостатки существующих интеллектуальных поисковых систем в том, что при поиске информации в базе знаний не учитываются отношение к знанию пользователя и взаимодействие элементов информации между собой, что ведет к большому объему выборки из баз данных, и расположение документов представляет собой беспорядочную структуру, а не последовательность, расположенную по степени важности.

Однако поиск релевантной информации - процесс очень тяжелый и длительный по времени. Пользователи пытаются определить какую-нибудь рекомендацию (информацию), чтобы продолжить поиск. Эта информация (знание) может находиться у инженера по знаниям или у системы поиска информации.

Применение семантической сети для описания предметной области

Для создания интеллектуальной информационно-поисковой системы наиболее подходит объектно-ориентированный подход, при котором вся информация и процедуры ее обработки содержатся в одном объекте [8, 43, 60].

Объекты требуют высокой степени точности их формулировки. В частности, значения и диапазон значений атрибутов устанавливаются с высокой степенью уверенности. Для построения наиболее адекватной модели предметной области требуются объекты, характеризуемые неточностью и неопределенностью, особенно когда моделируются интеллектуальные системы. Нечеткие объекты позволяют решить эту проблему для моделируемых систем с неопределенно описанными значениями атрибутов. Нечеткие объекты - это стандартные объекты, расширенные для неопределенных данных и моделей. Расширение - это нечеткое представление значения атрибута объекта, использующее нечеткое множество там, где это возможно и необходимо. Атрибуты объекта представляются композицией нечетких и четких представлений. Стандартные объекты имеют четкие или точные атрибуты и являются частным случаем нечетких объектов. Нечеткие объекты обеспечивают механизм моделирования и проектирования интеллектуальных систем, интегрируя возможности объектно-ориентированных и нечетких понятий. В нечетких объектах сохраняются основные принципы объектно-ориентированного подхода, в частности наследование, обобщение и инкапсуляция [8].

Необходимость в нечетких объектах проявляется при определении и описании неопределенности и приблизительного рассуждения, которое привносится из реальной предметной области в объектно-ориентированную методологию. В реальной предметной области объекты и характеристики знания могут быть неопределенными или точными. Эти характеристики соответственно обрабатываются в процессе моделирования четкими и нечеткими множествами. Преимущество манипулирования нечеткими атрибутами как нечеткими множествами заключается в следующем: нечеткие правила (представления знания) формулируются, чтобы обработку нечетких атрибутов уменьшить до простых нечетких импликаций; нечеткие правила и связи можно сохранить, используя нечеткую связанную память [24], применяя, таким образом, некоторые вычислительные способности нейросетей; нечеткий механизм логического вывода может быть получен с помощью использования обобщения правила вывода Modus Ponens. При определении необходимой информации для пользователя надо располагать знаниями, являющимися отображением содержания запроса пользователя. На основе знаний строится гипотеза о необходимой пользователю информации и формируется запрос на ее получение. Поскольку информация в сети не формализована, в диссертации предлагается построить интеллектуальную информационно-поисковую систему, основанную на семантической сети, которая отражает смысловую взаимосвязь между темами для поиска, а точнее, понятиями, включенными в них, и найденной информацией в документах.

Далее представим методику построения предметной области поиска на основе семантической сети.

Семантическая сеть в общем виде представляется набором концептуальных графов [70, 74, 75, 79, 104], каждый из которых строится на основе логической формулы. Имена и аргументы предикатов представляются в нем двумя типами узлов. Дуги графа соединяют имена предикатов с их аргументами. Логика предикатов, лежащая в основе концептуального графа, представляет собой язык, который можно интерпретировать в терминах области рассуждений (логические формулы представляют фразы мета-языка). Аргументы предикатов и логических функций используются для представления атрибутов, событий и состояний. Имена предикатов указывают способ объединения этих понятий. При изображении концептуального графа прямоугольниками представляются аргументы, а кругами - имена предикатов. Если круг соединяется стрелкой с прямоугольником, то они представляют имя и аргумент одного и того же предиката (рис. 2.2). Предикаты могут иметь несколько аргументов, т.е. имя предиката может иметь несколько входящих и/или выходящих стрелок (рис. 2.2,а) и представлять собой логическую формулу. Для представления знаний используются бинарные предикаты, которые обладают двумя аргументами. В этом случае предикат имеет две стрелки: входную и выходную (рис. 2.2,6).

Типы моделей пользователя интеллектуальной информационно-поисковой системы

В основе генерации возможных вариантов выбора документов используется гипотеза о подобии: для выбранной темы поиска находится документ, базовые понятия которого наиболее близки по смыслу понятиям выбранной темы и запросам пользователя.

Оценка возможных вариантов предшествует окончательному выбору решения и является составным элементом принятия решения. Оценка возможных решений базируется на использовании нечеткой логики, которая применяется для построения семантической сети в интеллектуальной поисковой системе для описания предметной области. Так как по мере роста сложности систем постоянно падает способность специалиста делать точные и одновременно значащие утверждения относительно их поведения, появление нечеткой логики необходимо до тех пор, пока не будет достигнут порог, за которым значимость и точность становятся почти взаимоисключающими характеристиками.

Согласование решений состоит в поиске компромисса при определении окончательного выбора решения о выдаче того или иного документа пользователю или при отнесении документа к теме поиска конкретной предметной области. Выбор строится на основе следующей методологии [34, 130, 133, 141].

Метод уступок. Находится компромисс, определяющий «плату» за потерю показателей по какому-либо критерию (понятию) или части критериев за счет выигрыша по другому критерию или другим критериям.

Метод согласования по главному критерию. В некоторых случаях задачу выбора документа с несколькими показателями можно свести к задаче с одним единственным показателем и затем стремиться обратить ее в экстремум, в то время как для остальных показателей вводятся некоторые ограничения. Тогда проблема согласования сводится к выделению главного критерия, согласованию ограничений для всех остальных критериев и последующему нахождению компромисса по главному критерию. Метод согласования решения при лексикографическом упорядочивании. Сначала производится упорядочивание по самому важному критерию. Если по этому критерию окажутся выбранными несколько документов, то производится упорядочивание по второму по важности критерию и т.д. Анализ строится на основе сформированной модели пользователя и модели действий пользователя в процессе работы с интеллектуальной информационно-поисковой системой. Это позволяет отследить, как изменяются потребности и направленность поиска пользователя. Сначала из набора тем пользователь осуществляет выбор темы для поиска согласно понятиям, которые он хочет найти. Это может быть одна тема, несколько тем или может не быть темы вообще (если нет темы, содержащей необходимое понятие, ее можно добавить). В случае когда пользователя интересует набор понятий из предметной области, система автоматически предоставит ему темы, в которых эти понятии встречаются, тогда ситуация сведется к изложенной. Затем согласно теме выдается ранжированный набор документов, содержащий разное число вариантов. Он может состоять из одного варианта, из нескольких вариантов либо может быть пуст (документы согласно теме не найдены). После анализа развития ситуации осуществляется выбор решения. После анализа нескольких существующих методов выбора решения на множестве вариантов [34, 141] в диссертации применен метод выбора по отношениям предпочтения. Он определяется содержательными представлениями о понятии «предпочтения» выбора из двух документов. Наличие между двумя вариантами Gj, Gj є S отношения , записываемого как Gj Gj, содержательно интерпретируется как «вариант G; предпочтительнее, чем вариант Gj». Воспользуемся данным методом выбора по отношениям предпочтения, чтобы построить функцию отношения предпочтения. С использованием этой функции и критериально-экстремизационных механизмов выбора определяется последовательность выдачи документов пользователю. Определим функцию предпочтения Sj(k, /) Для характеристики меры близости документа Gk к G; используется функция близости fj(k, /), определяющая степень близости документа Gk по отношению к документу G;. Функция fj(k, /) указывает степень уверенности экспертов в том, что Gk ближе к теме Gi, чем G/. Функция fi(k, /) обладает следующими свойствами: fi(k, /) возрастает с возрастанием значения оценки близости Gk к G/; fj(k, /) = 1 означает безусловную близость документа Gk к документу G/; f((k, /) = 0 означает полное отсутствие близости Gk и G/; если fj(k, /) є [0, 1] и Sj(k, /) Si(/, к), то в нечетком отношении это означает, что Gk предпочтительнее G/. Для формирования отношения предпочтения введем три пороговых значения и определим относительно і-й темы следующее; цік \Хц + tjP - показывает, что Gk ближе G/, где tp - порог предпочтения; Цік ЦІ/ +1/ - Gk по крайней мере не ближе G/, где t1 - порог безразличия; Цк ЦІ/ + tjV - Gk значительно ближе G/, где tv - порог запрещения, цік - значение отношения близости і-й темы к к-му документу.

Способ построения, подсистемы поиска информации в вычислительной сети

Таким образом, на графике оценочной функции образуются несколько максимумов фтах для документов, которые принадлежат различным подтемам (Gii, Gn, ..., Gn). Список найденных документов согласно запросу пользователя формируется на основе необходимой темы, это является одной из задач, необходимых пользователю [57, 65, 130, 147].

Для определения группирования документов необходимо определить следующие свойства тем поиска [65]: плотность темы — характеризует интенсивность расположения документов в пространстве модели предметной области; дисперсия темы - характеризует степень рассеяния документов в пространстве относительно темы и показывает, насколько близко друг к другу расположены в семантической сети документы; размеры темы- определяют количество принадлежащих теме документов. Подбор документов согласно теме поиска происходит на основе анализа множества документов из предметной области. Алгоритм выбора документов в пространстве семантической сети ИИПС состоит в следующем. 1. В пространстве семантической сети модель предметной области разбивается инженером по знаниям на темы поиска. 3. Центром каждой образованной группы является тема для поиска, с ней идет сравнение каждого документа из группы. Приведенный алгоритм требует знания количества тем, присутствующих в модели предметной области. В качестве характеристики отклонение документа в группе используем среднюю сумму квадратов отклонений от темы поиска: где I,- среднее отклонение документов в группах от темы поиска, J - количество тем поиска в модели предметной области, Nj - количество документов в j-й теме, (pn(Gj) - нормализованная оценочная функция близости документов к теме поиска: где М - количество понятий в теме поиска, L - количество понятий в документе Gk. После определения темы производится начальная выборка документов, которые предоставляются на выбор пользователю. В результате окончательного выбора пользователя определяется принадлежность найденного документа к теме поиска и используется оценочная функция для выбора документов из группы. Пользователь определяет значимость найденного документа, вследствие чего изменяется модель пользователя. Удовлетворительный ответ увеличивает значимость понятий в модели пользователя, которые принадлежат найденному документу. Отрицательный ответ уменьшает значимость понятий, которые принадлежат выбранному документу. Изменение значимости производится по следующей формуле: где Wj - значимость і-го понятия для пользователя, u.D(I, Pj) - близость понятия к найденному документу, а - коэффициент, выбираемый в зависимости от ответа пользователя на найденный документ: [1. если пользователь согласен с предложенным документом; а = і {0, если пользователь не согласен с предложенным документом. Таким образом, изменение модели пользователя в процессе работы с интеллектуальной информационно-поисковой системой при применении крите-риально-экстремизационных механизмов выбора и фуппирования документов согласно темам поиска позволит выбрать из базы знаний множество наиболее релевантных для конкретного пользователя документов. Основные результаты 1. Описан новый механизм интеллектуального поиска информации, который на основе модели пользователя и модели действий пользователя отыскивает множество наиболее релевантных документов согласно запросу конкретного пользователя и выдает их в ранжированном порядке. 2. Приведены механизм формирования сетевой модели пользоватетя и принципиально новая архитектура модели пользователя для интеллектуальной поисковой системы, которая позволяет наиболее адекватно отобразить знания пользователя и его потребности. 3. Предложено построение модели действий пользователя для интеллектуальной поисковой системы. Описаны две интерпретации модели поведения пользователя: поиск документов и знакомство с предметной областью. Описаны их структура и принципы организации. Модель действий пользователя позволяет увеличить эффективность поиска информации для пользователя, процесса его ознакомления с предметной областью и упростить способ ее описания в ИИПС. 4. Рассмотрены расширенный и обычный способы поиска информации с использованием модели пользователя на основе применения критериаль-но-экстремизационных механизмов выбора и оценочной функции, позволяющие с высокой достоверностью находить наиболее релевантные документы согласно запросу пользователя, а также осуществлять их ранжирование. 5. Описан механизм формирования групп документов согласно теме для поиска, выбранной пользователем, приведен алгоритм нахождения документа согласно теме поиска из модели предметной области, дающий возможности образовывать ранжированные группы документов по тематической направленности. По результатам 3-й главы опубликованы работы [85, 88, 93, 96].

Похожие диссертации на Разработка и анализ интеллектуальных программ информационного поиска в вычислительных сетях на основе универсальных алгебр