Содержание к диссертации
Введение
1. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ СРЕДСТВ ПОВЫШЕНИЯ
ФУНКЦИОНАЛЬНОЙ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ 9
1.1. Математическая модель бестезаурусных ИПС. Основные определения. Постановка задачи 9
1.2. Функциональная эффективность ИПС 19
1.3. Поиск с обратной связью 25
1.4. Выводы по главе I 41
2. ОЦЕНКА СВЯЗАННОСТИ ОБЪЕКТОВ С СИСТЕМОЙ 43
2.1. Система объектов. Оценка связанности объектов с системой 43
2.2. Существование и единственность вектора оценки 52
2.3. Сходимость итерационного процесса определения вектора оценок 58
2.4. Некоторые свойства оператора (2.13) 62
2.5. Некоторые замечания и выводы по главе 2 . 67
3. ОБРАТНАЯ СВЯЗЬ ДЛЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ СО СТАТИСТИЧЕСКИМ АВТОКОДИРОВАНИЕМ СЛОВ ЕСТЕСТВЕННОГО ЯЗЫКА 71
3.1. Метод обратной связи 71
3.2. Вопросы повышения быстродействия программ обратной связи 79
3.3. Выводы по главе 3 83
4. ПАКЕТ ПРИКЛАДНЫХ ПРОГРАММ "МАШТОЦ" 84
4.1. Функциональные возможности и структура 84
4.2. Информационно-поисковый язык 90
4.3. Программное обеспечение 96
4.4. Анализ результатов экспериментального исследования обратной связи 103
ЗАКЛЮЧЕНИЕ 121
ЛИТЕРАТУРА 123
ПРИЛОЖЕНИЕ I 132
ПРИЛОЖЕНИЕ 2 133
ПРИЛОЖЕНИЕ 3 134
ПРИЛОЖЕНИЕ 4 135
ПРИЛОЖЕНИЕ 5 136
ПРИЛОЖЕНИЕ б 146
- Математическая модель бестезаурусных ИПС. Основные определения. Постановка задачи
- Система объектов. Оценка связанности объектов с системой
- Метод обратной связи
- Функциональные возможности и структура
class1 СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ СРЕДСТВ ПОВЫШЕНИЯ
ФУНКЦИОНАЛЬНОЙ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ class1
Математическая модель бестезаурусных ИПС. Основные определения. Постановка задачи
Одним из достоинств теории нечетких множеств, предложенной Заде /26, 88/, является ее большое практическое значение при разработке математических моделей тех или иных процессов, систем. Помимо других преимуществ, математические модели, основанные на понятиях теории нечетких множеств, обладают компактностью, что способствует раскрытию сущности описываемых процессов. В ряде работ /56, 73, 74, 75, 76, 83/ используется именно такой подход при формальном представлении информационно-поисковых систем. Формальное представление рассматриваемого в данной работе класса ИПС с помощью понятий теории нечетких множеств нам также представляется предпочтительным.
Рассмотрим дескрипторную бестезаурусную ИПС, лексической базой для которой служит некоторое множество дескрипторов - / . Обычно множество Т состоит из конечного числа элементов которые получаются некоторым ручным или автоматизированным способом (например, путем статистического автокодирования /3/) и соответствуют тем или иным терминам, словам естественного языка.
Система объектов. Оценка связанности объектов с системой
Функция Н оценивает степень близости каждого объекта с системой, используя только непосредственную близость данного объекта со всеми объектами (в том числе и с самим собой). Для выявления недостатков функции JW рассмотрим пример системы, граф близости которой представлен на рисунке 2.1. Система состоит из шести объектов. На рисунке изображены только те ребра, которым соответствуют ненулевые числа (степени близости соответствующих объектов). Из представленных на рисунке оценок следует, что ft (Qi) = Ц (&б). Следует отметить, однако, что степень близости объекта ХІ с системой необходимо считать большей,чем степень близости объекта QQ% так как объект близок с "хорошими" объектами в смысле их близости с системой:
Учитывая сказанное, для оценки степени близости объектов с системой можно предложить функцию.
Метод обратной связи
Поисковое предписание (3.1) представляет собой нечеткое множество, определенное на некотором множестве дескриптивных векторов і )Л . Так как нашей целью является улучшение функциональной эффективности ИПС, естественно, необходимо требовать, чтобы множество дескриптивных векторов j &Л по возможности больше соответствовало информационным потребностям абонента. Степени принадлежности ju. показывают степень релевантности документа. Они используются в формуле (3.2) в качестве весовых коэффициентов, т.е. сходству некоторого дескрипоивного вектора с &; придается большое значение, если вектору 2bj соответствует большая степень релевантности (ц. ,и наоборот.
Прежде чем рассматривать возможности и способы порождения поискового предписания, удовлетворяющего описанным выше требованиям, обсудим следующие особенности данной обратной связи.
1. Обратная связь по данному методу отличается от существующих тем, что повторный поиск ведется по поисковому предписанию специального типа, требующего дополнительного программного обеспечения.
2. Метод применим для различных типов дескрипторных ИПС (булевых, весовых).
3.В поисковом предписании (3.1) в качестве семантических единиц использованы дескриптивные векторы.
Требование дополнительного программного обеспечения для повторного поиска можно отнести к недостаткам данного метода. Однако, учитывая требования к современному программному обеспечению (принцип модульного программирования), следует с уверенностью утверждать, что создание дополнительного программного обеспечения для повторного поиска и его включение в комплекс программного обеспечения не потребует большого количества времений и усилий.
Данный метод обратной связи не связан с используемой в ИПС стратегией информационного поиска. Следствием этого является возможность его применения в ИПС с различными стратегиями информационного поиска.
Третья особенность данного метода является важной с точки зрения пригодности метода для дескрипторных ИПС со статистическим автокодированием текстов естественного языка. Как известно, в ИПС со статистическим автокодированием не разрешена проблема кодовой синонимии и омонимии. В результате этого функциональная эффективность поисковой системы сильно зависит от явления кодовой синонимии и омонимии, когда в поисковом предписании в качестве семантических единиц используются отдельные дескрипторы.
Функциональные возможности и структура
Пакет прикладных программ "МАШТОЦ" предназначен для организации документальной информационно-поисковой системы в целях информационного обслуживания специалистов различных предметных областей. Универсальность такого рода отчасти обеспечивается применением методов статистического автокодирования слов естественного языка /2/.
ППП "МАШТОЦ" обеспечивает решение следующих задач:
- организация файла статистических данных, который используется при автокодировании слов естественного языка;
- вывод информации на системную печать из статистического файла в редактированном формате;
- ввод, формально-логический контроль машиночитаемых вторичных документов и организация информационных массивов;
- статистическое автокодирование вторичных документов и организация поисковых массивов;
- ввод, формально-логический контроль поисковых предписаний и их автоматическое кодирование;
- информационный поиск по запросам абонентов;
- сортировка релевантных документов и их вывод на соответствующее устройство вывода (алфавитно-цифровое печатающее устройство, алфавитно-цифровой дисплей).