Содержание к диссертации
ВВЕДЕНИЕ 5
1 СОСТОЯНИЕ ВОПРОСА. ОБЗОР И АНАЛИЗ ЛИТЕРАТУРНЫХ
ИСТОЧНИКОВ 12
-
„ОбщиеПРИНЦИПЫ ПОСТРОЕНИЯ И СТРУКТУРА ИНФОРМАЦИОННО-! гоисковой СИСТЕМЫ 12
-
ИНФОРМЛЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ 15
-
Логический поиск .....75
-
Взвешенный поиск /7
/.2.3 Линейная модель индексирования и поиска 11
-
Поиске нечетких множествах 11
-
Пороговые модели 18
-
Кластерная модель .- 18
-
Вероятностная модель 18
-
Коррекция запроса «0релевантности 18
-
Поиск по смыслу 19
-
Поиск по шаблону 20
-
Итеративный поиск 20
і ,3 Формальные модели естественного языка 21
-
Общие сведения 21
-
Средства смысаоотождествленчя в ИПС 24
-
Классификация И 11Я 26
-
Эволюция информационно-поисковых языков 29
1.4 Программные системы для поиска информации 31
-
Документальная ИПС Артефакт 31
-
Система D/Search 31
-
Oracle Context Cartridge (ОСО 32
-
ExcaHbur Retrieval Ware ; 34
-
TEXIS 35
-
Ятіех 36
-
Евфрапі 31
-
Сравнение существующих поисковых систем и обоснование необходимости разработки 38
-
Постановка задачи 40
-
Выводы 41
2 ТЕОРЕТИЧЕСКИ К ОСНОВЫ ПОСТРОЕНИЯ
ИНТЕЛЛЕКТУАЛЬНОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ
СИСТЕМЫ .'. 43
2.1 СШАШИКО-СИІІТАІССИЧЕСКИЙ АНАЛИЗ И СИНТЕЗ ТЕКСТОВ НА ЕСТЕСТВЕННЫХ
ЯЗЫКАХ 43
-
Семантико-синтаксическая структура текстов 43
-
Элементы структурной лингвистики 48
-
Синтаксический анализ текстов 53
-
Определение значимости слов на основе законов Ципфа 59
2.J.5 Иерархическая векторная модель представления документов в
информационном поиске. 62
2.2 Лингвистический .процессор 66
-
Блок лексического аншиза 68
-
Блок морфологического анализа 68
-
Блок синтаксического анализа 73
-
Блок семантического анализа 76
22 ВКРОЯТНОСШЫЙСИНЬАКСИЧГСКИЙ анализ 85
2.3. і Структурные и вероятностные методы анализа 85
-
Вероятностные КС-грамматики 85
-
Метод генетических алгоритмов 8?
-
Метод распознавания образов 88
-
Метод дерева решений 90
2.3 6 Алгоритм вероятностного синтаксического анализа 99
2.4 ВЫВОДЫ 104
3 РАЗРАБОТКА И СОЗДАНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ
ПОИСКОВОЙ СИСТЕМЫ 105
ЗЛ Индексирование документов 105
-
Система индексирования..., 105
-
Анализ и классификация способов индексирования 106
3.2 Файловые структуры для хранения и поиска информации 108
3.2. і Основная терминология при описании структур файлов 108
-
Последовательные фаты ПО
-
Инвертированные файлы ПО
3.2.1 Индексно-пос.чедовательные фаты.. 111
-
Мультисписки 111
-
Ячеистые мультисписки П2
3.2.? Кольцевые структуры 113
3.2.8 Заплетенные списки 115
3.3 Вывор и ОБОСНОВАНИЕ языка программирования ! 17
3.4 Алгоритмическое 11 ПРОГРАММНОЕ конструирование ЙНІ'ШІЛЬКТУАЛЬНЬІХ
СИСТЕМ ДЛЯ ПОИСКА ИНФОРМАЦИИ J18
3.4J Общие положения 118
-
Нахождение начальноїі формы слова 121
-
Нахождение не ключевых слов 121
-
Объекты для нахождения синонимов 122
-
Реализация поиска в базе данных документов 122
-
Ретизаиия интеллектуальной надстройки к поисковым машинам сети Интернет 123
-
Конструирование пользовательского интерфейса 125
3.5 РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ 126
-
Требования к оборудованию иустанопка программы 126
-
Запуск программы 126
-
Основное окно программы 126
-
Ввод запроса 12?
-
Задание области поиска 12?
3.5.6!Іоиск документов 128
3.5.7 Быдача результатов 128
3.6 Выводы 129
4 ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ ИНТЕЛЛЕКТУАЛЬНОЙ
ПОИСКОВОЙ СИСТЕМЫ 130
4.1. Эффективность и релевантность поиска 130
-
Качество информационно-поисковых систем 130
-
Методы улучшения качества поиска 132
4. L3 Эффективность поиска 136
4.2 Тестирование интеллектуальной ИПС 137
-
Тестирование эффективности поиска 13?
-
Поиск документов MS Word 13Н
-
Поиск электронных таблиц MS Excel 141
-
Поиск Web-страниц 142
-
Тестирование скорости поиска 142
4.3 Выводы 145
ЗАКЛЮЧЕНИЕ 147
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 148
ПРИЛОЖЕНИЕ А - ИСХОДНЫЙ ТЕКСТ ПРОГРАММЫ 151
Введение к работе
Актуальность проблемы. За последние несколько лет бурное развитие сети Интернет и повсеместная компьютеризация делопроизводства привели к значительному увеличению количества и обьемов электронных документов. Возникающие при этом проблемы поиска нужной информации осложняются слабой структурированностью информационных ресурсов, к тому же хранящихся в различных форматах офисных пакетов. Упорядочивание документов при помощи системы каталогов зачастую является неэффективным и ненамного сокращает время поиска нужного документа. Встроенные во многие пакеты офисных программ средства ручного задания атрибутов документа (тема, ключевые слова, аннотация и т.д.). облегчая в некоторой степени процесс поиска, требуют в тоже время дополнительной работы по аннотированию документов. Дня решения этих проблем в последнее время интенсивно развиваются системы для поиска в полнотекстовых информационных массивах по совокупности признаков (обычно ключевых слов).
Большинство поисковых систем, используемых в Интернет, либо я вляются пол но текстовыми і ю исковыми машинами, либо сочетают древовидную структуру каталогов с возможностью запросов для поиска по аннотациям и названиям документов. Второй тип систем требует квалифицированного эксперта или нескольких экспертов в различных предметных областях для построения иерархической структуры и проверки соответствия содержания поступающих в систему документов их местоположению в дереве.
I fолнотекетовые поисковые системы обычно выделяют из документа только текст без форматирования, иногда строя словарь всех встреченных ключевых слов, но не анализируя смысл текста. Результаты поиска в таких системах с использованием запросов как на естественном языке, так и в булевской форме обычно связаны с большим количеством нерелевантных документов и отсеиванием из результатов поиска действительно необходимых документов только из-за несоответствия грамматических форм слов в запросе и документе и из-за использования в документах слов и словосочетаний, отличных по форме, но имеющих тот же смысл, что и слова в запросе.
Так как большинство пользователей механизмов поиска просто выбирают одно или несколько ключевых слов для поиска и не применяют сложных функций булевой логики, то поисковый механизм сам должен быть достаточно интеллектуальным.
Диссертационная работа посвящена разработке принципов фунциопирования интеллекуалыюй информационно-поисковой системы, включая модули обработки запроса и индексирования документов, лексического анализатора, модуля определения релевантости информации запросу.
Цель работы.
Теоретической обоснование и разработка интеллектуальной информационно-поисковой системы.
Задачи исследования: определение общих принципов построения и структуры интеллектуальной информационно-поисковой системы; проведение анализа существующих моделей представления документов в интеллектуальных информационно-поисковых системах; исследование уровней формальных моделей естественно го языка; разработка структуры лингисі ического процессора; разработка методов анализа к преобразования запроса к поисковой системе па естественном языке к форме. позволяющей достичь эффективных результатов поиска: анализ семантико-синтаксических моделей для описания структуры текстов; рассмотрение статистического (вероятностного) метода анализа на основе дерева принятия решений: решение практических вопросов разработки и создания интеллектуальной информационно-поисковой системы; проведение анализа и классификация способов индексирования документов в интеллектуальных поисковых системах; разработка алгоритмов автоматического индексирования естественно-языковых текстов; разработка алгоритмов индексирования текстовой информации. использующие определение весовых коэффициентов ключевых слов документов и запросов на основе законов Ципфа; проведение анализа специальных структур файлов для храпения информации и ее поиска по совокупности ключевых слов; проведение алгоритмического и программного конструирования интеллектуальной системы для поиска информации; анализ связи между полнотой и точностью поиска еетественно-языковьтх текстов.
Методы исследования.
Один из способов использования контекстно-зависимой информации для повышения точности результатов - нечеткий поиск с дополнением запроса синонимами ключевых слов. Теоретическое обоснование и разработка именно такой системы являлось целью данной работы. В разработанной интеллектуальной ИІ1С каждое ключевое слово запроса может дополняться синонимами, соответствующими одному или нескольким значениям слова, в зависимости от контекста, с учетом морфологии русского и английского языков. Таким образом, в данной системе проводится анализ и преобразование запроса к поисковой системе на естественном языке к форме, позволяющей достичь более эффективных результатов поиска.
Поставленные задачи решены с применением теории графов, теории нечетких множеств, математического моделирования и целочисленного линейного программирования.
Научная новизна. исследованы уровни формальных моделей естественного языка с целью определения оптимальной модели представления документов в интеллектуальной поисковой системе; разработаны методы анализа и преобразования запроса к поисковой системе па естественном языке к форме, позволяющей достичь эффективных результатов поиска; разработана и исследована структура лингиетичеекого процессора - одного из ключевых элементов интеллектуальной поисковой системы с естественно-языковой ориентацией; решены практические .вопросы разработки и создания интеллектуальной информационно-поисковой системы; разработан и исследован перспективный подход к обработке естесгвенно-язьтковых текстов - статистический (вероятностный) метод анализа на основе дерева принятия решений; с целью оптимизации процесса индексирования проведен анализ и классификация способов индексирования документов в интеллектуальных поисковых системах, включающие методы деривативного,- приписного индексирования и автоматической классификации; разработаны алгоритмы автоматического индексирования естественно-языковых текстов в интеллектуальных поисковых системах; для решения практических вопросов представления естественно-языковых документов в индексе поисковой системы проведен анализ специальных структур файлов для хранения информации и ее поиска по совокупности ключевых слов; сформулирована и разрешена задача нахождения путей улучшения качества результатов поиска ИПС при ограничениях, заданных через ресурсоемкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи; разработаны принципы построения и структура интеллектуальной информационно-поисковой системы;
Практическая ценность. Основным достоинством разработанной ИПС является ускорение поиска нужной информации и повышение эффективности делопроизводства в организациях с большим количеством электронных документов самых различных форматов. Поэтому дополнительным условием при создании ИПС являлась поддержка индексирования и поиска не только текстовых и HTML файлов, но и всего спектра используемых в офисной работе форматов: документов Word, электронных таблиц Excel, презентаций PowerPoint, баз данных Access и, конечно. Web-страниц в формате HTML.
Дополнительной возможностью разработанной системы является передача преобразованного запроса для поиска по базам данных популярных российских и зарубежных поисковых машин Интернета. И этом случае программа выступает в роли интеллектуальной надстройки к поисковым механизмам сети Интернет, в том числе к системам AltaVista, Rambler, Япсіех.
В настоящее время в рамках проектов комплексной автоматизации управленческого и бухгалтерского учета, проводимых ООО «Инфотэкс», система внедрена на более 20 предприятиях Ханты-Мансийского округа (акт внедрения прилагается).
Апробация работы.
Основные этапы работы докладывались и обсуждались на X Международной конференции " Применение новых технологий в образовании " (Троицк, 1999), 8-ом Международном науч.-техи. семинаре " Проблемы передачи и обработки информации в сетях и системах телекоммуникаций "(Рязань, 1999), Всероссийской науч.- техн. конференции " Новые информационные технологии в научных исследованиях и в образовании (Рязань, 2000), Второй международной научно-технической конференции "Измерение, контроль, информатизация'* (Барнаул, 2001).
Публикации. По теме диссертации опубликовано 10 печатных работ. Из них: 1 учебное пособие, 1 монография, 4 статьи и 4 тезисов докладов на вышеперечисленных конференциях.
Основные положении, выносимые на защиту: принципы построения и структура интеллектуальной информационно-поисковой системы; методы анализа и преобразования запроса к поисковой системе на естественном языке к форме, позволяющей достичь эффективных результатов поиска; архитектура лингистического процессора одного из ключевых элементов интеллектуальной поисковой системы с естественно-языковой ориентацией; алгоритмы автоматического индексирования естественноязыковых текстов в интеллектуальных поисковых системах; методы улучшения качества результатов поиска ИПС при ограничениях, заданных через ресурсоемкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи;
Структура и объем работы
Работа содержит 29 рисунков, 8 таблиц, библиографию из 32 наименований на 3 страницах и приложения на 28 страницах.
В первой главе определены общие принципы построения и структура интеллектуальной информационно-поисковой системы; проведен анализ существующих моделей представления документов в интеллектуальных информационно-поисковых системах; определена степень развития информационно-поисковых языков, включая логический поиск, взвешенный поиск, линейную модель индексирования и поиска, поиск в нечетких множествах, пороговые модели, кластерную и вероятностные модели, итеративный поиск: исследованы наиболее известные программные продукты в области организации хранения и поиска информации, созданные российскими и зарубежными разработчиками; обоснована необходимость интеллектуально информационно-поисковой системы, сочетающей предельную простоту* интерфейса, автоматическую индексацию документов без дополнительной работы пользователей, поддержку русской морфологии и поиска по смыслу с использованием русского и английского тезаурусов, и в гоже время позволяющей использовать файлы распространенных в настоящее время форматов; осуществлена постановка задачи и определены методы ее решения.
Во второй главе диссертации рассмоіреньї четыре уровня формальных моделей естественного языка: элементарная теоретико-множественная модель, линейные модели, синтаксические модели, семантические модели; показано, что в информационном языке. обеспечивающем формализацию информационно значимого содержания текста, достаточно иметь некоторый основной набор средств представления связей между дескрипторами; рассмотрены семантико-синтаксические модели для описания структуры текстов; описан алгоритм автоматического синтаксического анализа естественно-языковых текстов. В данной главе разработана структура лиигистического процессора - одного из ключевых элементов ИГІС с естественно-языковой ориентацией, ВЫПОЛНЯЮЩИЙ роль посредника между пользователем и базой данных, в которой хранится интересующая его информация. Рассмотрены методы морфологического аначиза, использующихся в лингвистических процессорах, включая методы с декларативной и с процедурной ориентацией; описаны две стратегии синтаксического анализа - "по приоритетам" и "по порядку слов"; рассмотрен перспективный подход к обработке естественно-языковых текстов - статистический (вероятностный) метод анализа на основе дерева принятия решений.
В третьей главе рассмотрены практические вопросы разработки и создания интеллектуальной информационно-поисковой системы, проведен анализ и классификация способов индексирования документов в интеллектуальных поисковых системах, включающие методы дери вати вного, приписного индексирования и автоматической классификации; разработаны алгоритмы автоматического индексирования естественно-языковых текстов в интеллектуальных информационно-поисковых системах. В данной главе предложены алгоритмы индексирования текстовой информации, использующие определение весовых коэффициентов ключевых слов документов и .запросов на основе законов Ципфа; проведен анализ специальных структур файлов для хранения информации и ее поиска по совокупности ключевых слов. Проведен выбор и обоснования языка программирования (С+^), основными критериями при выборе были поддержка в полной мере объектио-ориентированпого программирования, возможность использования технологии OLE Automation, визуальное проектирование интерфейса. В данной главе также проведено алгоритмическое и программное конструирование интеллектуальной системы для поиска информации
В четвертой главе, посвященной опенке эффективности работы интеллектуальной поисковой системы, рассмотрены понятия эффективности и релевантности поиска; сформулирована и разрешена задача нахождения путей улучшения качества результатов поиска ИІІС при ограничениях, заданных через ресурсосмкость алгоритма индексации и величины вычислительной мощности системы и пропускной способности каналов связи; проанализирована связь между полнотой и точностью поиска естественно-языковых текстов; показано, что ограничение на пропускную способность каналов связи при построении индекса интеллектуальной поисковой системы решается при помощи процесса адаптивного обновления в зависимости от ранга коллекций ресурсов; рассмотрены практические примеры тестирования интеллектуальной поисковой системы на электронных документах разных форматов с использованием запросов на русском языке.
В приложении приведены фрагменты исходною текста на языке C++ разработанной интеллектуальной поисковой системы.