Содержание к диссертации
Введение
Глава 1. Анализ структуры и функциональных возможностей автоматизированных систем управления производством 14
1.1 Обобщенная структура и классификация автоматизированных систем управления производством 14
1.2. Формализованное представление процесса управления производством 24
1.3. Анализ современных моделей поиска документированной информации в распределенных структурах 28
1.3.1. Теоретико-множественные модели 28
1.3.2. Вероятностные модели 32
1.3.3. Алгебраические модели 34
1.4. Обзор методов и средств поиска документированной информации в распределенных структурах 39
1.5. Постановка задачи диссертации 56
Выводы по главе 1 58
Глава 2. Создание математических моделей представления информации в поисковых системах 60
2.1. Формализация задачи поиска информации 60
2.2. Моделирование полнотекстового документа в терминах семантических сетей 68
2.3. Разработка моделей полнотекстового запроса и образа документа 74
2.4. Моделирование экспертной системы поиска документированной информации в терминах теории графов 79
Выводы по главе 2 85
Глава 3. Разработка алгоритмов функционирования модуля поиска документированной информации 86
3.1 Создание алгоритмов функционирования системы автоматизированного поиска документированной информации 86
3.1.1. Алгоритмическая реализация создания поискового образа документа 86
3.1.2. Поисковый запрос и его алгоритмическая реализация 90
3.2. Разработка обобщенного алгоритма поиска релевантной информации 93
3.3.Выбор и обоснование средств и методов моделирования работы поискового модуля 94
3.3.1. Структурирование и классификация существующих методов моделирования 96
3.3.2. Содержательное и концептуальное описание модели 98
3.4. Построение концептуальной модели основных функций модуля поиска информации 101
Выводы по главе 3 112
Глава 4. Программная реализация и имитационное моделирование работы модуля поиска документированной информации 113
4.1. Разработка программных модулей системы автоматизированного поиска документированной информации 113
4.2. Имитационная модель поисковой системы в информационном пространстве электронного хранилища документов 118
4.3. Оценка эффективности использования разработанных моделей и алгоритмов 136
Выводы по главе 4 140
Заключение 141
Список литературы 143
Приложение 1 153
Приложение 2 179
- Обобщенная структура и классификация автоматизированных систем управления производством
- Моделирование полнотекстового документа в терминах семантических сетей
- Алгоритмическая реализация создания поискового образа документа
- Разработка программных модулей системы автоматизированного поиска документированной информации
Введение к работе
В настоящее время существует и активно развивается целая отрасль информационных систем, предназначенных для обработки документированной информации, в частности, современные справочные систем, электронные энциклопедии, справочно-правовые системы, системы управления документами, системы автоматизации деловых процессов (workflow-системы), комплексы поддержки групповой работы и т.д. Для поиска информации, представленной в виде документов используются системы автоматизированного поиска документированной информации (САП ДИ). Однако в течение последних нескольких десятков лет список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем (ПС) и пользовательских интерфейсов, языки запросов, и т. д. [1-3]
Исходя из необходимости эффективности функционирования современных поисковых систем, основными требованиями, предъявляемыми к ним, являются:
удобство и полнота представления запросов для пользователя — форма входного запроса должна позволять легко выражать любые требования, относящиеся к интересующей информации, будучи при этом интуитивно понятной и простой в применении;
точность проводимого поиска — все документы, выдаваемые системой, должны быть релевантны запросу пользователя;
полнота осуществляемого поиска — необходимо выдавать список, включающий абсолютно все полезные документы, находящиеся в хранилище;
высокая скорость работы — время обработки запроса должно быть минимальным с учетом функциональных возможностей используемых средств вычислительной техники.
Поскольку в современных производственных системах количество документов, хранящихся в непрерывно пополняющихся электронных архивах, зачастую исчисляется десятками тысяч, важнейшим требованием к поисковым системам является обеспечение высокой степени релевантности - соответствия найденных документов информационной потребности пользователя. Следует отметить, что применяющиеся средства автоматизации производства ориентированы в первую очередь на управление технологическими процессами, а поиску релевантной документированной информации уделяется недостаточно внимания.
Таким образом, исследования, направленные на создание универсальных методов и алгоритмов поиска документированной информации в распределенных производственных структурах, являются актуальными.
Цель работы. Целью диссертационного исследования является разработка моделей и алгоритмов автоматизации поиска документированной информации в распределенных производственных системах, обеспечивающих повышенную релевантность и достоверность находимых документов. Указанная цель достигается созданием математических моделей полнотекстового документа, запроса и поискового образа документа, экспертной модели поиска, алгоритмов построения поисковых образов документов, расширенного поискового запроса, модели нахождения релевантной информации и построении имитационной модели функционирования поисковой системы.
Задачи исследования. В соответствии с указанной целью в работе решаются следующие задачи:
Анализ структуры и функциональных возможностей современных автоматизированных систем управления производством.
Формализованное представление задачи поиска документированной информации в распределенных производственных структурах.
Разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа.
Создание экспертной модели поиска документированной информации.
Разработка комплексного алгоритма нахождения релевантной информации.
Построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов.
Методы исследования. В диссертационной работе использованы методы системного анализа, теории информационных систем, элементы
теории принятия решений, элементы теории вероятности, методы математического и имитационного моделирования.
Научная новизна работы состоит в создании новых моделей и алгоритмов, обеспечивающих повышенную релевантность и достоверность полнотекстового поиска документированной информации в распределенных производственных структурах. При этом получены следующие научные результаты.
Проведен аналитический обзор функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации.
Разработано формализованное представление полнотекстового документа в терминологии семантических сетей.
Разработана математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью поискового образа документа (ПОД).
Алгоритмически реализовано построение расширенного поискового образа документа, базирующегося на простом ПОД, а также комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.
Создана концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов.
Создана и верифицирована имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности
поиска по сравнению с традиционными методами поиска
документированной информации и ее верификация.
Практическая значимость работы заключается в расширении возможностей автоматизированного поиска документированной информации на производственных предприятиях. Представленные в работе алгоритмическая реализация построения расширенного поискового запроса и комплексный алгоритм нахождения релевантной информации направлены на решение практических задач поиска документированной информации в массивах электронных хранилищах. Результаты имитационного моделирования подтверждают повышение эффективности поиска информации на основе предложенных моделей и алгоритмов по сравнению с традиционными. Использование предложенной алгоритмической реализации расширенного поискового образа документа, полученного в результате агрегирования знаний экспертов и пользователей САП ДИ при анализе проиндексированных документов, позволяет повысить количество релевантных документов, выдаваемых системой на 25-27% по сравнению с обычным запросом и долю достоверных документов, выдаваемых системой, на 5-8%.
По результатам внедрения семантической сети, построенной на основании объединения поисковых образов проиндексированных документов, решены проблемы повышения точности характеристик предметной области, в частности, при моделировании количество термов с аналогичными семантическими окружениями составило 5-10%.
Личный вклад автора. Все основные результаты получены автором лично. Главными из них являются:
- проведение аналитического обзора функциональных возможностей
автоматизированных систем управления производством в контексте
структурно-функциональной реализации автоматизированного поиска документированной информации;
формализация представления полнотекстового документа в терминологии семантических сетей;
разработка на основе теории графов математической модели полнотекстового запроса, коррелирующей с математической моделью ПОД;
алгоритмическая реализация построения расширенного поискового образа документа, базирующегося на простом ПОД;
выведение комплексного алгоритма нахождения релевантной информации на основе обратной связи с пользователем;
создание концептуальной модели функционирования САП ДИ как составляющей автоматизированной системы управления производством на базе разработанных математических моделей и алгоритмов;
построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов.
Внедрение разработанных моделей, алгоритмов и программной реализации модели поиска документированной информации в технологический процесс ООО "Дуэт Ко".
Внедрение результатов диссертационной работы в учебный процесс кафедры ИПОВС МИЭТ.
Реализация полученных результатов. Все работы по реализации и внедрению проводились под руководством или при непосредственном участии автора. Результаты диссертационной работы используются в технологическом процессе 000 "Дуэт Ко" в рамках опытной эксплуатации
автоматизированной системы поиска архивной документации -
разработанные модели, алгоритмы и программная реализация модели поиска
релевантной информации в информационном пространстве электронного
хранилища документов внедрены в автоматизированные рабочие места
системных аналитиков и главных специалистов, входящих в единую
автоматизированную систему управления производством и поиска архивной
документации. Благодаря использованию разработанных моделей и
алгоритмов затраты рабочего времени специалистов на поиск документации
снизились более чем в 2 раза, и на 25% уменьшилось количество
нерелевантных документов, ошибочно получаемых пользователями. Кроме
того, результаты работы использованы в учебном процессе кафедры ИПОВС
Московского Государственного института электронной техники при чтении
дисциплин "Автоматизированные информационные системы",
"Проектирование информационных систем", "Имитационное
моделирование".
В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:
Формализованное представление полнотекстового документа в терминологии семантических сетей.
Математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью ПОД.
Алгоритм построения расширенного поискового образа документа, базирующийся на математической модели полнотекстового запроса.
Комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.
Концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления
производством, на базе разработанных математических моделей и алгоритмов. 6. Имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации. Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях:
V Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им. Баумана, 2003.
Одиннадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2004», МИЭТ, 2004.
VI Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им. Баумана, 2004.
Двенадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2005», МИЭТ, 2005.
V Международная научно-техническая конференция "Электроника и информатика - 2005", МИЭТ, 2005.
Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2006», МИЭТ, 2006.
Основные результаты диссертационной работы опубликованы в 12 изданиях в том числе статей в научных журналах - 4, тезисов докладов -7, работ без соавторов - 8.
Достоверность полученных результатов подтверждается результатами имитационного моделирования, доказавшими преимущества предложенных в работе методов и алгоритмов полнотекстового поиска документированной информации, выразившиеся в повышении релевантности находимых документов, а также успешным внедрением и эксплуатацией моделей и алгоритмов на предприятии «ООО ДУЭТ Ко».
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из наименований и приложения, содержит 180 страниц текста, включая 24 рисунка, 3 таблицы и 10 страниц списка используемой литературы из 119 наименований и 2 приложения.
Во введении обосновывается актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, рассматривается структура диссертации и взаимосвязь отдельных глав.
В первой главе проанализированы наиболее распространенные математические модели поиска информации, показаны преимущества и недостатки каждой из них, выполнен аналитический обзор современных методов и средств поиска документированной информации в вычислительных сетях производственных систем. Выявлен и проанализирован ряд недостатков, характерных для большинства существующих систем. Сформулированы цели и задачи диссертационного исследования.
Во второй главе разработаны модели представления информации в поисковых системах. На их основе построены модели формализации поиска документированной информации, полнотекстового запроса и полнотекстового образа документа, а также экспертная модель поиска документированной информации.
В третьей главе построены алгоритмы построения поискового образа документа, расширенного поискового запроса, предложена методика сравнения поискового образа документа и запроса, а также обобщенный алгоритм нахождения релевантной информации. Построена концептуальная модель функционирования модуля поиска информации, входящего в состав системы управления производственным предприятием. Обоснован выбор методов и средств моделирования, построена концептуальная модель функционирования модуля поиска документированной информации в рамках автоматизированной системы управления производственным предприятием.
В четвертой главе проведено имитационное моделирование обработки поисковых запросов и разработана программная реализация модели функционирования модуля автоматизированного поиска документированной информации в производственных структурах. Доказаны преимущества разработанных методов и алгоритмов по сравнению с традиционными методами поиска информации, заключающиеся в повышенной релевантности выдаваемых документов и увеличившейся доле достоверных документов среди них.
В заключении диссертации сформулированы основные выводы и научные результаты.
В приложении приведены листинги программных модулей, созданных при проведении имитационного моделирования функционирования модуля поиска информации, реализующего разработанные методы и алгоритмы, а также представлены копии актов внедрения результатов диссертационного исследования на производственном предприятии и в учебный процесс.
Обобщенная структура и классификация автоматизированных систем управления производством
В настоящее время задачи, решаемые управленческим звеном производственных предприятий, практически целиком переводятся на информационно-технологическую основу. Этот переход обусловлен следующими обстоятельствами: - высокой динамичностью изменения производственной и экономической обстановки в современных условиях; - необходимостью учета значительного числа факторов и ограничений различного рода при решении вопросов обеспечения функционирования предприятия; - необходимостью обработки больших объемов информации при подготовке и принятии управленческих решений [4]. При внедрении и использовании информационных технологий (ИТ) для информатизации концепции информатизации функционирования производственного предприятия уделяется особое внимание обеспечению информационной поддержки управленческой деятельности всех эшелонов менеджмента предприятия - начиная от генерального директора и топ-менеджмента до низовых звеньев. Для этого необходимо тщательное изучение организационной структуры предприятия, основных этапов процесса управления. Управленческие функции выполняются непрерывно и протекают в жестких временных ограничениях, с оперативным реагированием на постоянно меняющуюся внешнюю и внутреннюю ситуацию. Для успешного функционирования необходимо выработать определенные правила поведения специалистов на каждом рабочем месте, вне зависимости, является оно обычным или автоматизированным рабочим местом (АРМ). Элементы организационной структуры в основном соответствуют составу функциональных подсистем корпоративной ИС, которая решает такие комплексы задач, как: - планирование производства; - планирование потребностей в сырье и материалах; - управление производством на цеховом уровне; - планирование производственных мощностей; - материально-техническое снабжение; - составление планов производства; - контроль входа/выхода; - планирование и управление инструментальными средствами; - складское управление; - планирование продаж; - управление спросом; - управление отгрузкой готовой продукции; - финансовое планирование; - моделирование; - оценка результатов деятельности предприятия; - краткосрочное и долгосрочное прогнозирование деятельности предприятия [5-8]. Распределение по функциональным подсистемам позволяет легко структурировать информацию по предметному признаку и обеспечить необходимый уровень унификации данных для автоматизации сбора, обработки, хранения в хранилищах данных, поиск и использование информации. В настоящее время в условиях постиндустриального общества все больше производственных предприятий образуют распределенные системы It) структурные подразделения могут быть территориально удалены друг от друга. На рис. 1.1 представлена структура прохождения документации (документных связей) предприятия. Как видно из рисунка, управление и поиск документированной информацией осуществляется автономно для каждого подразделения (в частности, производственного). Для улучшения функционирования предприятия необходимо разработать единую систему автоматизированного поиска документированной информации, функционирующую как в централизованном предприятии, так и в распределенной системе. Архитектура информационно-управляющих систем. В соответствии с концепцией многоуровневой архитектуры связи в 1984 г. Международная организация по стандартизации (International Standards Organization - ISO) разработала архитектуру и модель взаимосвязи автоматированных систем (АС), которая принята в качестве Международного стандарта ISO 7498 [10-11, 13-18]. Целями модели являются стандартизация обмена сообщениями между системами, устранение любых технических препятствий для связи систем, устранение трудностей «внутреннего» описания функционирования отдельной системы, обеспечение разумного отхода от стандартов в случае, если они не удовлетворяют всем требованиям. Архитектура информационно-управляющих систем (ИУС) имеет семь уровней, представленных на рис. 1.2.
На каждом из уровней решается определенная задача, обеспечивающая функционирование вышестоящего уровня. Порождаемые этими задачами процессы, а также средства их решения объединяют понятием «логические объекты». Все логические объекты приписаны соответствующим уровням. В общем случае на одном уровне может быть несколько объектов. Л -й уровень одной системы может вести обмен сообщениями с N-u уровнем другой системы.
Моделирование полнотекстового документа в терминах семантических сетей
Роль моделей поиска в информационном поиске - определение того, какие признаки (термы) будут существенными, и как на основе их совпадения будет определяться числовое значение релевантности. Математическая модель поисковой системы включает в себя представление поискового образа документа, представление запроса пользователя и метод вычисления релевантности поискового образа запросу пользователя.
Одним из этапов работы интеллектуальной поисковой системы является построение расширенного запроса. При его построении необходимо иметь возможность использовать знания экспертов о предметной области, что позволит значительно улучшить качество поиска, даже при минимальном участи пользователя в построении запроса. С целью обеспечения возможности подобного расширения, необходимо ввести в рассмотрение модель представления знаний экспертов, соответствующую разработанной модели поиска. Их взаимодействие должно осуществляться в рамках единого математического аппарата, что позволит обеспечить достоверность получаемых результатов и единообразие при описании моделей и алгоритмов.
Задача поиска информации разбивается на две подзадачи: индексирование документов и непосредственно сам поиск информации. Индексирование документов заключается в построении поискового образа реального документа и сохранение его в базе данных. При этом исходный документ является входной информацией для алгоритма построения образа документа. Задача поиска состоит из этапов: - получение запроса пользователя; - построение расширенного запроса; - нахождение списка документов, соответствующих запросу; - вычисление степени релевантности найденных документов запросу. Решение данной задачи происходит с учетом модели запроса пользователя, а также метода вычисления релевантности документа (сравнение поискового образа документа и запроса пользователя). Моделирование полнотекстового документа в терминах семантических сетей Разработка алгоритма построения поискового образа документа во многом зависит от того, в каком виде представлен документ. В случае если документ имеет гипертекстовый формат, алгоритм построения поискового образа должен уметь выделять неинформативные теги оформления, встроенные в документ программы, элементы, относящиеся к оформлению, и наоборот, учитывать мета теги, теги, несущих смысловую нагрузку. Если документ представлен в формате Doc алгоритм должен различать строки, написанные различными стилями («Заголовок 1», «Основной текст» и т.д.), игнорировать изображения, входящие в документ. При всем существующем многообразии форматов (а их в настоящий момент насчитывается несколько сотен) САП ДИ претендующая на звание «полнотекстовой» должна обеспечить адекватную обработку всех этих форматов. Это в свою очередь требует разработки большого количества похожих, но все же различающихся в некоторых деталях алгоритмов построения поискового образа, что приводит к неоправданному увеличению трудоемкости разработки САП ДИ. Необходимость написания различных алгоритмов вытекает из невозможности описать в одном виде документы, хранящиеся в различных форматах. Представление документа только в виде последовательности значимых символов (цифр и букв алфавита) без учета некоторых специфичных символов форматирования приведет к потере важной для построения поискового образа информации о структуре документа [66-73].
Необходимость создания универсальной модели разработки полнотекстового документа, основанной на алгоритмах построения поискового образа документа также диктуется чрезмерной усложненностью существующих моделей (например формат XML в полной мере способен описать любой текстовый документ, но при этом перегружен большим количеством ненужной для алгоритма информации) и спецификой решаемой задачи).
При разработке моделей оперируют не символами, составляющими содержание текстовых блоков, а более высокоуровневыми объектами — термами. Для понимания семантики необходимо повысить гранулярность данных и рассматривать не символы, а понятия. Понятие (терм) - это обобщенная форма некоторого слова или словосочетания в языке, обозначающее определенный объект, признак, форму, явление, отношение, действие и т.д. Терм представляет собой неопределенную форму слова, за вычетом его контекстной значимости. Терм не содержит признаков рода, времени, количества, наклонения и т.д. В любом языке или предметной области можно составить словарь термов. Общеупотребительные слова, союзы, предлоги и т.д. не могут являться термами, ввиду того, что они несут слишком мало конкретной смысловой нагрузки и слабо отражают содержание документа.
Алгоритмическая реализация создания поискового образа документа
Алгоритм построения ПОД, соответствующего модели (п. 2.2), разбивается на 2 независимые части: алгоритм выделения термов документа с вычислением их весов и алгоритм нахождения весов связей между термами. Первый алгоритм выделяет в документе список семантически значимых термов и приписывает им веса. Несмотря на то, что в данной работе используется теоретико-множественный подход к описанию математической модели поиска, воспользуемся некоторыми приемами алгебраического подхода, позволяющего получить информацию о значимости каждого терма в описании документа. Для этого будем использовать модифицированный tfmdf метод, позволяющий получить частоту встречаемости терма в документе, скорректированную с учетом его встречаемости в пределах всей коллекции или предметной области. Данная частота является наиболее информативной составляющей при решении задачи присвоения терму степени его принадлежности документу.
При разработке схемы алгоритма построения ПОД будем считать, что исходный документ представлен в виде фреймовой сети Ф, (п. 2.1). Суть заключается в последовательном просмотре исходного документа для вычисления статистической информации о встречаемости термов в пределах документа. Эта информация используется для вычисления степени принадлежности каждого терма документу. Затем из полученного списка термов, содержащихся в документе, выбирается определенное количество наиболее значимых термов (по значению их степени принадлежности).
Полученное множество составляет множество вершин ПОД, которое и сохраняется в базе данных. Исходными данными алгоритма являются: - количество документов; - модель документа в виде сети фреймов, содержащая иерархическое описание текста; - количество термов в документе; номер документа; - количество термов в базе данных. Выходные данные: - количество термов в ПОД; - документ, представленный в виде списка термов; - степени принадлежности термов документу; - модифицированные частоты встречаемости термов в документах. В данном алгоритме не учитываются такие моменты, как появление новых термов (новые термы могут появляться либо путем их целенаправленного введения в систему экспертами, либо автоматически, при анализе документов), синхронизация добавляемой информации и хранимой базы данных и ряд других особенностей, характерных для реальной САП ДИ, но не существенных при разработке алгоритмов. Вес терма при использовании описанного выше алгоритма определяется как функция, зависящая от трех параметров: частоты встречаемости в пределах документа, положения, где он встречается и частоты встречаемости во всей коллекции документов. Вид этой функции может меняться в зависимости от применяемой модели, особенностей предметной области и ряда других факторов [87-89]. Приведенный выше алгоритм является базовым при проведении имитационного моделирования. С целью проверки степени соответствия используемых формул предлагаемой математической модели, необходимо получить оценки следующих частотных характеристик получаемых результатов: - при решении задачи выбора размера ПОД и предварительной оценке объема памяти, необходимого для хранения ПОД используется информация о размере документа выраженная в термах. При проведении имитационного моделирования одной из анализируемых характеристик является частотное распределение размера документа выраженное в обособленных лексических единицах (термах). Очевидно, что число термов, содержащихся в документе прямо пропорционально размеру самого документа. Однако вид данной зависимости может иметь сложный нелинейный характер и определяться рядом факторов, таких как тип файла, его тематическая принадлежность, стилистика и т.д. Интерес представляет исследования наиболее вероятных случаев с целью использования данной информации при разработке алгоритмов анализа документов; - для выбора функциональной зависимости, адекватно вычисляющей значений весов термов в ПОД, необходимо провести анализ частотного распределение числа встреч термов в пределах документов. Данная характеристика позволяет определить наиболее типичное значение частоты встречаемости терма в пределах документа. Кроме того, анализ частотного распределения весов термов позволяет, в свою очередь, оценить степень применимости той или иной операции нечеткой логики при вычислении степени релевантности документа запросу.
Разработка программных модулей системы автоматизированного поиска документированной информации
При разработке архитектуры полнотекстовой поисковой системы, необходимо использовать опыт существующих в настоящий момент информационно поисковых систем. Используя в качестве основы архитектуру существующих САП ДИ, необходимо произвести ее модификацию в соответствии с особенностями работы полнотекстовых баз данных, позволяющую максимально полно реализовать преимущества предлагаемой модели поиска.
К особенностям работы полнотекстовых поисковых систем следует отнести: - разнородность форматов документов. Чаще всего документы хранятся в различных форматах, в зависимости от путей поступления документа в БД; - отсутствие явной структуры среди документов. Как показывает статистика, доля структурированных данных в современных архивах составляет не более 20%, остальные же 80% приходятся на долю различных документов, сканированных текстов и другой разрозненной информации; - между документами имеется большое количество «неявных» связей (неявная связь — связь по смыслу - например ссылка на номер приказа, ссылка на книгу, ссылка на определенный документ в отличие от явной гипертекстовой ссылки); - полные тексты документов чаще всего доступны в любой момент времени и имеют сравнительно небольшое время отклика (по сравнению со временем отклика глобальной сети Интернет). При разработке архитектуры программной реализации интеллектуальной поисковой системы, ориентированной на работу с полнотекстовыми коллекциями документов, необходимо учитывать описанные выше особенности, коллекции и хранимых в ней документов. САП ДИ, реализующая модель ПОД, разбивается на два программно-независимых модуля, связь между которыми осуществляется посредством общих баз данных (рис. 4.1). Первый модуль (модуль индексации) осуществляет индексирование документов информационного массива и запись результатов в БД. Второй (модуль поиска и оценки релевантности) обеспечивает работу с пользователем, интерфейс, поиск и выдачу результатов (рис. 4.2). Рассмотрим основные функциональные компоненты первого модуля. База знаний — это информационный массив, хранящий коллекцию документов, среди которых будет осуществляться информационный поиск. Данная коллекция может включать локальные и сетевые диски, сменные носители, источники в сети Интернет и т.д. В максимально обобщенном варианте, полный доступ к документам возможен не в любой момент времени и для поиска информации текст документа использоваться не может.
Модуль приобретения знаний - словарь, хранящий различные форматы документов. В данном словаре хранятся процедуры обработки каждого типа документа. Использование подобного словаря позволяет абстрагироваться от
Структурная схема модуля индексации формата документа и вынести его обработку в отдельный блок, для разработки которого могут привлекаться сторонние фирмы (или могут использоваться существующие программные продукты и интерфейсы). Словарь словоформ - это словарь, содержащий варианты написания одного и того же слова в различных падежах, родах, и т.д. Он используется для нормализации текста, устранения избыточной для САП ДИ информации). Для каждого языка имеется свой словарь словоформ, эта информация считается заданной априорно (подобный словарь может быть составлен один раз и использоваться в дальнейшем, так как он не претерпевает частых изменений).
Работа модуля индексации осуществляется следующим образом. Поисковый робот осуществляет поиск ссылок и текстов документов в базах данных. Затем найденные документы при помощи словаря форматов разбиваются на блоки. Разбитые документы могут быть нормализованы при помощи словаря словоформ. В процессе нормализации и создания термов словарь словоформ может быть расширен путем добавления созданных в процессе нормализации данных документов словоформ. Далее на основе образованных термов формируется поисковый образ документа, добавляемый в базу знаний системы.
Работа модуля поиска и выдачи информации происходит следующим образом. Пользователь передает запрос в виде фразы на естественном языке браузеру (интерфейсу). Полученный запрос нормализуется в. специальном блоке с использованием БД словоформ и является исходной информацией для обращения к хранилищу документов, локальной сети предприятия или поисковым системам сети Интернет. Инициализация такого запроса выполняется программой автоматически. Полученные от перечисленных источников ссылки на документы поступают в модуль индексации. Полученные индексы передаются идентификатору, который на их основании отбирает тексты документов и передает их пользователю.