Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Ахмад Бадер

Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота
<
Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ахмад Бадер. Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота : Дис. ... канд. техн. наук : 05.13.01 Ижевск, 2005 114 с. РГБ ОД, 61:05-5/2610

Содержание к диссертации

Введение

1. Методы и системы информационного обеспечения бизнес-процессов и документооборота 9

1.1. Методология функционального моделирования SADT 9

1.2. Моделирование потоков данных (процессов) 18

1.3. Моделирование данных .' 24

1.4. Общая характеристика и классификация CASE-средств 34

1.5. Общая характеристика и классификация систем документооборота 38

1.6. Выводы и постановка задачи 40

2. Модель знаний о предметной области 44

2.1. Архитектура базы знаний о предметной области 45

2.2. Описание атрибутов 48

2.3. Описание предметов 50

2.4. Описание процессов и методов 52

2.5. Описание отношений 56

2.6. Выводы по главе 59

3. Логический синтез схем документооборота 61

3.1. Логика схем программ 62

3.2. Логическое описание схем процессов 66

3.3. Логический анализ и синтез схем процессов 68

3.4. Синтез схем документооборота 69

3.5. Выводы по главе 79

4. Автоматизация процессов анализа предметной области и бизнес-процессов

4.1. Семантический анализ и кластеризация атрибутов 81

4.2. Кластеризация объектов и построение классификационных деревьев 86

4.3. Ранжирование документов на основе знаний о предметной области 90

4.4. Автоматизированная система анализа и проектирования документооборота 94

4.5. Выводы по главе 103

Заключение 105

Литература 107

Приложение. Акты о внедрении 111

Введение к работе

В настоящее время очевидным является факт, что эффективное управление предприятием (крупным, средним, малым) невозможно без использования более или менее развитых систем электронного документооборота (СЭД) предприятия. В частности, СЭД предприятия является обязательной составляющей любой системы комплексной автоматизации управления предприятием (бизнес-процессами). В связи с этим, рынок информационных технологий и программных продуктов, позволяющих ускорить создание и, самое главное, облегчить дальнейшее сопровождение СЭД конкретного предприятия, является одним из самых бурно развивающихся в сфере ИТ.

Основой современных CASE-систем, обеспечивающих поддержку жизненного цикла (ЖЦ) информационной системы (ИС) предприятия в постоянно меняющихся рыночных условиях, является информационная модель (ИМ) предприятия (его бизнес-процессов). Именно формальная (математическая) ИМ предприятия позволяет применять формальные (алгоритмизуемые) методы и технологии для автоматизации поддержки ЖЦ ИС предприятия.

Практически все известные CASE-системы используют представление ИМ предприятия, основанное на применении методологий и стандартов семейства IDEF или их модификациях. На основе таких ИМ можно проводить системный анализ и оптимизацию бизнес-процессов предприятия и даже частичный синтез (структура хранилищ данных, учет и контроль событий, в том числе, связанных с оформлением документов) ИС предприятия.

К сожалению, все эти методологии и стандарты изначально ориентированны преимущественно на описание уже существующих бизнес - процессов и документооборота организации, а не на синтез новых. Кроме этого, для ма-

лых и средних предприятий экономически не всегда оправдывается приобретение дорогостоящих систем электронного документооборота или средств их разработки, ввиду дорогостоящего внедрения, высокой сложности методологий и трудоемкости процессов анализа, необходимости тесного сотрудничества экспертов в предметной области и программистов высокой квалификации.

Таким образом, актуальной является задача повышения степени автоматизации процессов системного анализа документооборота, снижения трудоемкости проектирования систем электронного документооборота, и, тем самым, повышения эффективности управления бизнес-процессами на малых и средних предприятиях путем разработки формальных методов и алгоритмов анализа документооборота и бизнес-процессов, основанных на методах искусственного интеллекта.

Бурное развитие методов искусственного интеллекта позволяет предположить, что уже в ближайшее время специалисты в той или иной предметной области смогут самостоятельно, без привлечения программистов описывать технологию информационного обеспечения бизнес-процессов, управления ими и анализа эффективности.

Объектом исследования является информационное обеспечение средних и малых предприятий: бизнес-процессов, существующего документооборота и потребностей в реорганизации информационной системы предприятия.

Предметом исследования являются методы и средства автоматизации анализа бизнес-процессов, документооборота и проектирования информационных систем.

Цель работы. Повышение степени автоматизации процессов системного анализа документооборота, снижение трудоемкости проектирования

систем электронного документооборота, и, тем самым, повышение эффективности управления бизнес-процессами на малых и средних предприятиях путем разработки формальных методов и алгоритмов анализа документооборота и бизнес-процессов, основанных на методах искусственного интеллекта.

Основные задачи.

  1. Аналитический обзор методов и систем анализа бизнес-процессов и документооборота, методов и средств автоматизации проектирования баз данных и систем электронного документооборота (СЭД).

  2. Разработка математической модели предметной области предприятия.

  3. Разработка методики автоматизированного системного анализа существующего на предприятии документооборота.

  4. Разработка методов логического анализа и синтеза схем процессов.

  5. Разработка метода логического синтеза схем документооборота.

  6. Разработка и исследование интеллектуальных программных компонент для автоматизированных систем анализа документооборота.

Методы исследования. Теоретические исследования выполнены с использованием теории множеств, теории графов, математической логики, математического моделирования.

Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректностью разработанных математических моделей, их адекватностью по известным критериям оценки в рассматриваемой предметной области, использованием известных положений фундаментальных наук, положительными результатами проведенных экспериментов.

На защиту выносятся:

- модель знаний о предметной области бизнес-процессов и документооборота предприятия;

методы исчисления (выявления) на предложенных моделях различных видов отношений между свойствами, предметами, процессами;

метод логического описания и автоматического анализа и синтеза схем бизнес-процессов с помощью логики схем программ;

принципы логического описания документооборота предприятия;

пример описания и синтеза схемы документооборота;

- метод распознавания семантической сущности атрибутов таблиц и
документов;

- метод кластеризации атрибутов документов;

- метод синтеза схемы документооборота на основе вычислительной
зависимости атрибутов документов и знаний о регламенте делопроизводства
предприятия;

архитектура автоматизированной системы анализа документооборота;

общая методика анализа проблемной ситуации.

Научная новизна.

  1. Модель знаний о предметной области документооборота предприятия в виде совокупности деревьев знаний о предметах, документах, процессах и отношениях, представляемых с помощью атрибутов и методов их получения.

  2. Метод логического синтеза схем документооборота предприятия на основе логики схем программ.

  3. Метод кластеризации атрибутов существующих документов, заключающийся в морфологическом и синтаксическом анализе идентификаторов, семантическом анализе методов их вычисления, а также сопоставлении типов, диапазонов, единиц измерения значений.

  4. Метод синтеза схемы документооборота на основе вычислительной зависимости атрибутов документов, знаний о регламенте делопроизводства предприятия, а также методов интуиционистской логики.

5. Методика анализа проблемной ситуации, обеспечивающая наглядное и эффективное представление знаний о бизнес-процессах и документообороте предприятия, их анализ и синтез.

Практическая полезность и реализация.

  1. Полученные в работе методы и алгоритмы позволяют повысить степень автоматизации процессов анализа существующих на предприятиях бизнес-процессов и проектирования систем электронного документооборота.

  2. Разработанные на основе предложенных методов интеллектуальные программные компоненты могут быть использованы в САПР баз данных и системах управления бизнес-процессами, а также в учебном процессе ВУЗов для студентов соответствующих специальностей.

3. Разработанная на основе предложенных методов программная сис
тема DCA для анализа и проектирования систем электронного документо
оборота внедрена: на ФГУП "Ижевский механический завод"; в Министерст
ве образования и науки Удмуртской Республики.

Апробация работы. Основные положения диссертационной работы докладывались на 2-х международных конференциях: на VII Всероссийской с международным участием научной конференции молодых ученых и аспирантов "Новые информационные технологии. Разработка и аспекты применения". Таганрог, 2004; на научно-техническом форуме с международным участием "Высокие технологии-2004", Ижевск 2004. Работа многократно обсуждалась на постоянном семинаре "Системный анализ, управление и обработка информации" кафедр "Автоматизированные системы обработки информации и управления" и "Вычислительная техника" Ижевского государственного технического университета.

Публикации. Результаты работы отражены в 6 научных публикациях, в том числе в 5 статьях в журналах и сборниках, в 2-х докладах на научно-технических конференциях.

Структура и объем работы. Диссертационная работа состоит из введе-

ния, четырех глав, заключения и приложений. Основной текст изложен на ПО машинописных листах с таблицами и иллюстрациями. Список литературы включает 43 наименования.

В первой главе проанализированы существующие на данный момент методы и системы информационного обеспечения бизнес-процессов и документооборота: описаны наиболее распространенные методологии и стандарты моделирования информационных систем, дана общая характеристика и классификация CASE-средств и систем электронного документооборота.

Во второй главе предлагается модель представления знаний о предметной области информационной системы, в которой информация явным образом разделена на два основных компонента: декларативные (описательные) и императивные (процедурные) знания, отображаемые в виде иерархий (деревьев) на различных множествах объектов и связей между ними, что обеспечивает, с одной стороны, наглядность и удобство пополнения, с другой -универсальность по отношению к различным предметным областям.

В третьей главе рассматриваются возможности и особенности использования логики схем программ не только для описания и анализа бизнес-процессов и документооборота, но и для их синтеза, причем с учетом определенных условий (ограничений) на используемые ресурсы.

В четвертой главе описывается алгоритм семантического анализа и кластеризации множества атрибутов документов, существующих и вводимых вновь при (ре)организации электронного документооборота. Предлагается метод распознавания семантической сущности атрибутов и их классификации, а также метод автоматического синтеза схемы документооборота на основе вычислительной зависимости атрибутов и знаний о регламенте делопроизводства предприятия. На основе результатов, полученных в этой и предыдущих главах, сформулирована общая методика анализа проблемной ситуации, обеспечивающая наглядное и эффективное представление знаний о бизнес-процессах и документообороте предприятия, их анализ и синтез.

Методология функционального моделирования SADT

Методология SADT разработана Дугласом Россом и получила дальнейшее развитие в работе [43]. На ее основе разработана, в частности, известная методология IDEFO (Icam DEFinition), которая является основной частью программы ICAM (Интеграция компьютерных и промышленных технологий), проводимой по инициативе ВВС США.

Методология SADT представляет собой совокупность методов, правил и процедур, предназначенных для построения функциональной модели объекта какой-либо предметной области. Функциональная модель SADT отображает функциональную структуру объекта, т.е. производимые им действия и связи между этими действиями. Основные элементы этой методологии основываются на следующих концепциях: - графическое представление блочного моделирования. Графика блоков и дуг SADT-диаграммы отображает функцию в виде блока, а интерфейсы входа/выхода представляются дугами, соответственно входящими в блок и выходящими из него. Взаимодействие блоков друг с другом описываются посредством интерфейсных дуг, выражающих "ограничения", которые в свою очередь определяют, когда и каким образом функции выполняются и управляются; - строгость и точность. Выполнение правил SADT требует достаточной строгости и точности, не накладывая в то же время чрезмерных ограничений на действия аналитика. Правила SADT включают: - ограничение количества блоков на каждом уровне декомпозиции (правило 3-6 блоков); - связность диаграмм (номера блоков); - уникальность меток и наименований (отсутствие повторяющихся имен); - синтаксические правила для графики (блоков и дуг); - разделение входов и управлений (правило определения роли данных); - отделение организации от функции, т.е. исключение влияния организационной структуры на функциональную модель.

Методология SADT может использоваться для моделирования широкого круга систем и определения требований и функций, а затем для разработки системы, которая удовлетворяет этим требованиям и реализует эти функции. Для уже существующих систем SADT может быть использована для анализа функций, выполняемых системой, а также для указания механизмов, посредством которых они осуществляются.

Иерархия диаграмм. Построение SADT-модели начинается с представления всей системы в виде простейшей компоненты - одного блока и дуг, изображающих интерфейсы с функциями вне системы. Поскольку единственный блок представляет всю систему как единое целое, имя, указанное в блоке, является общим. Это верно и для интерфейсных дуг - они также представляют полный набор внешних интерфейсов системы в целом.

Затем блок, который представляет систему в качестве единого модуля, детализируется на другой диаграмме с помощью нескольких блоков, соединенных интерфейсными дугами. Эти блоки представляют основные подфункции исходной функции. Данная декомпозиция выявляет полный набор подфункций, каждая из которых представлена как блок, границы которого определены интерфейсными дугами. Каждая из этих подфункций может быть декомпозирована подобным образом для более детального представления.

Во всех случаях каждая подфункция может содержать только те элементы, которые входят в исходную функцию. Кроме того, модель не может опустить какие-либо элементы, т.е., как уже отмечалось, родительский блок и его интерфейсы обеспечивают контекст. К нему нельзя ничего добавить, и из него не может быть ничего удалено.

Модель SADT представляет собой серию диаграмм с сопроводительной документацией, разбивающих сложный объект на составные части, кото рые представлены в виде блоков. Детали каждого из основных блоков показаны в виде блоков на других диаграммах. Каждая детальная диаграмма является декомпозицией блока из более общей диаграммы. На каждом шаге декомпозиции более общая диаграмма называется родительской для более детальной диаграммы.

Дуги, входящие в блок и выходящие из него на диаграмме верхнего уровня, являются точно теми же самыми, что и дуги, входящие в диаграмму нижнего уровня и выходящие из нее, потому что блок и диаграмма представляют одну и ту же часть системы.

Архитектура базы знаний о предметной области

Существует два подхода к организации СЭД: - документо-ориентированные - документ является основным объектом системы; - работо-ориентированные - к работе могут быть прикреплены различные объекты, в том числе, документы. Второй подход является более общим и более естественным, поскольку всякий документ является одним из результатов какой-то работы. Для информационного обеспечения деятельности некоторого коллектива пользователей СЭД необходимо, в общем случае, иметь описание предметной области, ресурсов, инструментов, задач, бизнес-процессов и документов, как внешних, так и внутренних, т.е. цель СЭД - информационное обеспечение деятельности коллектива пользователей, а основные функции: - ввод, редактирование, хранение, вывод информации; - коллективный доступ и защита; - планирование работ; - маршрутизация документооборота и контроль исполнения; - анализ эффективности бизнес-процессов; - поддержка принятия решений. В человеческом смысле информацией считается такой сигнал, который человек "понимает". Остальное - шум, который он игнорирует. В классической теории информации любой сигнал принято называть информацией, а шум - это всевозможные помехи, наложенные на сигнал, т.е. информация -это сигнал, обладающий некоторой закономерностью (может быть и не распознанной на данный момент).

Знаниями будем считать информацию проблемно систематизированную с помощью классификационных деревьев, таблиц, графиков, функций, закономерностей, правил, планов действий, примеров, т.е. знания - это упорядоченная информация.

Дерево задает иерархию концептов. Концепт базы знаний (понятие) определяет подмножество экземпляров, у которых значения параметров удовлетворяют данному понятию, т.е. экземпляры являются листьями деревьев (данными).

Таким образом, концепт - это информационная единица знаний, а экземпляр - это информационная единица данных.

База знаний представляет собой семейство деревьев: Дерево концептов ::— Номер уровня", - Концепті , Список подконцептов , где подконцепт концепта уровня и - это концепт уровня и - /. Концепты являются узлами деревьев знаний. Введем четыре базовых вида концептов [1, 16]: - предмет или часть (деталь) предмета; - процесс или подпроцесс; - свойство (атрибут) концепта / экземпляра предмета или процесса; - отношение между концептами, экземплярами. В процессе конструирования базы знаний СЭД мы вначале описываем атрибуты, а затем из них собираем концепты. Если оказалось, что атрибутов не достаточно или их нужно исправить, снова переключаемся в режим редактирования атрибутов. Такая технология позволяет многократно использовать описания атрибутов, не заботясь о том, где и как они будут наследоваться, т.е. использовать одни и те же свойства в разных классификационных деревьях.

Раздел знаний о свойствах материалов, предметов, процессов представляет собой классификационное дерево свойств-атрибутов, сгруппированных по назначению, физическим, физиологическим, психофизическим, социологическим и прочим критериям. Иерархия этих групп и есть классификационное дерево разновидностей свойств. Концепт-свойство имеет вид: Концепт-свойство :: = Имя , [ Комментарий ], Тип зпачения , [ Метод ], где: Имя - имя свойства; Комментарий - текст на естественном языке; Тип значения - тип принимаемого значения может быть: непрерывный (real), например, длина, площадь, вес, скорость и т.д.; дискретный (integer), например, количество; качественный (перечисляемый), например, "малый", "средний", "большой" и т.п.; текстовый (string); ссылочный (адрес объекта); Метод - вычислительная модель - способ вычисления атрибута.

Логика схем программ

Опишем, неформально, основные понятия одного из вариантов логики схем программ. Описываемый вариант представляет собой расширение предикатной логики схем программ [38], ориентированное на формализацию вычислительных задач [4].

Пусть имеется некоторая система, в среде которой исполняются (могут выполняться) какие-то действия, изменяющие ее состояние. Множество (пространство) возможных состояний рассматриваемой системы обозначаем S. В дальнейшем изложении предполагается, что система характеризуется конечным набором параметров - переменных х/, Х2, .... хк (разных типов). В этом случае множество состояний S- это множество векторов аі, аг, ..., 7д - возможных комбинаций значений переменных. Множество действий (конечное) р/, р2 р„, исполняемых в системе обозначаем Iі, т.е. Iі = {pi, р2 p,J Для каждого действия pi определяются: DSj - область определения - множество состояний, в которых действие применимо; ES/ - область значений - множество состояний, в которых исполнение действия заканчивается. Каждое действие р, характеризуется как отношение (многозначная функция) специального вида/?,: DSt - ESj на множестве S S. В логике схем программ предполагается, что действия являются необратимыми и расходуют некоторый ограниченный и невозобновляемый ресурс, т. е. любая комбинация (блок-схема, построенная из исходных дейст вий с помощью конструкций последовательного исполнения (;), параллельного исполнения (), условного ветвления (if) и цикла (while)) действий может применятся только конечное число раз. Каждая формула классической логики первого порядка A(xj, х2, ..., x/J, построенная обычным образом с использованием (вычислимых) предикатов и функций (определенных на множестве значений переменных), логических констант, связок и кванторов, однозначно определяет некоторое подмножество S, а именно S/AJ = { cti, а2, ..., # формула А(а/, а2 а/) выполняется (истинна)}. Логическое описание (теория) T(S,P) системы и действий включает в себя следующее: 1) описание TH(S) системы - множество формул вида A(xj, х2, .... X/J, которые описывают общие свойства (законы) системы и выполняются во всех возможных состояниях (SfAJ = S); 2) описание ТА(Р) действий системы Р - множество т.н. конструктивных импликации - формул видаДД/, х2 д: = Bj(xi, х2, .... Xi), где А\(Х[, Х2, ., х0 - предусловие действия ре. DSi h Sj, т.е. логическая формула, определяющая множество состояний, в которых действие применимо (SfAiJ cDS,); ВІ(ХІ, х2, ..., x/J - постусловие действия /?,: DSj - ESj, т.е. логическая формула, определяющая множество состояний, в которых исполнение действия заканчивается (ESj czSfBJ); 3) описание T$(S,P) инвариантов действий системы Р - множество формул вида $A(xi, х2, .... х0, которые описывают те свойства, которые не на рушаются при исполнении действий системы Р, т.е. если СВОЙСТВО A(Xj, х2 х\) выполняется до исполнения какого-либо действия, то оно обязательно выполняется и после. Система вывода логики схем программ является расширением системы естественного вывода классической логики первого порядка конструктивными правилами вывода, логически описывающие способы комбинации действий.

Имеются [10] эффективные алгоритмы решения проблемы поиска вывода: 1) является ли теории T(S,P) противоречивой! В случае наличия противоречия эффективно находится т.н. выролсденное множество конструктивных импликаций, которые порождают это противоречие; 2) существует ли вывод конструктивной импликации (р ц/ в теории T(S,P)! В случае существования такого вывода, по нему легко строится схема комбинации действий, описываемых теорией T(S,P), имеющей заданное логическое описание р= у/. Для описания этих алгоритмов будем использовать следующие обозначения и сокращения: PRE(T) - дизъюнкция предусловий конструктивных импликаций теории Т(т.е PRE(T) - это формула Aj vA2 v... vA„ ); PS(T) - дизъюнкция постусловий конструктивных импликаций теории Г(т.е PS(T) - это формула Bt vB2 v... vB„); IMPLY(A(xi, x2, ..., xij, B(xi, X2 x/J) - базовый предикат (логическая функция), определяющий, выполняется ли условие «для любого состояния ai, а2, .... ak eSmAfat, а2, .... arf следует В(аи а2, .... аф . В силу многих причин, логические описания действий в реальных, достаточно сложных системах, не являются точными (являются приближенными, содержат ошибки, противоречия). Рассмотрим алгоритм решения следующей проблемы: может ли существовать система недетерминированных и необратимых действий, описываемых теорией Т? Алгоритм: \.T:={Ai = Blt А2 = В2 Ая = В,,}. 2. Проверяем условие IMPLYfPSfl), PREfl)). 3. Если условие 2 выполняется, то множество Г является противоречивым; заканчиваем работу. 4. Выбираем в множестве Т такую конструктивную импликацию Ai = Bj, что не выполняется условие IMPLYfBj , PRE(T)) и удаляем ее из множества, т.е. Т:= Т\ {At = BJ. 5. Если Т Ф 0 , то переходим к выполнению шага 2. Если Т = 0, то множество {Ai = Bi, А2 = В2, .... Ап = В„} не содержит противоречий; заканчиваем работу. Построенное в результате работы алгоритма (непустое) множество Т конструктивных импликаций - вырожденное, именно оно и порождает противоречие.

Семантический анализ и кластеризация атрибутов

Задача автоматизации процессов кластеризации пространства существующих документов, баз данных и запросов с целью их упорядочения и унификации представляется как процесс извлечения семантики и выделения родственных по смыслу понятий. Укрупнено, порядок решения задачи выглядит следующим образом [16, 2]: 1. Предобработка бумажных документов - сканирование и преобразование в текстово-графическую форму. 2. Распознавание атрибутов (полей) документов. 2.1. Поиск копий идентификатора очередного атрибута среди ранее обработанных. Морфологический разбор идентификатора с целью нахождения "похожих". В общем случае, идентификатор состоит из нескольких слов, на пример: "Общий стале работы", "Стаж работы на предприятии". Упрощен ная модель слова: [ приставка ] основа [ суффикс 1 окоичание ], где символы "[", "]" выделяют необязательную часть, "/ -альтернативную. Морфологический разбор заключается в выделении морфологических признаков слова [23]: "часть речи", "число", "падеж", "время" и т.д. Для этого в системе семантического анализа существует база знаний о морфологии естественного языка (ЕЯ), представляющая собой совокупность связанных множеств, элементам которых приписаны морфологические признаки: {Word} - множество слов ЕЯ, ограниченное предметной областью и пополняемое накопленным системой опытом; {Prefix} - множество приставок; {Stem} - множество основ; {Suffix} - множество суффиксов; {Ending} - множество окончаний.

В результате морфологического разбора получаем вектор в морфологическом пространстве переменной размерности, параметрами которого служат: количество слов в идентификаторе и их морфологические признаки. По близости [32] векторов можно судить о степени похожести идентификаторов и выявить случаи сокращения или перестановки слов, поскольку вероятность грамматических ошибок в написании идентификаторов очень мала.

2.3. Сопоставление параметров значения (тип, диапазон, единица измерения) с соответствующими параметрами найденных копий (шаг 2.1) и похожих (шаг 2.2) идентификаторов с целью их сокращения.

2.4. Распознавание метода исчисления атрибута. Представим метод в виде многослойного полихроматического графа, вершинами которого являются переменные (атрибуты документа), а дугами - операции между ними. Операции типа "сложение", "умножение", "сцепление" образуют двунаправленные дуги; вычитание, деление - однонаправленные; возведение в степень, извлечение корня - петли; круглые скобки образуют переход на старший слой: Gu - G(V, Е, А), где: У- множество вершин g, отображающих подобъекты q" уровня и-1; Е - семейство ребер є є Е = (g" \ Щ" ё/ ) ё" ё/ є К отображающих отношения между подобъектами; А = (АН, ЕН) - гиперграф атрибутов (параметров) an(gj),..., aim(gj) є А и ребер eh є ЕН, которые показывают принадлежность атрибутов из множества А некоторой вершине g, є V или ребру є, є Е. Процессы распознавания образов, в особенности, по неполной информации имеют важнейшее значение для повышения эффективности интеллектуальных систем с точки зрения заимствования опыта [16]. Пусть Gj = G(V], Ei, Ai) - граф известного (эталонного) образа; G? = G(V2, Е2, А2) - граф анализируемого образа; г = А , А " - гребенка анализируемых признаков, где А - множество имен признаков, определяющее степень абстракции, А" - множество коэффициентов, определяющих точность сравнения признаков как daj = ajj -a"k. Будем называть общей гомоморфной частью x(G i) графов G/ и G2 часть G 2, определенную на множестве У г и состоящую из всех ребер T(EJ ) ----- Е2 = (ё2ь g2j), g2t, g2j є Уг с V2, для которых существуют соответствующие ребра El = (gli, glj) = l !(E2) = (t (g2i). 1 (g2j». gli.glj є Vi, в графе Gj, при этом однозначное отображение т существует тогда и только то гда, когда вершины g2t, g2j и соответствующие им прообразы gu, g/7 совпадают в «-мерном пространстве А анализируемых признаков с точностью, заданной А". Оценка сходства образов, взвешенная по А-тому свойству, есть с = — = , I vz „;=/-// ;; I .=7 j=l где Lk(Dj) - протяженность цепочки Di, вычисленная с помощью суммируемых по цепочке значений к-чого свойства вершин, что автоматически придает больший вес совпадению тех элементов объектов, которые в соответствии с заданной гребенкой признаков идентификации считаются более существенными.

Вычисленная таким образом оценка сходства метода исчисления некоторого атрибута документа с ранее проанализированным методом позволяет оценить степень их близости и принять решение об единстве семантической сущности. 3. Представление очередного документа и его реквизита в терминах базы знаний о предметной области. 4. Кластеризация атрибутов. Примем следующие допущения: 1. Документ есть образ некоторого предмета или процесса. Иными словами, информация о некотором реальном объекте, представленная в документе, необходима и достаточна для выполнения его функции как, например, работнику кадровой службы анкетные данные заменяют реального человека.

Похожие диссертации на Интеллектуальные компоненты для автоматизированного проектирования систем электронного документооборота