Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Алешин Виктор Сергеевич

Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием
<
Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Алешин Виктор Сергеевич. Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием : Дис. ... канд. техн. наук : 05.13.06 : Вологда, 2003 183 c. РГБ ОД, 61:04-5/1976

Содержание к диссертации

Введение

1. Современное состояние проблемы автоматизированного анализа информационных ресурсов управления машиностроительным предприятием 12

1.1. Подходы и методы реорганизации системы управления производством и задача анализа информационных ресурсов машиностроительного предприятия 13

1.1.1. Использование теории графов для описания информационных потоков 20

1.1.2. Метод семиотического анализа 23

1.2. Методы и системы интеллектуального и семантического анализа текстовых документов в целях приобретения знаний 25

1.3. Постановка задач, решаемых в диссертации 36

ВЫВОДЫ 39

2. Модели информационных ресурсов управления машиностроительным предприятием 40

2.1. Классификация документальных ресурсов машиностроительного предприятия. 40

2.2. Структурно-синтаксическая модель обобщённого производственного документа машиностроительного предприятия 46

2.3. Модель информационных ресурсов управления машиностроительным предприятием 64

2.4. Метод автоматизированного построения технического тезауруса 72

ВЫВОДЫ 78

3. Метод построения концептуальной модели машиностроительного предприятия паоснове автоматизированного анализа документальных ресурсов 79

3.1. Теоретические основы метода '. 82

3.2. Построение неоднородной семантической сети понятий предметной области предприятия 92

3.3. Метод построения концептуальной модели предприятия на основе неоднородной семантической сети 97

ВЫВОДЫ 105

4. Алгоритмизация разработанных методов и моделей и разработка критерия адекватности построения концептуальной модели 106

4.1. Модифицированные алгоритмы лексического разбора предложений 106 .

4.2. Алгоритм структуризации и разбора текстового документа 112

4.3. Алгоритм построения неоднородной семантической сети 114

4.4. Алгоритм трансляции неоднородной семантической сети в концептуальную модель 116

4.5. Критерий адекватности построения концептуальной модели 117

ВЫВОДЫ 119

5, Результаты экспериментальных исследований разработанных моделей и методов 120

5.1. Исследование структур документальных ресурсов 121

5.2. Построение тезауруса с помощью прикладной программной системы «Thesaurus Builden> 125

5.3. Экспериментальная проверка модели информационных ресурсов 131

Выводы 138

Заключение 139

Введение к работе

Актуальность работы:

Упрочнение рыночной экономики в нашей стране постоянно обостряет конкурентную борьбу, выдвигая в качестве приоритетной задачи менеджмента обеспечение конкурентоспособности компании [1].

Уменьшение издержек по-прежнему рассматривается многими руководителями компаний как главный путь повышения конкурентоспособности [2].

Однако, во-первых, на себестоимость продукции влияют и трансакционные издержки, т.е. затраты связанные со взаимодействием подразделений компании в ходе осуществления производственно-коммерческой деятельности.

Во-вторых, сегодня конкурируют между собой уже не товары и даже не компании, а группы компаний, нацеленные на полное и качественное удовлетворение потребностей заказчика за счет интеграции совместных усилий.

В-третьих, в настоящее время конкуренция все больше становится борьбой идей, а не борьбой ресурсов. На рынке побеждают компании, постоянно предлагающие новые инновационные решения. Результаты такого подхода к ведению бизнеса российскими участниками рынка неоднократно освещались в научных трудах российских ученых [3]. При этом чрезвычайное значение приобретает скорость практического воплощения идей в конкретные продукты и услуги [4].

Обеспечить радикальное повышение эффективности бизнеса возможно только за счёт реорганизации управления предприятием на основе пересмотра базовых постулатов организации управления под воздействием технологических прорывов [5], в том числе, в области информационных технологий.

Различные аспекты реорганизации управления подробно рассмотрены в трудах российских учёных, таких как В.А. Виттих, В.Ф. Горнев, В.В. Емельянов, С.Д. Коровкин, Е.Г. Ойхман, Э.В. Попов, А.В. Смирнов, В,Б. Тарасов, С.А. Яковлев, СИ. Ясиновский и др.

Среди зарубежных ученых вопросам реорганизации управления посвящены работы Г. Буча, М. Робсона, Ф. Уллаха, М. Хаммера, Дж.Чампи, А. Шеера и др.

Традиционно реализуется следующий подход [8]: выполняется обследование существующей структуры подразделений предприятия и соответствующих процессов. В результате формируется модель фактических процессов «как есть». На основе этой модели, методами реинжиниринга, формируется модель-эталон «как надо» -структуры подразделений и их процессов. После одобрения модели-эталона руководством предприятия, разрабатывается план мероприятий перехода на работу в соответствии с эталонной моделью.

Таким образом, целью первого этапа реорганизации АСУП является разработка образа будущей компании (предпроектное обследование), т.е. получение и систематизация сведений о клиентах, конкурентах, партнерах, поставщиках, текущих трудностях и фазе жизненного цикла компании [9] для определения её стратегических целей и выработки спецификации целей реорганизации.

Существует более 20 технологий проектирования [10], позволяющих моделировать деятельность предприятия на уровне бизнес-процессов и несколько сотен инструментов, предназначенных для автоматизации этого процесса.

Большинство из них предоставляют богатый набор исходных данных и формализмов в виде набора заготовленных правил и системы интеллектуальных шаблонов. Однако в подобных системах уделяется недостаточное внимание анализу имеющихся информационных ресурсов, объективно описывающих моделируемую ПрО. Большинство систем моделирования деятельности предприятия позволяют анализировать модели, непосредственно построенные инженером-аналитиком на основе собственных знаний о предметной области. Поэтому возникает проблема устранения зависимости результатов исследования предприятия от привлечения человека-эксперта.

Следует отметить, что деятельность любой организации тесно связана с потоками информационных ресурсов [11], которые являются неотъемлемой частью системы информационного обеспечения ЛСУП и представляются на практике в виде различных документов. Кроме того, структурный анализ сложных процессов на практике выполняется с помощью схем информационных потоков.

Реорганизация управления предприятием неизбежно повлечет за собой и перестроение существующих систем информационного обеспечения либо внедрение другой КИС, в большей степени соответствующей новой организационной структуре предприятия.

Во многих организациях процесс доработки существующей КИС либо внедрения новой по-прежнему осуществляется традиционными методами на интуитивном уровне с применением неформализованных методов, основанных на искусстве и практическом опыте людей-экспертов, экспертных оценках и дорогостоящих экспериментальных проверках качества их функционирования.

Разработка образа будущей компании в рамках предпроектного обследования является необходимым условием для своевременного внедрения либо доработки существующей КИС, но представляет собой достаточно длительный и трудоёмкий процесс, связанный с привлечением большого количества материальных и человеческих ресурсов. Сложность обследования заключается в необходимости изучения разнообразных форм документации, а также в интервьюировании большого количества персонала из числа специалистов по тем или иным разделам ПрО.

Первичное исследование необходимо при создания обобщённой схемы функционирования предприятия в целом, для того, чтобы можно было приблизительно оценить объёмы циркулирующих данных, мощность документопотоков, сопутствующих различным процессам на производстве, структуру и функции хранилищ данных [16], перечень требуемых аппаратных средств для поддержания работы основной программной системы, количество обслуживающего персонала и состав инженерно-технических работников, выполняющих функции поддержания системы в работоспособном состоянии и некоторые другие параметры. Значительно облегчить труд проектировщиков может наглядная графо-аналитическая схема взаимосвязей объектов и субъектов производственной деятельности [17].

В настоящей работе предложен ряд методов и моделей, позволяющих выполнять автоматизированное построение концептуальной модели машиностроительного предприятия, путём семантического анализа документальных информационных ресурсов. Метод автоматизированного построения тезауруса реализован в виде прикладной программной системы. Применение разработанных в диссертации методов и моделей позволяет сократить привлечение людей-экспертов при построении КМ машиностроительного предприятия.

Объектом исследования (ОИ) является множество информационных ресурсов, описывающих производственно-коммерческую деятельность машиностроительного предприятия, выступающих в документированном виде.

Предметом исследования являются основные вопросы автоматизации анализа информационных ресурсов и построения концептуальной модели машиностроительного предприятия в ходе реорганизации системы управления предприятием.

Цель работы заключается в повышении эффективности анализа информационных ресурсов предприятия на этапе проведения предпроектной стадии реорганизации системы управления предприятием. Задачи, решаемые в работе.

1. Разработка структурно-синтаксической модели обобщённого производственного документа.

2. Построение модели информационных ресурсов управления машиностроительным предприятием.

3. Разработка метода автоматизированного построения отраслевого словаря предметной области (технического тезауруса).

4. Разработка метода построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети.

5. Разработка критериев оценки адекватности построения концептуальной модели машиностроительного предприятия.

6. Алгоритмизация разработанных методов, моделей и критериев. Методы исследования.

В работе используются элементы теории систем управления и теории статистического анализа, методы синтаксического перевода и компиляции. Применяется теория графов и матричного исчисления. Используются теоретические основы математического аппарата неоднородных семантических сетей Г.С. Осипова. Научная новизна работы.

Научная новизна исследования заключается в разработке и создании:

1. Структурно-синтаксической модели обобщённого производственного документа, отличающейся учётом составного характера документов, обеспечивающей эффективное проведение структурного анализа производственных документов и возможность выполнения сложных интеллектуальных запросов.

2. Модели информационных ресурсов предприятия, учитывающей многократное появление однотипных терминов в документах и позволяющей исследовать специфические свойства информационных ресурсов при решении задачи реорганизации АСУП.

3. Метода автоматизированного построения отраслевого словаря ПрО (технического тезауруса) отличающегося использованием частотных свойств терминов в сочетании с разбивкой на непересекающиеся семантические классы, позволяющего снизить трудоёмкость создания модульных структур систем сбора и обработки данных в АСУП.

4. Метода построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети и технического тезауруса, позволяющего строить модель в разрезах заданных семантических классов, что повышает наглядность и структурированность модели.

Практическая значимость работы.

Структурно-синтаксическая модель производственного документа обеспечивает проведение глубокого структурного анализа содержимого документов, даёт возможность группирования, классификации и определения принадлежности документов к соответствующему типу по составу реквизитов. Гибкость применяемых методов синтаксического перевода, трансляции и компиляции позволяет выполнять интеллектуальные структурные запросы значительной сложности. Благодаря использованию алгоритмов структурного разбора документа достигается повышение уровня техники заполнения документов пользователями при работе на клиентских местах, оперативный контроль правильности составления документов, возможность быстрой проверки соответствия ряда документов заданной эталонной модели.

Приводимые в работе теоретические положения построения модели информационных ресурсов позволяют исследовать специфические частотные характеристики профиля информационного потока, выявить наиболее значимые термины информационных сообщений, сформировать основные словарные статьи отраслевого искусственного языка ПрО (технического тезауруса). Анализ данной модели позволяет вычислить приблизительный объём информационного потока в терминах. В качестве дополнительной возможности, модель позволяет сформировать множество документов, подобных заданному, по установленному набору терминов, на основе вычисления меры релевантности для документа-образца и искомого документа.

Метод трансляции НСС в концептуальную модель предприятия позволяет строить схему организации в виде множества фрейм-концептов и концептуальных отношений в разрезах заданных семантических классов, что повышает наглядность и структурированность модели. Гибкость метода трансляции обеспечивает формирование модели по различным критериям.

Разработанные модели и методы построения концептуальной модели предприятия, позволят повысить эффективность решения задачи первичного обследования организационной структуры предприятия на предпроектном этапе подготовки технического задания и общих требований на разработку КИС. Использование разработанных подходов, методов и алгоритмов позволяет получить автоматизированным способом обобщённую информационную картину в виде наглядной графо-анапитической схемы взаимосвязей объектов и субъектов производственной деятельности, с минимальными затратами материально-технических ресурсов и привлечением интеллектуального труда людей-экспертов. Реализация результатов работы.

Модели и методы, полученные в работе, нашли применение в виде программно-алгоритмического комплекса для анализа информационных ресурсов предприятия.

Разработана система автоматизированного построения технического тезауруса, внедрение которой выполнено на машиностроительном предприятии ОАО "ЭЛЕКТРОТЕХМАШ" г.Вологда. Исполнимые модули и библиотеки программы оформлены в виде составной части системы информационного обеспечения завода.

В качестве результатов внедрения программно-алгоритмического комплекса можно выделить следующие:

- методика анализа документации на машиностроительнОхМ предприятии;

- программно-алгоритмический комплекс автоматизированного построения словаря производственных терминов (тезауруса);

- результаты построения технического тезауруса на основе применения разработанной методики;

- рекомендации по практическому применению программно-алгоритмического комплекса для решения задач автоматизации документооборота предприятия.

Результаты работы позволили повысить эффективность труда разработчиков КИС, снизить затраты на обработку информации и сократить избыточность произ водственной документации. Программно-алгоритмические средства были использованы при разработке концептуальной модели предприятия в процессе подготовки стратегического плана комплексной автоматизации.

Внедрение результатов диссертации подтверждается соответствующими актами. Апробация работы.

Основные научные и практические результаты работы докладывались на первой областной межвузовской научно-практической конференции «Вузовская наука региону» (Россия, Вологда, 2000 г.), второй региональной межвузовской научно-технической конференции «Вузовская наука региону» (Вологда, 2001 г.), международной научно-технической конференции «Моделирование, оптимизация и интенсификация производственных процессов и систем» (Вологда, 2001 г.), III региональной межвузовской научно-технической конференции «Вузовская наука региону» (Вологда, 2002 г.), международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и искусственного интеллекта» (Вологда, 2001 г.), IX Международной научно-технической конференции «Информационная среда ВУЗА» (Иваново, ЦНИТ, ИГАСА, 2002 г.), VIII Санкт-Петербургской международной конференции «Региональная информати- ка-2002» («РИ-2002») (Санкт-Петербург, 2002 г.), первой общероссийской научно- технической конференции «Вузовская наука региону» (Вологда, 2003 г.), десятой международной конференции «МАТЕМАТИКА, КОМПЬЮТЕР, ОБРАЗОВАНИЕ» (г. Пущипо, 2003 г.), Всероссийской научной конференции «Управление и информационные технологии УИТ-2003» (Санкт-Петербург, 2003 г.), 5-й международной научно-практической конференции «Пилотируемые полеты в космос», (Москва, 2003 г.),

IX Международной конференции «Современные технологии обучения (СТО-2003)» (Санкт-Петербург, 2003 г.), VI международной конференции по мягким вычислениям и измерениям SCM 2003 (Санкт-Петербург, 2003 г.), научно-технической конференции «Тренажёрные технологии и симуляторы» (Санкт-Петербург, 2003 г.), первой общероссийской научно-технической конференции "Вузовская наука региону" (Вологда, 2003 г.).

Публикации.

Основные положения и научные результаты диссертации опубликованы в 14 печатных работах.

Подходы и методы реорганизации системы управления производством и задача анализа информационных ресурсов машиностроительного предприятия

Одним из первых этапов при реорганизации системы управления любого предприятия является детальный анализ работы организации [22]. К анализу будем относить изучение существующей организационной структуры предприятия, описание действующих бизнес-процессов и выделение участков, подлежащих автоматизации. Важной задачей предпроектного обследования является разработка образа будущей компании. Не сделав корректного описания существующей системы управления, бессмысленно переходить к следующим стадиям анализа деятельности предприятия и тем более к его автоматизации.

Существует более 20 технологий проектирования (IDEF, Petri-net (CPN), Yourdon (DFD), UML, Booch, SSADM, Bachman, Gantt, Object Oriented, Soft Systems, Meta Modelling, Flow Chart, ABC, Workflow, Simulation и др.), позволяющих моделировать деятельность предприятия на уровне бизнес-процессов и несколько сотен ин-струмеїгтов (AllFusion Data Modelling, AIlFusion Process Modelling, Class Designer, Process Flow, System Architect, Power Designer, ARIS, Designer2000, IBS Workflow Manager), предназначенных для автоматизации этого процесса, поэтому сравнительный анализ был ограничен продуктами, наиболее популярными на российском рынке. Общая информация о системах.

AllFusion Data Modeler (ранее: ERwin) — средство концептуального моделирования БД, поддерживающее нотации проектирования данных IDEFlx, IE и Dimensional. ERwin реализует проектирование схемы БД, генерацию ее описания на языке целевой СУБД (ORACLE, Informix, Ingres, Sybase, DB/2, Microsoft SQL Server, Progress и др.) и реинжиниринг существующей БД. ERwin Data Modeler облегчает управление моделями больших предприятий за счет использования предметных областей (Subject Areas) и хранимых отображений (Stored Displays). Предметные области предоставляют индивидуальным проектировщикам возможность сфокусированного взгляда, разделяя модель на более мелкие и за счет этого легче управляемые подмножества. Хранимые отображения предоставляют множественные графические представления модели или ее предметных областей, тем самым, облегчая обмен ин -14 формацией между специализированными группами пользователей. Для ряда средств разработки приложений (PowerBuilder, SQLWindows, Delphi, Visual Basic и др.) выполняется генерация форм и прототипов приложений. Возможности ERwin Data Modeler дополняет линейка продуктов для поддержки всех стадий разработки ИС -AHFusion от Computer Associates.

AIlFusion Process Modeler (ранее Bpwin) - инструмент визуального моделирования, реализующий методологию IDEFO, IDEF3 и DFD [28]. Методология IDEF может использоваться для моделирования широкого круга систем и определения требований и функций, а затем для разработки системы, которая удовлетворяет этим требованиям и реализует эти функции. Для уже существующих систем IDEF может быть использована для анализа функций, выполняемых системой, а также для указания механизмов, посредством которых они осуществляются. Дает возможность наглядно представить любую деятельность или структуру в виде модели, что позволяет оптимизировать работу организации, проверить ее на соответствие стандартам ISO9000, спроектировать оргструктуру, снизить издержки, исключить ненужные операции, повысить гибкость и эффективность. BPwin тесно интегрируется с рядом известных продуктов других компаний, например инструментом стоимостного анализа EasyABC (ABC Technologies), инструментом моделирования данных ERwin (CA/Logic Works). В BPwin 4.0 стал возможен экспорт модели в систему имитационного моделирования Arena (Systems Modeling Corp.),

Rational Rose - предназначено для автоматизации этапов анализа и проектирования ПО, а также для генерации кодов на различных языках и выпуска проектной документации. Rational Rose использует синтез-методологию объектно-ориентировашюго анализа и проектирования, основанную на подходах трех ведущих специалистов в данной области: Буча, Рамбо и Джекобсона. Разработанная ими универсальная нотация для моделирования объектов (UML - Unified Modeling Language) претендует на роль стандарта в области объектно-ориентированного анализа и проектирования. Основной вариант - Rational Rose/C++ - позволяет разрабатывать проектную документацию в виде диаграмм и спецификаций, а также генерировать программные коды на C++. Кроме того, Rational Rose содержит средства реинжиниринга программ, обеспечивающие повторное использование программных компонент в новых проектах.

Методология ARIS рассматривает предприятие как совокупность четырех взглядов: взгляд на организационную структуру, взгляд на структуру функций, взгляд на структуру данных, взгляд на структуру процессов. При этом каждый из этих взглядов разделяется еще на при подуровня: описание требований, описание спецификации, описание внедрения. Таким образом, ARIS предлагает рассматривать организацию с позиции 12 аспектов, отображающих разные взгляды на предприятие, а также разную глубину этих взглядов. Для описания бизнес-процессов предлагается использовать 85 типов моделей, каждая из которых принадлежит тому или иному аспекту. Среди большого количества возможных методов описания можно выделить следующие: ЕРС (event-driven process chain) - метод описания процессов, нашедший применение для описания процессов системы SAP R/3; ERM (Entity Relationship Model) -модель сущностей-связей для описания структуры данных; UML (Unified Modeling Language) - объектно-ориентированный язык моделирования. ARIS Toolset (ARIS Easy Design) - единая среда моделирования, которая представляет собой совокупность четырех основных компонентов - Explorer (Проводник), Designer (средство для графического описания моделей), Таблиц (для ввода различных параметров и атрибутов) и Мастеров (Wizards). ARIS Toolset позволяет создавать скрипты (шаблоны) для отчетов, анализа и семантических проверок.

ARIS Simulation - модуль системы ARIS Toolset, применяемый для динамического (во времени) моделирования бизнес-процессов. Цель имитационного моделирования - определение узких мест, таких как несогласованность параллельно выполняемых подпроцессов, нехватка ресурсов для эффективного их выполнения, информационные разрывы. Средство позволяет задавать различные характеристики бизнес-процессов. Имитационное моделирование позволяет выявлять преимущества и недостатки предлагаемых решений. Анализируя альтернативные варианты реализации бизнес-процессов, определяя их количественные характеристики, например общее время выполнения процесса или коэффициенты использования трудовых ресурсов, можно отобрать вариант, наиболее эффективный с точки зрения выделенных критериев. Основные результаты имитационного моделирования отражаются в характеристиках объектов, участвующих в моделировании: для функций — затраты денег и времени на реализацию, время ожидания освобождения ресурсов; для точек разветвления в процессах — время ожидания завершения параллельных подпроцессов; для организационных единиц — коэффициенты использования.

Модель информационных ресурсов управления машиностроительным предприятием

Описание документов основывается на представлении их в виде информационных единиц (сообщений). Каждый документ представляет из себя объект, содержащий множество полей, свойств и атрибутов (лексических единиц). Информационные потоки представляются в виде множества документов (сообщений).

Описание информационных потоков, базирующееся на матричном представлении документов [64], [65], [66], приводится в исследованиях многих учёных, таких как Д.О. Аветисян, В.В. Емельянов, И.И. Попов, Дж.Солтон, СИ. Ясииовский и др. В работе [67] Поповым И.И. разработана модель описания информационных потоков с целью описания процессов и систем, оценки и оптимизации как абстрактных систем, так и конкретных БД. В модели рассматриваются наиболее общие вопросы описания, оценки и оптимизации документальных информационных ресурсов и систем.

Предлагаемая автором модель, предназначена для описания документальных ресурсов машиностроительного предприятия. Целью создания модели является построение математического аппарата для определения специфических частотных свойств терминов в документах с возможностью выявление терминов, наиболее значимых для ПрО с возможностью формирования отраслевого словаря терминов ПрО.

Под термином понимается слово либо устойчивое словосочетание со строго определенным лексическим значением используемое для описания объектов в бизнес-процессах. Для построения данной модели наибольший интерес вызывают термины, представляющие имена объектов и субпроцессов входящих в каждый конкретный бизнес-процесс. Например, для процесса реализации готовой продукции наиболее значимыми будут являться термины, такие как «сбыт», «продажа», «отгрузка», «доставка», «менеджер по продажам», «реклама», «товар», «клиент», «заказ» и т.п.

Каждый документ в системе представляет собой отдельное информационное сообщение, поэтому понятия «документ» и «информационное сообщение» будем считать эквивалентными.

Величина // определяет появление терминов из всего информационного потока Vp в k-м документе без учета повторяемости терминов в данном документе. Представим введённое ранее понятие прообраза предметной области (ППО) в виде линейного матричного представления с учётом (2.12), как совокупность всех терминов всех имеющихся в системе документов:

где Di... Д, - индексы документов, зарегистрированных в системе для анализа,

1, если в і - ом документе

встретился j — и термин О, иначе

///-двоичная величина,такая, что /., =

Соответственно, каждая строка в записи матрицы Vp из (2.13) представляет собой документ системы v,- с индексом Dm.

Матрицы, подобные Vpf известны под названием матрицы термин-документ [68, 69].

Аналогичная модель информационных потоков, приведённая в [69] предназначается для описания произвольных текстовых документов. Экспериментальный анализ документов производственного назначения показал, что наиболее значимые для ПрО термины могут неоднократно встречаться в пределах одного документа, поэтому в данной модели, в отличие от модели И.И. Попова [70], предлагается учитывать не только факт наличия конкретного термина в документе, но и количество упоминаний данного термина в документе.

Перепишем выражение (2.12) для представления документа с учётом многократного появления терминов:

V=M2,...Aj (2.14)

где bt - степень повторяемости термина в документе.

В выражении (2.14) величина Ьп определяет суммарное количество терминов одного вида в -ом документе, иначе говоря, это число раз гп, которое данный термин встретился в этом документе или количество вхождений k-го термина из потока Vp в документ Dm. Величина Ьп может принимать значения: { 0, 1, z }. Основываясь на (2.13) запишем выражение для (ППО) в следующем виде:

Метод построения концептуальной модели предприятия на основе неоднородной семантической сети

Концептуальная модель предприятия в общем виде представляет собой граф-схему, определяющую состав объектов бизнес-процессов на машиностроительном предприятии и взаимосвязи между ними. Анализируя данную модель можно наглядно представить приблизительное наполнение предметной области, некоторые ключевые понятия, наиболее важные объекты, их обобщенные характеристики и отношения, определить запас сведений, потребующийся для решения последующих задач и сформулировать возможные пути решения основных задач автоматизации.

На этапе построения концептуальной модели выполняется извлечение и структурирование знаний, тем самым ограничивается круг используемой терминологии, выделяются ключевые понятия, отношения и характеристики, виды отношений между понятиями, особенности задания входных и выходных данных, отдельные подзадачи общей задачи, применяемые стратегии и гипотезы; виды взаимосвязей между объектами предметной области; процессы, происходящие в исследуемой области и ограничения, накладываемые на них; стратегии принятия решений и граничные условия этих стратегий.

Построение концептуальной модели объекта предполагает изучение системных свойств объекта, взаимосвязей между его элементами и средой, структуризацию и выделение подсистем. Концептуальная модель очень важна для исследовательских задач, в ней должно содержаться гипотетическое представление о природе взаимосвязей в объекте, которое должно быть либо подтверждено, либо опровергнуто с четким разфаниченисм бесспорных моментов и исследовательских гипотез, которые могут быть уточнены в процессе экспериментов.

Наиболее подходят для построения концептуальной модели так называемые фреймовые модели/структуры. В отличие от моделей других типов во фреймовых моделях фиксируется жесткая структура информационных единиц, которая называется протофреймом. В настоящей работе для построения концептуальной модели предметной области предлагается использовать фрейм-ориентированный подход , с применением аппарата концептуальных графов, в соответствии с научными материалами, изложенными в трудах А.Н. Швецова и С.А. Яковлева [102].

В общем виде текстовая запись структуры фрейма выглядит следующим образом: (Имя фрейма:

Имя слота 1 (значение слота 1) Имя слота 2 (значение слота 2)

Имя слота к (значение слота к)).

Значением слота может быть практически что угодно (числа или математические соотношения, тексты на естественном языке или программы, правила вывода или ссылки на другие слоты данного фрейма или других фреймов). В качестве значения слота может выступать набор слотов более низкого уровня, что позволяет во фреймовых представлениях реализовать «принцип матрешки».

При конкретизации фрейма ему и слотам присваиваются конкретные имена и происходит заполнение слотов. Таким образом, из протофреймов получаются фреймы - экземпляры. Переход от исходного протофрейма к фрейму - экземпляру может быть многошаговым, за счет постепенного уточнения значений слотов.

Связи между фреймами задаются значениями специального слота с именем "Связь". Следует отметить, что пет необходимости специально выделять фреймовые модели в представлении знаний, так как в них объединены вес основные особенности моделей остальных типов.

Для построения концептуальной модели (КМ) мы будем использовать расширенную и модифицированную конструкцию фреймоподобного объекта, называемую далее фрейм-концептом (ФК) [102]. Основная конструкция (ФК) выглядит как показано нарис. 3.1.

Элемент (ФК) «Назначение фрейма» для разрабатываемой модели в общем случае представляет из себя произвольное словесное описание допустимых условий использования ФК, сценариев поведения и тому подобного. В дальнейшем, при более углубленном анализе информационной системы, эти сведения можно использовать в качестве неформальной базы знаний для задач комплексной автоматизации, а также для накопления знаний людей-экспертов по данной предметной области к инженерам по знаниям и выполнять функции комментария.

Структура сценариев поведения (ССП) описывает динамическое поведение компонентов или агентов предметной области, в которой предусматривается блок выбора сценария (БВСЦ), позволяющей формировать альтернативные пути поведения данного фрейма.

В графическом представлении каждый элемент множества имён объектов Т будет соответствовать вершине сети, а элементы множества R - станут рёбрами НСС.

Концептуальная модель предприятия согласно [102], изображаемая в виде фреймовой структуры, представляет собой следующее множество:

КМ=(Е, X, R, П, Y) (3.7)

где Е = {FK} множество фрейм-концептов в концептуальной модели предметной области; X = {М}- множество модулей концептуальных графов; R = {КО} множество концептуальных отношений, участвующих в концептуальной модели предметной области; П - отображение ExR:-»E; Y - отображение Р:- Я, такое что каждому фрейм-концепту F ij может быть подставлено в соответствие некоторое подмножество из множества ,, т.е.

Х = ( /Г..,Л/А, Х сХ (3.8)

Для построения простейшей концептуальной схемы используются пассивные ФК, лишённые блока выбора сценария (БВСЦ), поэтому варианты поведения ФК является жестко заданным. При проектировании мы принимаем во внимание только структурный аспект предметной области, т.е. полагаем X = 0, Y = 0, и, следовательно запись для модели предметной области - КМ упрощается:

KM=(E,R,Q) (3.9)

Для перехода от неоднородной семантической сети к концептуальной модели автором предлагается алгоритм, этапы которого обобщённо можно привести в виде следующих положений:

1) Устранение несущественной информации из базы знаний:

1.1. Определение и устранение недостижимых, слабо- и/или несвязанных вершин семантической сети, при помощи поиска цепей с максимально допустимой длиной q,

1.2. Выявление принадлежности объектов к классам модели знаний. Поиск вершин сети принадлежащих уровням / соответствующим классам объектов в модели знаний, заданных аналитиком.

1.3. Вычисление/нахождение силы отношений между вершинами сети - с выбрасыванием рёбер не удовлетворяющих отношению имён объектов.

Алгоритм структуризации и разбора текстового документа

При исследовании документооборота предприятия допускается положение о том, что все документы системы составляются и оформляются согласно ГОСТу Р 6.30-97 либо на основе единого стандарта, принятого в данной организации.

Наилучшим вариантом для анализа является наличие у документов таблично-ячеистой структуры, когда формуляр документа представляет из себя таблицу (рис. 2.11.), а каждый реквизит занимает определённую ячейку. В данном случае структурный разбор документа сводится к чтению соответствующих ячеек таблицы и выделению реквизитов. К сожалению, документация большинства Российских предприятий оформляется не в соответствии с какими-либо правилами в произвольном формате и с использованием различных систем подготовки текстов. Поэтому анализ структуры документов значительно усложняется. Для решения этой проблемы предлагается алгоритм структуризации документов при помощи последовательной группировки абзацев текстовых файлов и выделение реквизитов по ключевым словам и порядку следования реквизитов в документах различных типов. Будем полагать, что реквизиты располагаются в теле документа последовательно, а в строке реквизиты разделяются пробельными символами. Последовательно считывая строки текстового ресурса, производим вертикальную и горизонтальную группировку текстовых фрагментов, выделяя области реквизитов, соответствующие аналогичным областям эталонного формуляр-образца документа. В результате схема алгоритма приобретает следующий вид:

1. Считываем очередной файл документа.

2. Преобразуем файл документа, имеющего сложную структуру к формату простого ASCII текста.

3. Изменяем кодировку текста в случае необходимости на СР-1251 (Windows).

4. Считываем к строк текста в динамический буфер.

5. Группируем слова в строках на вертикальные столбцы.

6. Производим поиск реквизитов по ключевым словам в каждом фрагменте. Осуществляем обратный вывод грамматики для найденного фрагмента.

7. Повторяем шаги 4-6 до тех пор, пока не будет прочитан весь файл.

8. Заполняем матрицу смежности, соответствующую документу по найденным реквизитам.

9. Определяем тип документа по составу реквизитов.

10. Выводим реквизит г/9 в выходной поток как содержимое документа.

Необходимо отметить, что приведённый алгоритм является универсальным для

документов линейной структуры. Принятый же нами за основу формуляр-образец имеет вложенные структуры, а именно схема документа представляется в виде трёх сообщающихся частей: у- заголовочной части (в нее входят реквизиты, расположенные до текста), р — основной части (реквизиты «текст» и «отметка о наличии приложения») и S— оформляющей части (реквизиты, расположенные ниже текста и приложения). Поэтому вначале выполняется разбивка текста документа на составные части, а затем к каждой из них применяется описанный выше алгоритм.

В качестве процедур морфологического (и синтаксического) анализа решено использовать стандартные алгоритмы словообразования на основе широко известных морфологических словарей Зализняка. Модуль синтаксического анализа решено дополнить эвристической функцией определения начала и конца предложения. Общий принцип выделения предложений из текста можно представить виде последовательности следующих шагов:

1) Ищем хотя бы два последовательных слова, состоящих не только из прописных букв. Если такая пара слов найдена, она считается началом предложения.

2) Сканируем предложение дальше на предмет стоящих подряд два или более раз символов перевода строки.

3) Если найдено, предыдущее предложение - заголовок; полностью очищаем динамический массив лексем, и продолжаем анализ предложения заново с текущей позиции.

4) Просматриваем предложение до встречи символа конца предложения - точки, восклицательного или вопросительного знака.

5) Если найдена точка, просматриваем предложение от позиции точки справа налево, до нахождения слева от точки синтаксически правильной лексеммы. Иначе выполняем п.4. заново с текущей позиции.

В общем случае семантическая сеть - это структура для представления знаний в виде узлов, соединенных дугами. Алгоритм построения НСС в целом повторяет методику построения сети предложенную в главе 3 и заключается в выполнении последовательности шагов;

1) Выбирается очередной документ, выполняется декомпозиция его структуры па множество реквизитов, с помощью формальной модели обобщённого производственного документа.

2) Из анализируемого документа выделяются при наличии реквизиты г6 и гцУ выполняется их грамматический разбор, осуществляется поиск терминальных символов, соответствующих понятиям ПрО.

3) Выделяется и представляется к анализу основное содержимое документа - реквизит «rjjr-текст документа».

4) Текст анализируемого документа проходит предварительную обработку: разбивается на предикативные и непредикативные (презентативные) единицы (простые предложения, части сложных предложений, причастные и деепричастные обороты), удаляются лишние компоненты.

5) Выделяются предложения, содержащие слова, которые могут быть проинтерпретированы как семантические представители.

6) При помощи соответствующих словарей происходит проверка на «истинность» семантических представителей. Для проверки имён существительных используется технический тезаурус. Порядок обработки нескольких семантических представителей определяется их грамматической характеристикой (порядком убывания ранга).

7) С помощью словарей семантических представителей происходит выделение компонент семантической конструкции. Среди имён существительных выполняется поиск по словарю синонимов в техническом тезаурусе. В случае успеха, найденный семантический представитель замещается соответствующим ключевым понятием.

8) В случае, если не удалось выделить субъект или объект, но выделены понятия из заголовочных реквизитов, производится замена недостающего компонента высказывания найденным в заголовочном реквизите понятием.

9) С помощью алгоритма прикладного морфологического анализа [5] происходит вы деление именных групп субъекта и объекта.

10) При помощи заданной таблицы семантических представителей выполняется поиск подходящих типов семантических связей субъекта и объекта высказывания.

11) Если такой поиск завершён однозначно, из множества Сап канонических выска-зыватсльных форм выполняется выбор соответствующей высказыватсльной формы и строится одна из следующих конструкций Сап(А,В) или предикатор Сап(А,В). Иначе, строится формула предикатор ?(А,В) и происходит переход к п.13.

12) Выделенная семантическая конструкция и соответствующая ей модифицирования каноническая высказывательная форма из п.П. предъявляются эксперту с предложением о подтверждении. Переход к п. 15.

13) Выделенные в п.10. возможные типы связей подставляются в формулу предика-тор ?(А,В) вместо знака "?". Для каждой подстановки строится копия этой формулы.

14) В случае если для данного высказывания найдено несколько подходящих типов семантических связей, система интерактивно предлагает эксперту уточнить тип высказывания и выбрать соответствующий вид (например, Rj).

15) Выполняется компиляция формулы предикатор ДХА,В) в НСС. Субъект и объект высказывания, т.е. понятия А и В заносятся в соответствующие структуры либо массивы узлов НСС с присвоением каждому узлу ссылки на связанный узел и ссылку па строку в таблице семантических связей.

Похожие диссертации на Автоматизированный анализ информационных ресурсов управления машиностроительным предприятием