Содержание к диссертации
Введение
ГЛАВА 1. Методические основы создания информационной среды 12
1. Основные факторы создания ЕИС 12
2. Интеграция приложений 15
3. Онтологии в информационных системах 37
4. Задачи исследования 41
5. Выводы по главе 42
ГЛАВА 2. Моделирование предметной области 44
1. Концепция создания ЕИС организации 47
2. Онтологическая модель предметной области 55
3. Выводы по главе 73
ГЛАВА 3. Моделирование информационных объектов и процессов интеграции 74
1. Макромодель информационной среды 74
2. Модели информационных объектов 77
3. Модель процесса интеграции ИС 96
4. Выводы по главе 98
ГЛАВА 4. Моделирование жизненного цикла эд 101
1. Модель жизненного цикла электронного документа 101
2. Модель автоматического извлечения метаданных 103
3. Модель выбора архитектуры информационных хранилищ 120
4. Выводы по главе 139
ГЛАВА 5. Модели процессов создания и тестирования сервис ориентированных программных систем 141
1. Модель архитектуры 141
2. Требования к моделям 143
3. Модель пакета «KemsuWEB» 146 4. Модель системы защиты 148
5. Модели системы электронного документооборота 152
6. Модель структуры метаданных 160
7. Модели структуры данных СЭД 163
8. Модель хранилища данных 168
9. Модель системы справочников 171
10. Соответствие моделей предъявленным требованиям 175
11. Метод тестирования портальных приложений 178
12. Выводы по главе 187
ГЛАВА 6. Реализация и внедрение программно технологического комплекса 189
1. Профиль стандартов ЕИС 189
2. Выбор архитектуры среды 194
3. Средства реализации 198
4. Программная реализация уровня портальных приложений 199
5. Программная реализация уровня общесистемных приложений 203
6. Программная реализация уровня прикладных ИС 208
7. Программная реализация уровня информационных хранилищ 215
8. Анализ ПТК на соответствие предъявленным требованиям 219
9. Внедрение программно-технологического комплекса 221
10. Выводы по главе , 227
Заключение 231
Список литературы
- Онтологии в информационных системах
- Онтологическая модель предметной области
- Модель процесса интеграции ИС
- Модель выбора архитектуры информационных хранилищ
Введение к работе
Актуальность исследования характеризуется необходимостью выявления и изучения факторов, влияющих на развитие теоретических и технологических возможностей создания и эффективного функционирования корпоративных информационных сред, эксплуатации и модификации информационных систем (ИС) в условиях быстро изменяющегося информационного общества.
В силу индивидуальности ряда проблем, сложившихся подходов, наличия технических и технологических апробированных решений большинство организаций создают свое информационное пространство, зачастую используя несовместимые подходы, что влечет за собой дополнительные затраты на разработку собственных систем при отсутствии гарантий достижения поставленных целей. Эти проблемы обусловлены широтой спектра решаемых задач, частой несовместимостью используемых платформ, техническим несовершенством, недокументированностью решений, отсутствием четкой политики со стороны управляющих и контролирующих организаций и т.д.
Большинство исследователей отмечают, что в составе единой информационной среды (ЕИС) можно выделить следующие относительно независимые составляющие: техническая инфраструктура (организационные структуры информатизации, коммуникационная сеть, центры высокопроизводительных вычислений, центры коллективного пользования и т.д.), функциональные подсистемы (подсистемы интегрированной автоматизированной информационной системы, обеспечивающие решения задач информатизации в зависимости от поставленных целей на основе управленческих и математических моделей), информационные ресурсы. Первая составляющая отличается долговременным характером своего становления, и затраты на ее создание настолько велики, что полная или частичная модернизация становится практически невозможной. Вторая и третья составляющие изменчивы по своей природе, относятся к прикладной области и в значительной степени зависят от специфики задач, решаемых конкретными организациями. В настоящее время проводятся исследования, актуальными из которых являются разработка и обоснование технологических решений для создания повторно используемых программных средств на основе общепринятых стандартов открытых систем (Open Systems, OS) и сервисно-ориентированной архитектуры (Service-Oriented Architecture, SOA).
Современные тенденции развития теоретических и технологических аспектов для создания таких систем отражаются в работах Ю.И. Шокина, A.M. Федотова, В.А. Серебрякова, А.Н. Бездушного, А.Н. Тихонова, А.Д. Иванникова, В.П. Кулагина, СВ. Мальцевой, В.М. Васильева, М.А. Гуриева, А.И. Башмакова, И.Г. Игнатовой и других. Среди работ зарубежных авторов можно отметить работы A. Tanenbaum (Э. Таненба-ум), М. van Steen (М. ван Стин), В. Neumann (Б. Ньюман), G. Blair (Г. Блэйр), G. Pierre (Г. Пьер), Н. Nwana (X. Ивана), D. Ndumu (Д. Ндуму), J. Wu (Дж. By), A. Clark (Э. Кларк), R. Wyle (Р. Уайл) и др.
На данный момент тесная интеграция различных автоматизированных систем, которые уже функционируют в организации, в единое информационное пространство является одним из активно развивающихся направлений ИТ-отрасли. Современные исследования показывают, что большое количество используемых ИС для решения разных задач с определенного момента начинает негативно влиять на состояние процессов информатизации. Данное явление обусловлено, прежде всего, необходимостью поддержания множества интерфейсов, связывающих различные ИС между собой. Иногда создание связующих компонентов представляется весьма сложной задачей из-
за отсутствия изначально заложенных в систему механизмов интеграции или проблем, связанных с использованием «унаследованных» систем.
Одним из подходов для решения перечисленных проблем может служить создание платформы, позволяющей выступить в качестве связующего звена, объединяющего ИС в одно информационное пространство с минимальными «переделками». Анализ доступных публикаций показывает, что наибольшая эффективность такого объединения достигается в том случае, если платформа будет поддерживать несколько способов интеграции, а также стандарты OS и SOA. Такая платформа должна относиться к классу сервис ориентированного ПО (программный слой, предоставляющий набор сервисов по организации и использованию распределенных информационных ресурсов, таких как приложения и данные, находящихся в сфере ответственности разных владельцев, для достижения желаемых результатов потребителем, которым может быть конечный пользователь или другое приложение). Основное назначение SOA заключается в способности управлять ростом масштабируемых систем предприятий, подготовленностью систем к размещению в Интернете и использованию сервисов, а также сокращение затрат при интеграции разрозненных систем в единое пространство. Инфраструктура SOA позволяет системам быть подвижными и быстрее реагирующими на изменения, чем монолитные системы с экспоненциально растущим числом дву-связных интерфейсов. Таким образом, SOA предоставляет прочный фундамент при реализации систем для адаптивного и изменяемого бизнеса.
На рынке интеграционных программных платформ сервис ориентированного ПО существует несколько промышленных решений: IBM WebSphere (около 20 продуктов), Microsoft Windows Server, BizTalk Server и Ofiice SharePoint Server, Oracle Fusion Middleware llg, SAP Net Weaver (однако, по мнению аналитиков компании Forrester Research, только продукты компании IBM поддерживают инфраструктуру SOA). Стоимость полного пакета программных решений достигает $200 - $500 тыс. Кроме того, во многих открытых источниках отмечается, что крупные российские компании испытывают непреодолимые трудности с лицензированием и приобретением такого ПО, а предприятия малого и среднего бизнеса (в том числе и образовательные учреждения) совсем не могут позволить себе вложения в реализацию проектов на базе данного ПО.
Таким образом, актуальной является научно-техническая проблема разработки и теоретического обоснования технологических основ создания и развития ЕИС на основе интеграции информационных систем и ресурсов организации (в т.ч. образовательного учреждения) на базе сервис ориентированной архитектуры.
Цель работы - разработка, теоретическое обоснование и реализация принципов и технологических подходов к созданию и развитию единой информационной среды организации на основе сервис ориентированного программного обеспечения.
Задачи исследования:
-
Анализ существующих подходов к созданию информационной среды организации, с точки зрения использования сервис ориентированного ПО, для интеграции элементов среды с целью выявления недостатков и возможных подходов к решению проблемы.
-
Обоснование принципов и технологических решений для создания и развития ЕИС организации на основе сервис ориентированного ПО.
-
Разработка комплекса моделей, обеспечивающих функционирование единой информационной среды и поддержку информационно-ориентированного, сервисно-ориентированного и процессно-ориентированного принципов интеграции.
-
Разработка теоретических оценок эффективности внедрения ЕИС в практику организации.
-
Реализация программно-технологического комплекса (ПТК) в виде набора программно-технологических средств, обеспечивающих создание единой информационной среды организации на базе сервис ориентированной архитектуры.
-
Внедрение ПТК и анализ результатов внедрения с использованием разработанных оценок.
К объектам исследования относятся: эталонная модель сервис ориентированной архитектуры, информационные системы, методы интеграции ИС, объекты, обрабатываемые и предоставляемые в ИС, электронные документы, документопотоки, процессы движения и управления ЭД.
Предмет исследования: процессы создания информационной среды, математические и информационные модели, модели структур данных, алгоритмы и технологические решения, используемые для интеграции элементов ЕИС.
Методы исследования определяются сущностью теоретических и практических проблем: методы моделирования, системный анализ, элементы методов оптимизации, элементы теории нейронных сетей, методы извлечения данных из текстов, методы создания онтологии, методы функционального и объектно-ориентированного проектирования, методы разработки и анализа требований к программным системам, методы тестирования программных средств.
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований: п.2 «Исследование информационных структур, разработка и анализ моделей информационных процессов и структур», п.6 «Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке», п. 12 «Разработка математических, логических, семиотических и лингвистических моделей и методов взаимодействия информационных процессов, в том числе на базе специализированных вычислительных систем», п. 14 «Разработка теоретических основ создания программных систем для новых информационных технологий», п. 15 «Исследования и разработка требований к программно-техническим средствам современных телекоммуникационных систем на базе вычислительной техники».
Научная новизна. Решена важная научно-техническая проблема разработки и теоретического обоснования технологических подходов к созданию и развитию ЕИС на основе сервис ориентированного ПО, а именно:
-
Конкретизирована модель, описывающая процессы создания и развития ЕИС, отличительной особенностью которой является выделение основных «каркасных» элементов для обеспечения процесса интеграции информационных объектов. Модель поддерживает: декомпозицию на контекстные модели элементов среды на различных этапах развития ЕИС; общее описание объектов интеграции и видов деятельности посредством онтологических моделей, основные концепции SOA -обозримость, взаимодействие и реальный эффект.
-
Построена модель интеграции ИС, опирающаяся на информационно-ориентированный, сервисно-ориентированный и процессно-ориентированный принципы интеграции на основе сервис ориентированного ПО. В модели используются: ЭД в качестве основного объекта для обмена информации между прикладными системами, система электронного документооборота (СЭД) как основа реали-
зации процессно-ориентированного принципа интеграции, обладающая рядом дополнительных свойств; система портального ядра, построенная на принципах SOA и осуществляющая технологическое обеспечение принципов интеграции.
-
Разработаны алгоритмы генерации метаданных ЭД, отличительной особенностью которых является использование аппарата нейронных сетей, обеспечивающие механизм автоматического извлечения метаданных.
-
Разработана вычислительная процедура, отличительной чертой которой является использование принципа динамического программирования для решения задачи оптимального распределения ЭД в системе распределенных хранилищ.
-
Предложен метод тестирования распределенных информационных систем, учитывающий особенности приложений, построенных на основе использования сервис ориентированного ПО.
-
Предложена модель оценки эффективности использования ЕИС на основе упрощенного локального подхода, учитывающая предложенные технологические решения и позволяющая оценить результаты внедрения ПТК.
-
Построен профиль стандартов как основа реализации программно-технологического комплекса, отличительной особенностью которого является соответствие национальному профилю взаимодействия открытых систем России и поддержка профиля организации. Профиль учитывает предложенные подходы для создания ЕИС на базе сервис ориентированного ПО.
Основные положения, выносимые на защиту:
-
Информационная модель интеграции, опирающаяся на информационно-ориентированный, сервисно-ориентированный и процессно-ориентированный принципы интеграции, позволяет «встраивать» разрабатываемые и унаследованные информационные системы в единую информационную среду.
-
Алгоритмы извлечения метаданных электронного документа на основе аппарата нейронных сетей позволяют в автоматическом режиме регистрировать ЭД в системе электронного документооборота.
-
Процедура для получения оптимального, с точки зрения стоимости документопо-токов, распределения ЭД в системе распределенных хранилищ, позволяет наилучшим способом определить место хранения нового ЭД на основе текущего распределения документов в хранилище.
-
Метод тестирования распределенных информационных систем, учитывающий особенности сервис-ориентированной архитектуры, позволяет упростить процесс тестирования и аттестации распределенных приложений.
-
Разработанные и внедренные элементы ЕИС повышают эффективность выполнения бизнес-процессов в образовательном учреждении на 26%.
-
Построенный профиль стандартов прикладного уровня для реализации программно-технологического комплекса учитывает предложенные подходы для создания ЕИС на базе сервис ориентированного ПО.
Практическая значимость результатов работы заключается в разработанных подходах, моделях и методах, составляющих основу ЕИС. Они могут быть использованы:
при проектировании и разработке элементов ЕИС;
при интеграции разрозненных ИС и информационных ресурсов в ЕИС;
при построении сложных систем, обладающих схожим функционалом, и систем, обеспечивающих автоматизацию деятельности организации;
при тестировании ИС, построенных на основе принципов SOA;
при обучении студентов и повышении квалификации специалистов в области создания сложных ИС на основе портальных технологий.
Созданные программные средства внедрены в Кемеровском государственном университете и его филиалах, полученные теоретические результаты использованы в учебном процессе на математическом факультете.
Основные этапы работы выполнены в рамках реализации следующих проектов: госконтракт № 4828 Министерства образования и науки РФ в рамках федеральной программы «Развитие научного потенциала высшей школы» (2005 - 2006 год); госконтракт № 12/10 Администрации Кемеровской области на выполнение работ по мероприятию «Создание областного реестра информационных ресурсов, баз данных научно-технической информации, информации учебного назначения и электронных средств обучения в учреждениях НПО, СПО, ВПО, ДПО» (2006 год); госконтракт № 4256 Министерства образования и науки РФ «Создание типового информационно-вычислительного портала для организации учебной и научной деятельности ВУЗа» в рамках аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2006-2008 годы)» (2006-2007 годы); грант Ученого Совета КемГУ «Система электронного документооборота ВУЗа».
Обоснованность и достоверность научных положений, полученных результатов, выводов и рекомендаций обеспечиваются применением проверенных методов исследования, корректностью использованного математического аппарата и подтверждаются реализацией комплекса программно-технологических средств и созданием на его основе ЕИС в Кемеровском государственном университете (2004-2011). Отдельные элементы ПТК были внедрены: в Беловском институте-филиале КемГУ (2008), Анжеро-Судженском филиале КемГУ (2006-2010), Новокузнецком институте (филиале) КемГУ (2010), Кемеровском сельскохозяйственном институте (2010).
Апробация результатов. Основные результаты диссертации представлялись на международных и всероссийских конференциях: «Телематика» (Санкт-Петербург, 2004, 2005, 2006, 2010), «Computer Science and Information Technologies (CSIT'2004)» (Budapest, Hungary, 2004), «Новые информационные технологии в университетском образовании» (Кемерово 2006), «Вычислительные и информационные технологии в науке, технике и образовании» (Павлодар, 2006), «El-Pub» (Новосибирск, 2003, 2008), «Risk and efficiency in economy practice: 17th GBU International Conference on control, development and applied informatics in business and economic» (Brasov, Romania, 2010), «Информационные технологи и математическое моделирование» (Анжеро-Судженск, 2006-2010гг.), «Единая образовательная информационная среда: проблемы и пути развития» (Томск, 2006 - 2010, Омск, 2009); «Инновационные недра Кузбасса. IT-технологии», «Недра Кузбасса. Инновации», «Информационные недра Кузбасса» (Кемерово, 2005 - 2007гг.), «Системы автоматизации в образовании, науке и производстве» (Новокузнецк, 2005 - 2009), «Распределённые информационно-вычислительные ресурсы» (Новосибирск, 2005, 2008), «Информационная среда вуза XXI века» (Москва-Петрозаводск, 2007 - 2009); докладывались на научных семинарах в Кемеровском государственном университете, Томском государственном университете, Сибирском государственном индустриальном университете (г. Новокузнецк), Сибирском государственном университете телекоммуникаций и информатики (г. Новосибирск), Институте вычислительных технологий СО РАН (г. Новосибирск).
Публикации. По теме диссертации опубликовано 106 работ, в том числе 2 монографии (19,5/9,05), 8 статей в изданиях, рекомендуемых ВАК для предоставления ос-
новных результатов диссертации (6,52/4,26), 6 статей в научных журналах (2,08/1,67), 4 статьи в зарубежных журналах и сборниках (2,76/2,13), 32 публикации в трудах и материалах конференций (12,75/8,65), получено 3 свидетельства об официальной регистрации программ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам. (В скобках первым указан общий объём публикаций в печатных листах, через разделитель - объём, принадлежащий лично автору.)
Личный вклад автора заключается: в разработке содержательных идей, методов и алгоритмов решения поставленных задач; разработке информационных объектов и моделей; совместной разработке методов выбора элементов архитектуры ЕИС, методов автоматического определения метаданных; научном руководстве при создании всех программных и технологических элементов ЕИС; создании отдельных программных систем и подсистем; руководстве реализацией и проектированием всех элементов ЕИС. Из печатных работ, опубликованных диссертантом в соавторстве, в диссертацию вошли только те результаты, которые автором получены лично или при его непосредственном научном руководстве на всех этапах (от постановки задач, моделирования и до реализации ПТК).
Структура и объём работы. Диссертационная работа состоит из введения, шести глав, заключения и списка литературы. Общий объём работы составляет 234 страницы основного текста, включая 75 иллюстраций, 17 таблиц, библиографический список из 258 литературных источников, 5 приложений.
Онтологии в информационных системах
На фоне бурного развития сетевых технологий, технологий предоставления и обработки данных, информационных технологий происходит быстрое развитие корпоративных информационных сред во всех областях деятельности организаций различного профиля [165, 68]. На ранних этапах развития таких сред основными задачами считались задачи накопления и обработки больших объемов информации, что привело к развитию информационных систем, основанных на использовании инструментальных средств поддержки баз данных от различных поставщиков [175]. Такое развитие технологий привело к возникновению задачи совместимости прикладных систем. Кроме того, в практике прочно утвердилось понятие и стандарты на системы с открытой архитектурой, которая декларирует наличие нескольких уровней обмена сообщениями с использованием стандартных протоколов на каждом уровне. При этом существенно расширились рамки использования СУБД и прикладных программных систем, появился термин «интероперабильность», позволяющий встраивать открытые системы в сложную распределенную информационную среду в качестве компонента с набором своих сервисов. Такой подход позволил создавать корпоративные информационные среды на основе готовых решений от различных поставщиков [64, 151].
Для решения проблем автоматизации на уровне предприятия стали активно развиваются ERP-системы с интегрированной базой данных или совместимой с БД другого поставщика [143, 88]. Однако исследователи стали отмечать [151], что ни подход, основанный на использовании программных систем для решения конкретных задач от различных поставщиков, ни подход, основанный на использовании полностью законченной системы от одного поставщика, эффективно не решают задачу автоматизации деятельности предприятия.
Информационная среда предприятия, как правило, создается в неоднородной программной среде, поскольку уже имеются системы, решающие конкретные или специфичные задачи, которые зачастую не совместимы между собой по описанию и способам хранения данных или набору предоставляемых сервисов. В России на текущий момент существует достаточно внушительное количество предприятий и организаций, которые испытывают на себе последствия «лоскутной автоматизации» вследствие невозможности приобретения широкомасштабных ERP-систем. Особенно это касается предприятий малого и среднего бизнеса. Поэтому до сих пор особое внимание уделяется вопросам интеграции информационных ресурсов и разрозненных информационных систем.
Взаимная увязка указанных подсистем и органическое объединение в единую систему достигается на основе организационной, функциональной, технической, программной и информационно-лингвистической совместимости. Только на таких условиях может быть обеспечено ее эффективное функционирование.
В обзоре А. Колесова [162] показано, что именно направление инфраструктуры приложений (среда исполнения приложений, а также средства разработки и инструменты управления, поддерживающие новое поколение приложений, реализация которых основана на сервис-ориентированной архитектуре (SOA), событийно-управляемых моделях и технологиях управления бизнес-процессами (ВРМ)) стало сегодня одним из ключевых сегментов конкурентной борьбы всех ведущих софтверных компаний. В то же время инфраструктуру приложений можно рассматривать как некую платформу для интеграции множества продуктов разных вендоров, с помощью которой ИТ-подразделение предприятия может реализовать разнообразные проекты.
Весной 2007г. компания Gartner (www.gartner.com) провела исследование рынка средств инфраструктуры приложений, опубликовав его результаты в виде своего традиционного магического квадрата — Magic Quadrant for Application Infrastructure, 2007 {Рис. 1.1). Магический квадрат Gartner — это фирменный метод представления ситуации на рынке; чтобы оценить, как расположены на нем поставщики, нужно представлять себе критерии попадания игроков рынка в ту или иную четверть квадрата.
Лидеры. Здесь представлены поставщики, предлагающие полный набор возможностей для поддержки всех типов ИТ-проектов в любой географической точке и имеющие надежные каналы поставок продуктов и услуг их поддержки в соответствии с потребностями заказчиков. В то же время нужно иметь в виду, что многие предприятия не могут или не хотят выбирать одного-единственного поставщика для решения своих ИТ-задач, в том числе чтобы снизить зависимость от конкретного вендора.
Претенденты. В эту группу входят компании, которые стремятся выйти в лидеры, но пока им это не удается. Возможно, у них еще нет достаточно полного спектра предложений в данной области или они недостаточно целеустремленно работают над расширением клиентской базы.
Провидцы. Эти поставщики демонстрируют ясное понимание рынка и предлагают сильные решения для одного или нескольких его сегментов. Но у компаний этой группы нет достаточных ресурсов для расширения своего присутствия на рынке — как в технологическом плане, так и в плане маркетингового продвижения своих технологий.
Нишевые игроки. Вендоры этой группы предлагают отдельные высококачественные компоненты для различных сфер, но у них нет полнофункционального продукта, или их продукты представлены только на ограниченном рыночном пространстве.
В начале сентября 2007г. компания IDC (www.idc.com) опубликовала результаты исследования практики применения критически важных приложений (КВП) в корпоративных структурах Северной Америки (2007 Mission Critical North American Application Platform Study). Исходные данные собирались путем опроса представителей ИТ-департаментов 500 компаний с числом сотрудников более 1000 человек (70% компаний имели штат более 5000 человек). В качестве респондентов выступали ведущие ИТ-специалисты организаций: 240 менеджеров из категории «лица, принимающие ИТ-решения», 121 разработчик ПО и 139 ИТ-архитекторов.
В центре внимания данного исследования были вопросы разработки, интеграции и развертывания платформ приложений, под которыми понималась в первую очередь среда ПО промежуточного слоя. Респондентам было предложено ответить на почти сотню вопросов, объединенных в несколько групп. Полную версию отчета можно найти по адресу (http://download.microsoft.com).
К критически важным респонденты отнесли 15 типов приложений, среди которых первые два места заняли средства электронной почты (77,0%) и финансовые решения (75,6%). ERP-системы расположились в середине рейтинга (49,6% ), пропустив вперед хранилища данных, средства бизнес-аналитики, инструменты управления проектами и логистикой.
Наиболее популярный вариант доступа пользователей к приложениям — через Web-браузер (70,0%о) и настольные приложения (52,6% ), но заметна и доля мобильных устройств (15,4%). Само бизнес-решение обычно реализовано в виде Web-приложения, которое функционирует в среде корпоративной сети предприятия (76,3%о), публичного Интернета (30,7%) или корпоративного экстранета (22,9% ). В почти половине исследованных проектов задействованы технологии обмена сообщениями и очередей запросов.
Онтологическая модель предметной области
Как отмечается в обзоре [63], прежде чем внедрять у себя промежуточное ПО, компания должна принять ответственные стратегические решения. Покупая промежуточное ПО, необходимо не только владеть фундаментальным знанием бизнес-задач и процессов, которые будет решать промежуточное ПО, но и понимать особенности различных предлагаемых продуктов, их положительные стороны и компромиссы.
На рынке промежуточного ПО можно выделить шесть основных типов продуктов: промежуточное ПО баз данных, промежуточное ПО удаленных вызовов процедур, промежуточное ПО передачи сообщений, брокеры объектных запросов, мониторы обработки транзакций и специально разработанное ПО.
Промежуточное ПО БД имеет ограниченное применение. В клиентской части большинства систем клиент-сервер, как правило, есть приложение, которое обращается к данным в БД. Шлюзы БД обычно имеют системы промежуточного ПО БД, которые производят трансляцию между различными вариантами баз данных SQL или между SQL и не-SQL. Такие шлюзы воплощают скорее технологию трансляции, нежели технологию промежуточного ПО.
Промежуточное ПО удаленных вызовов процедур (RPC, Remote Procedure Calls) применяют для доступа к данным на удаленном сервере аналогично вызову функции доступа к локальной БД.
Эта базовая концепция RPC используется в большинстве других технологий промежуточного ПО: с его помощью можно передавать программное управление на удаленный сервер. Промежуточное ПО удаленных вызовов процедур, такое, как DCE (Distributed Computing Environment), предложенное OSF (Open Software Foundation), по существу производит поиск сервера базы данных в сети.
Вместе с тем подход, основанный на RPC, имеет одну особенность: после осуществления удаленного вызова клиентская система обычно ждет ответа сервера на запрос. Любой сбой на пути запроса блокирует клиентское приложение.
Системы передачи сообщений развивают идеологию RPC, решая проблему сбоев в системе клиент-сервер. В системах передачи сообщений упор делается на обеспечение надежного соединения, благодаря которому сообщение передается по назначению, несмотря на сбои в сети и отказы сервера. Связь клиента и сервера может быть синхронной и асинхронной, соответственно сообщения передаются незамедлительно или с промежуточным хранением.
В отличие от технологии RPC, сообщение может иметь множество пунктов назначения в зависимости от того, каким образом администратор системы хочет учитывать отказы. Сообщение может доставляться по различным сценариям: немедленно (синхронно) или с задержкой (асинхронно). Промежуточное ПО передачи сообщений обеспечивает более надежную доставку широкого спектра данных и процессов в распределенной среде.
Технология брокеров объектных запросов (ORB, Object Request Brokers) пропагандировалась как единственный путь, позволяющий привнести преимущества объектной технологии в распределенные вычисления. Брокеры объектных запросов управляют объектами, которые ведут себя практически так же, как RPC. Однако распределенные объекты могут содержать гораздо более сложную информацию о распределенном запросе или службе, чем RPC или большинство сообщений и могут работать с неструктурированными данными. Брокеры объектных запросов, соответствующие стандарту общей архитектуры брокера объектных запросов CORBA (Common Object Request Broker Architecture) поддерживают язык описания интерфейса IDL (Interface Definition Language), который в процессе пересылки объектов по сети работает как API промежуточного ПО.
Мониторы обработки транзакций отвечают более широким задачам, представляя сложившуюся технологию промежуточного ПО: они обеспечивают единый АРІ для написания распределенных приложений. Обладая полным набором инструментов управления, эти системы управляют распределенной средой подобно системам, основанным на мэйнфреймах.
Многие инструменты разработки систем клиент-сервер и широкомасштабные приложения клиент-сервер имеют свою технологию промежуточного ПО. Такие специальные системы, как, например, промежуточное ПО R/3 BASIS компании SAP, оптимизированы для конкретного инструмента разработки приложения. Они обычно работают хорошо, но адаптировать их к существующей клиент-серверной среде, средствам разработки и другим приложениям довольно сложно.
Разные продукты промежуточного слоя используют собственные API, которые далеко не всегда совместимы. Эта проблема существует внутри классов промежуточного ПО. Например, языки описания интерфейса IDL неидентичные для различных брокеров объектных запросов, и сообщения различных систем передачи сообщений не могут смешиваться. Такая же ситуация наблюдается и в случае разных классов промежуточного ПО. Приложение, основанное на RPC, невозможно просто перенести в среду, построенную на основе ORB. В результате, выбрав конкретное промежуточное ПО, вы жестко зависите от него. Если в программе заложено использование конкретного класса промежуточного ПО, то работать с данным приложением будет только оно. Для замены промежуточного ПО надо переписать приложение или его часть.
Один из способов решения проблем интеграции - это поддержка стандартных программных интерфейсов. Они облегчают задачу переноса приложений на серверы различных типов, предоставляя потребителю некоторую независимость от производителей [168].
Стандартные интерфейсы важны и для самих производителей: поддерживая множество стандартных интерфейсов, производитель увеличивает число приложений, которые работают на его серверах, что делает серверы более привлекательными для потребителей.
Другой способ, применяемый производителями для разрешения проблемы разнородности - поддержка стандартных протоколов. Стандартные протоколы делают возможным взаимодействие программ (interoperate) - программа в составе одной системы имеет доступ к программам и данным в составе другой системы. Взаимодействие возможно только тогда, когда две системы используют один и тот же протокол, то есть те же форматы сообщений и их последовательности.
В обзоре [168] утверждается, что для многих вновь разрабатываемых приложений компоненты ПО промежуточного слоя становятся более важными, чем операционные системы и сетевые сервисы, от которых раньше зависело приложение. Так, вновь разрабатываемые приложения в большинстве случаев опираются на сервис реляционных СУБД (нежели на файловый сервис ОС), на механизм RPC (нежели на механизм передачи сообщений). В общем, ПО промежуточного слоя заменяет "нераспределенную" функциональность операционных систем на "распределенную" функциональность, которая строится на основе компьютерной сети (распределенные базы данных, удаленный доступ к файлам, RPC).
Модель процесса интеграции ИС
Процессом р, называется множество Р, =y F,Td,MpJ с заданным регламентом выполнения элементов этого множества, где Р — другие процессы; F - функции; Td - связанные с одним ЭД задания; Р,- метаданные задания. Процесс всегда связан с некоторым ЭД и описывает маршрутизацию данного ЭД.
Маршрутом ЭД называется последовательность связанных с ЭД заданий в соответствии с регламентом их выполнения. Маршруты электронных документов подразделяются на жесткие и динамические. В случае динамической маршрутизации при выполнении задания регламент выполнения следующих за ним и связанных с данным ЭД заданий может быть изменён. Также могут быть удалены имеющиеся или добавлены новые задания. В случае жесткой маршрутизации регламент выполнения связанных с ЭД заданий определяется заранее и не может быть изменён в процессе их выполнения.
Учитывая определение бизнес-процесса, данного ранее в макромодели, представленного в стандартах ИСО серии 9000 [144] и публикациях [181, 50, 145, 215, 218, 231, 31], а также используемого в проанализированных системах электронного документооборота, было введено следующее определение.
Бизнес-процессом Ь, называется множество bt=(P,F,T,M ), соответствующее онтологической модели предметной области с заданным регламентом выполнения элементов, где Р — процессы; F — функции; Т - задания; Mh ь - метаданные бизнес-процесса. Бизнес-процесс направлен на достижение определенной цели. Связи между элементами БП определены через соответствующие значения метаданных. БП не изолирован от других БП, и одной из его характерных черт является реакция на внешние события. Событие - внешнее по отношению к БП действие, определенным образом влияющее на ход БП (например, регистрация в хранилище нового ЭД). Информация о произошедшем событии передается в БП через параметры.
Для удобства описания и реализации механизма управления бизнес-процессами, как правило, используется специальный язык, позволяющий формализовать элементы БП и организовать взаимодействие между ними, обладающий средствами поддержки вложенных процессов, предоставляющий возможности для описания ветвлений и циклов. Среди существующих языков описания бизнес-процессов, обладающих данными возможностями, ведущее место занимают BPEL (Коалиция BPMI) [4] и BPML (Коалиция CSC, Intalio, SAP, Sun, SeeBeyond, Versata) [164].
Их анализ показал, что представленные языки содержат не весь необходимый нам функционал. Например, нет в наличии функции, позволяющей преобразовывать данные из одного формата в другой. Кроме того, в силу несовершенства всех существующих языков, как разработчикам программного обеспечения, так и организациям, выбирающим системы управления бизнес-процессами (WorkPlow-системы, WF-системы), опасно "жестко" привязываться к какому-то одному из этих языков. Велика вероятность, что в будущем этот язык будет кардинально переработан или все современные языки описания БП будут вытеснены новыми, более удобными, принципиально другими языками [164]. Кроме того, в случае выбора какого-либо из этих языков в качестве языка описания БП, потребуется его серьёзная адаптация к объектам системы.
В результате, для обеспечения максимальной эффективности при обеспечении действий над бизнес-процессами в разрабатываемой среде разработан собственный язык описания БП, который наряду с перечисленными выше функциями, оперирует специально введенными объектами, а также позволяет осуществлять преобразование данных для передачи между информационными системами. Данный язык базируется на основе стандарта языка BPML.
Таким образом, формально модель отношений информационных объектов, представленных в описании макромодели создания и развития ЕИС (1 Глава 3), можно представить следующим образом: - функция системы заданная своими метаданными; h(m ) - задание, определенное через свои метаданные; РЛт ) - процесс; UJ(m) _ пользователь среды, которому назначено некоторое задание; Хт с ) - электронный документ, определенный через метаданные и контент (содержимое); Dirk - папка, содержащая документы; D - класс документов; В - конкретный бизнес-процесс. RDF-представление отношения введенных информационных объектов показано на рисунке (см. Рис. 3.1).
Для реализации эффективной защиты, в первую очередь было введено понятие пользователя. Пользователь - объект среды, имеющий доступ к её функционалу и идентифицирующийся своей учётной записью. Метаданные пользователя представлены в таблице (см. Таб.3.6).
Ключевым для механизма защиты является понятие права. Право (Right) - это правило, определяющее разрешённое над объектом или классом объектов действие пользователю, группе пользователей или ИС. При этом приоритет получают права, назначенные непосредственно объекту.
Доступные в среде действия: создание (с), редактирование (е), удаление (d), чтение (г), согласование (а), подписание (s), утверждение (q), регистрация (h). Некоторые из них применимы ко всем объектам среды (например, с, г, d), а другие - только к определённым объектам (например, а и q применимы только для ЭД). ПОПЬЗОЮТЄЇЇЬ Рис. 3.1 - Отношения информационных объектов, представленных в модели
При построении модели применим подход, заключающийся в использовании информационной системы (в нашем случае выбрана система электронного документооборота) в роли системы промежуточного слоя для интеграции ИС на основе информационных объектов: ЭД, БП, процесс, задание, функция [89, 90, 92, 94, 97, ПО, 115, 125, 131, 132, 133, 135, 136]. Модель процесса интеграции базируется на введенных основных объектах и отношениях, включает набор моделей, каждая из которых соответствует одному из принципов интеграции.
В модели процесса информационно-ориентированной интеграции используется единая база данных (БД) для хранения информации всех действующих и разрабатываемых ИС (см. Рис. 3.3). Для этого в СЭД разработан интерфейс, предоставляющий возможность управления данными СЭД в зависимости от назначенных другим ИС прав. В СЭД предусмотрен механизм, позволяющий использовать интерфейсы других ИС для доступа к их данным.
Модель выбора архитектуры информационных хранилищ
Далее легко обобщить эти рассуждения для первого случая (к=3) и вообще для любого числа хранилищ (k=N). Учитывая, что все коэффициенты ai и Д положительные вещественные числа, т и с векторы размерности ixn , состоящие из значений {0;1}, то среди всех локальных оптимумов найдется глобальный оптимум F [178], который и будет являться решением нашей задачи. Таким образом, решение задачи: F =minF/ = mm 0?J9mm (/?,_,));+1 \j = 1,..,и; i = \,..,N-\ (4.64) с условиями (4.57)-(4.59) будет приближенным решением задачи (4.41)-(4.44). Эта задача похожа на задачу о размещении предметов с разными весами в многомерном рюкзаке [178]. Начальными параметрами задачи будут являться: п -фиксированное количество документов в системе; к — количество хранилищ; начальное распределение объемов метаданных V и содержимого V" ЭД в системе; известные значения коэффициентов целевой функции. Алгоритм вычислительной процедуры представлен на рис 4.7 135
В Таб. 4.1 указаны начальные параметры, использованные для тестового расчета. При вычислении принималось, что суммарный объем всех ЭД полностью входит в одно из хранилищ. Для расчетов во втором случае фиксировалось количество копий ЭД (включая метаданные и содержимое) так, чтобы ЭД только частично располагался в хранилище (либо метаданные, либо содержимое). Значения остальных параметров выбирались таким образом, чтобы исключить доминирующее влияние одного из хранилищ или ИС на результаты.
Другими словами, значения параметров для расчета выбирались так, чтобы оценить влияние только выбранной архитектуры для размещения распределенных информационных хранилищ в соответствии с описанными выше вариантами архитектурных решений.
На Рис. 4.8 приведена графическая интерпретация результатов расчета. На графике заметно, что значение целевой функции ведет себя одинаково (с графической точностью) для первых двух вариантов архитектурных решений (Случай 1 и Случай 2). Для третьего варианта (Случай 3) минимальное значение стоимости документопотоков резко возрастает после превышения порогового значения количества ЭД (500 в данном варианте расчета). Такие же результаты были получены при увеличении количества документов до 10000, а количества хранилищ до 5.
На основании приведенных выше рассуждений разработан метод практического использования задачи оптимизации документопотоков для выбора архитектуры проектируемой системы [98, 126]: 1. На этапе анализа предметной области необходимо определить оценки сверху для следующих величин: - среднего объёма ЭД V, — V + V", которые могут обрабатываться в информационной среде при автоматизации бизнес-процессов; - максимальной пропускной способности самого медленного участка передачи данных при наибольшей частоте обращения к БД системы изнутри сетевого сегмента Rt ; - существующих ресурсов вычислительных систем и способности их модернизации для удовлетворения требований пользователей; - среднего числа копий ЭД в распределённой БД; - стоимости модернизации сети передачи данных; - приемлемого времени отклика СЭД или прикладной ИС на запрос документа Т. 2. На основании полученных оценок вычислить: - максимальный объём информации V, передаваемой по сети передачи данных с учётом ограничения (4.43); - максимальный объём БД в соответствии с требованиями пользователей и с учётом ограничения (4.44). 3. На этапе архитектурного проектирования получить оценки для максимальной частоты запросов к БД системы и к ИС. 138 4. Подсчитать максимальные (оценочные) значения для Sx , S , Sn,. 5. Управляя коэффициентами со; (г =1,3) получить вариации значения целевой функции (4.41) с учётом различных предлагаемых архитектурных решений. Каждой целевой функции при этом будет соответствовать свой набор значений параметров. 6. Из полученных значений целевой функции J { выбрать искомое, пользуясь формулой: / = min\fk,k-\,K\. 7. Найденное значение целевой функции обеспечит решение задачи оптимизации при любых соотношениях матриц МиС, поскольку решение уравнения (4.41) получено исходя из оценок сверху. 4. Выводы по главе
1. Конкретизировано понятие жизненного цикла электронного документа в зависимости от предложенных моделей. Показано, что критически важными задачами для обеспечения ЖЦ документа являются задачи: 1) автоматического определения и регистрации ЭД и 2) задача оптимального размещения ЭД в информационных хранилищах.
2. На основании исследований был разработан алгоритм автоматического определения метаданных, согласно которому процесс определения метаданных документа разбивается на несколько этапов: 1) выделение зон документа; 2) определение типов зон; 3) определение класса документа; 4) последовательное определение метаданных в каждой зоне. На этапах 2-4 используется аппарат нейронных сетей.
3. В основу первого подхода положен аппарат НС Кохонена, применяемый для решения задач классификации образов путем определения расстояний от объекта до ядра класса. В результате выбора максимального расстояния определятся наиболее близкий документу шаблон. Для эффективного определения метаданных в метод включена функция обучения, суть которой состоит в автоматическом добавлении новых ядер классов (автоматическое обучение), а так же в модернизации и добавлении шаблонов администратором (обучение с учителем).
4. Для построения второй методики использована НС «Неокогнитрон», которая позволяет решать задачу за один «проход» по документу. Предложен алгоритм поиска значений метаданных с помощью НС. Однако следует отметить недостатки данной модели: отсутствует «привязка» метаданных к определённой зоне электронного документа, что затрудняет сравнение структуры с существующим шаблоном; большой объём вычислений при определении метаданных вследствие многослойности нейронной сети. Решение о применимости результата того или иного подхода осуществляется на этапе определений метаданных обоими способами.
5. Разработана методика выбора архитектуры распределенного хранилища данных, которая базируется на решении задачи оптимизации стоимости документопотоков на основе «архитектурного» подхода. Для решения задачи оптимизации необходимо найти минимальное значение целевой функции для данного набора ограничений. Разработана вычислительная процедура для получения приближенного решения задачи оптимизации, основанная на принципах динамического программирования для задач целочисленного программирования. Проведены тестовые расчеты при различных значениях параметров задачи. На основании расчетов предложен алгоритм выбора архитектуры информационных хранилищ для построения СЭД.