Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели Бармин Александр Александрович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бармин Александр Александрович. Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели: диссертация ... кандидата технических наук: 05.13.11 / Бармин Александр Александрович;[Место защиты: Уфимский государственный авиационный технический университет].- Уфа, 2015.- 158 с.

Содержание к диссертации

Введение

ГЛАВА 1. Анализ проблем, текущего состояния и методов адаптации контента предметной области 11

1.1.Общие вопросы управления контентом информационного пространства 11

1.2.Проблемы и особенности управления информационными ресурсами 14

1.3. Существующие модели информационного поиска 18

1.4.Многоуровневая архитектура объектно-ориентированного приложения..31

1.5.Анализ работ, близких к исследуемой теме 36

Выводы по 1-й главе 38

ГЛАВА 2. Алгоритм адаптации контента информационного пространства в соответствии с системной моделью выполняемого бизнес-процесса 39

2.1.Представление контента информационных ресурсов в форме категории.39

2.2. Метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и семантических формальных моделей 46

2.3.Методика выделения предметного контента, заданного формальной моделью выполняемого бизнес-процесса 55

2.4.Методика формирования многомерного классификатора для структурирования и идентификации информационных ресурсов 58

2.5. Методика отбора контента информационных ресурсов, необходимого для исполнения бизнес-процессов 63

2.6.Информационные технологии для формирования контента информационного пространства, его структурирования и поиска 66

2.7.Пример структурирования информационного пространства 73

Вывод по 2-й главе 77

ГЛАВА 3. Многоуровневая архитектура программного обеспечения структурирования контента информационного пространства 79

3.1.Структура контента информационного подпространства пространства документооборота Федерального агентства водных ресурсов 79

3.2.Программное обеспечение для структурирования контента информационного пространства 82

3.3. Пример структурирования информационного пространства с целью обеспечения идентифицируемости и прослеживаемости 99

Вывод по 3-й главе 101

ГЛАВА 4. Метод применения информационно-поисковых систем для организации и управления учебной деятельностью 102

4.1.Автоматизированный метод применения информационно-поисковых систем в структурированном информационном пространстве 102

4.2.Автоматизированный метод применения информационно-поисковых

систем в неструктурированном информационном пространстве 105

4.3.Технология использования информационно-поисковых систем, основанная на BPMN-технологии 110

4.4.Анализ эффективности применения предложенных методов 124

Выводы по 4 главе 130

Заключение 131

Список литературы

Существующие модели информационного поиска
Метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и семантических формальных моделей
Методика отбора контента информационных ресурсов, необходимого для исполнения бизнес-процессов
Пример структурирования информационного пространства с целью обеспечения идентифицируемости и прослеживаемости

Существующие модели информационного поиска

Современные предприятия являются сложными системами. В диалектической паре с реальной системой находится ее информационное отражение – информационно-управляющая система.

В соответствии с ISO/IEC 2382-1, информационная система — система обработки информации, работающая совместно с организационными ресурсами, такими как люди, технические средства и финансовые ресурсы, которые обеспечивают и распределяют информацию[19].

В соответствии с ГОСТ РВ 51987, информационная система -автоматизированная система, результатом функционирования которой является представление выходной информации для последующего использования[28].

В процессе своей деятельности информационная система организации накапливает значительный объем данных и знаний, которые являются ценной интеллектуальной собственностью [42].

Использование средств вычислительной техники позволяет строить автоматизированные информационные системы – совокупность программных и аппаратных средств, предназначенных для хранения и (или) управления данными и информацией [55]. Для хранения информации в таких системах используются системы управления базами данных – совокупность программных и лингвистических средств общего и специального назначения, обеспечивающих управление созданием и использованием баз данных [39]. База данных – набор сведений, хранящихся некоторым упорядоченным образом.

Рассмотрим классификацию информационных систем по сфере применения. Выделяют следующие классы: Информационные системы организационного управления. Информационные системы управления технологическим процессом. Информационные системы автоматизированного проектирования. Интегрированные информационные системы[9].

Все эти классы систем создают в процессе своего функционирования данные, которые могут быть использованы на всех уровнях управления. В связи с этим в последние годы появился отдельный класс систем, называемых ECM-системами (Enterprise content management). Данные системы предназначены для управления документами и другими типами контента, а также и хранением, обработкой и доставкой в масштабах предприятия.

В данном контексте контент предполагается слабоструктурированным — это могут быть файлы различных форматов, электронные документы с различными наборами полей и другие формы представления данных в организации.

Система управления содержимым — информационная и техническая архитектура, обеспечивающая управление жизненным циклом структурированной и неструктурированной информации (контента) на всех этапах ее жизненного цикла. Системы управления содержимым включают в себя совокупность взаимодействующих приложений от одного или нескольких производителей. Современные системы управления содержимым выполняют следующие ключевые функции: управление электронными образами документов — управление электронными копиями бумажных документов с использованием средств сканирования и оптического распознавания текста; управление документами — обеспечение совместной работы, контроля версий, разграничения доступа, классификации, экспорта и импорта документов; управление записями (управление документами, в соответствии с ГОСТ Р ИСО 15489-1-2007) — обеспечение соответствия законодательным и отраслевым нормам, долгосрочное автоматизированное хранение в соответствии с нормами регулирующих органов; управление потоками работ — выполнение бизнес-процессов с документами в рамках корпоративной системы управления содержимым; управление веб-контентом — управление контентом, публикуемом на веб-сайте, динамическое формирование контента на основе данных других систем, обеспечение взаимодействя с пользователями веб-сайта; управление мультимедиаконтентом — управление контентом в мультимедийных форматах (изображения, видео и аудиофайлы); управление знаниями — формирование корпоративной базы знаний, накопление, классификация и поиск релевантной информации по запросу; совместная работа с документами — совместное использование (создание, редактирование) документов отдельными пользователями и проектными командами [86].

Значительная часть корпоративного контента хранится не внутри ECM-системы, а вне ее: в ERP-системах, системах финансового и кадрового учета, и других. Кроме того, широкое распространение получили облачные решения по хранению и обработке данных, такие как Dropbox [96], Google Drive [94], Microsoft OneDrive [95], Box.net [90] и другие подобные сервисы. В соответствии с определением ECM, приведенным в [73], облачные решения также относятся к ECM-инструментам. В результате использования совокупности разнородного программного обеспечения значительно усложняется задача структурирования и классификации информации, так как в каждой из систем применяются свои правила кодирования и классификации [32].

Наиболее распространенной проблемой в управлении данными является отсутствие или не применение поиска. Во многих организациях до сих пор отсутствуют информационно-поисковые системы, либо они чрезмерно сложны для использования[98].

Непрерывное накопление структурированной и неструктурированной информации, распределенной по многочисленным узлам вычислительной сети, привело к появлению задачи большой размерности. Данный класс задач получил название «большие данные» (Big Data).

Метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и семантических формальных моделей

Методология структурного анализа и моделирования SADT содержит в своем составе набор нотаций для описания предметной области в различных аспектах: функциональном, информационном, динамическом, семантическом и других. Данные диаграммы по свойству «вход-выход» также удовлетворяют необходимым аксиомам теории категорий.

Описанные выше положения реализуются с использованием, например, программных средств ERWin Process Modeller или AllFusion ModelMart. Программное средство позволяет моделировать бизнес-процессы в нотации IDEF0, IDEF1X, IDEF3 и DFD. Каждый их функциональных блоков может быть декомпозирован с помощью любой из приведенных нотаций, то есть диаграмма, разработанная с использованием программного средства, сохраняет свои свойства на всех уровнях декомпозиции [12].

Представление системной модели бизнес-процесса в форме диаграммы в нотации IDEF0 и ориентированного графа по свойству вход-выход Описанные выше положения можно проиллюстрировать на примере системы управления корпоративным контентом Логика СЭД [10]. Система выполняет автоматизацию организационно-распорядительного документооборота и функционирует на базе документоориентированной СУБД IBM Domino [89]. Здесь в качестве класса объектов выступают документы бизнес-процессов (группы документов документоориентированной СУБД), а классом морфизмов являются решения участников процессов. Каждый участник может делегировать выполнение своего решения другому участнику или создать собственную декомпозицию бизнес-процесса, обеспечивается возможность декомпозиции процессов с точки зрения участников. Один и тот же документ может в разных бизнес-процессах выступать в качестве входного ресурса и результата.

Таким образом, выполняются необходимые аксиомы категорий: 1. ассоциативность (возможность объединить несколько бизнес-процессов в бизнес-процесс более высокого уровня); 2. некоммутативность (конечный результат зависит от последовательности действий); 3. тождественный морфизм действует тривиально (документы могут выступать как входными, так и выходными данными).

Следовательно, можно говорить о наличии категории на бизнес-процессе, реализуемом в системе организационно-распорядительного документооборота, а также наличие категории более высокого уровня, которую реализует СЭД.

Стоит отметить, что существует функтор между категорией моделей бизнес-процессов в нотации IDEF0 и категорией процессов, реализованных в СЭД. Функтор реализуется за счет настройки СЭД под конкретные модели бизнес-процессов. Также данный процесс может быть реализован с использованием BPMS-систем, позволяющих в автоматизированном режиме строить бизнес-процессы на основе моделей в нотации BPMN и исполнять их в распределенной среде. К таким системам относится Runa WFE, Bizagi, IBM онтология, T – термины онтологии, R – конечное множество отношений и F – конечное множество функций интерпретации.

В онтологии классом объектов выступают термины, классом морфизмов – отношения между ними. Термины онтологии также могут быть декомпозированы, порядок декомпозиции терминов имеет значение. Онтологию можно представить в форме графа – семантической сети, где вершинами выступают термины онтологии, а стрелками – отношения между ними. В этом случае выполняются необходимые аксиомы для утверждения наличия категории.

Пример с категорией на онтологии может быть проиллюстрирован на интернет-энциклопедии «Википедия». Здесь в качестве терминов онтологии (объектов) выступают статьи, а в качестве отношений (морфизмов) – гиперссылки между ними. Каждая статья может являться, собственно, статьей, а может быть категорией с гиперссылками на дочерние уточняющие статьи.

Все объекты интернет-энциклопедии различимы и прослеживаемы за счет того, что имеют уникальные имена в контексте соответствующего пространства (основное пространство энциклопедии, «песочница», служебные страницы, страницы категорий и другие). Тем не менее, в виду большой размерности, поиск в такой структуре может осуществляться лишь итеративно, путем формирования многовариантного поискового запроса [13].

Также структуру, сходную с онтологией имеет диаграмма классов в нотации UML. Здесь в качестве понятий предметной области выступают классы объектно-ориентированного программного обеспечения, в качестве отношений – отношения между классами и их экземплярами, функции интерпретации эквивалентны функциям интерпретации предметной области. В данном случае, использование принципов наследования, инкапсуляции и полиморфизма позволяет декомпозировать и детализировать конкретные классы до их реализации (композиция) и обеспечить правильный порядок их взаимодействия (некоммутативность) [29]. Данный принцип реализуется в программном обеспечении за счет использования внедрения зависимостей во время исполнения и инверсии Диаграмма классов как пример категории в модели объектно-ориентированного программного обеспечения

Категории, полученные на диаграммах структурной методологии моделирования (SADT), объектно-ориентированной (UML), динамической (BPMN), онтологиях, построены по сходным правилам и могут быть объединены в категорию более высокого уровня. Также возможен переход от одной формы представления к другой, что подтверждается наличием программного обеспечения, реализующего преобразование из одной формы в другую (например, реализация процессов, реализованных с использованием структурного подхода в программном обеспечении). Таким образом, можно сделать вывод о возможности прослеживания объектов в рамках всей структуры по сходным правилам, то есть правила, применимые для идентификации экземпляров классов применимы и к идентификации неструктурированных статей. 2.2. Метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и семантических формальных моделей

Дополним понятие информационного пространства предметной области аппаратным и программным обеспечением, а также данными, накопленными в процессе их функционирования. В рассматриваемом аспекте в качестве объектов и элементов выступают множества, представленные подпространствами, пользователями, IT-специалистами и информационными системами:

В приведенном примере информационное пространство разделяется на пространство облачного размещения и пространство локального размещения.

К пространству облачного размещения относятся системы, доступ к которым производится по открытым каналам связи (например Интернет). В большинстве своем, системы, относящиеся к данному классу, реализуют сервисы, предоставляемые сторонними организациями, например, общедоступные сервисы обмена мгновенными сообщениями или электронной почтой. Данные в таких системах хранятся на серверах организации-владельца сервиса и доступны для использования только через общедоступный интерфейс доступа к данным [99, 62].

К пространству локального размещения относятся системы, доступ к которым производится в рамках локальной сети организации. Следует отметить, что доступ к данным в таких системах может осуществляться непосредственно, путем обращения к хранилищу данных, так и с использованием интерфейсов доступа к данным.

В процессе проектирования программного и аппаратного обеспечения следует придерживаться хотя бы одного из стандартов поддержки процессов жизненного цикла систем.

Наибольший интерес представляет стандарт ISO 15288 [26], который является базовым в том плане, что не задает общих требований к реализации процессов, связанных с разработкой и поддержкой жизненного цикла систем и используется в качестве методологической основы для организации этих процессов с необходимой конкретизацией для конкретного предприятия или области деятельности, при этом жизненный цикл систем представляется в виде "дерева" процессов.

Методика отбора контента информационных ресурсов, необходимого для исполнения бизнес-процессов

Программное обеспечение функционирует в рамках кластера виртуальных машин, что позволяет обеспечить отказоустойчивость, резервирование и равномерное распределение загрузки между несколькими аппаратными серверами.

Использование подсистемы информационного поиска в рамках системы электронного документооборота позволяет обеспечить оперативный доступ к данным, находящимся в рамках распределенного информационного пространства агентства. Поиск выполняется как по структурированным данным, созданным в процессе функционирования СЭД, так и по слабоструктурированным данным, полученным с помощью системы межведомственного электронного документооборота. Кроме того, обеспечивается поиск в рамках электронных оригиналов документов, находящихся в файловом хранилище IBM FileNet [3]. Проиллюстрируем описанный выше алгоритм структурирования контента информационного пространства. Представим информационное пространство в виде совокупности следующих программно-аппаратных комплексов и данных, накопленных в процессе их функционирования:

1. Предложена модель представления контента информационного пространства в форме категории. Проиллюстрировано наличие категории на структурной модели бизнес-процесса, диаграмме классов объектно-ориентированного программного обеспечения, онтологии интернет-энциклопедии и приведены примеры программных средств, реализующих функторы между категориями. Описанные положения говорят о возможности идентификации объектов и прослеживаемость их связей в рамках нескольких категорий по общим правилам. Применение формального языка построения семантической теоретико-множественной модели позволяет, с одной стороны, поддерживать онтологию метода построения модели, с другой стороны, последовательно формировать словарь данных и соответствующий глоссарий для предметной области. Применение формальных графоаналитических мета-языков типа IDEF и UML, по определению, позволяет формировать контекстную локальную онтологию построенной модели в форме словаря данных, глоссария и других форм онтологических моделей.

2. Для решения задачи структурирования данных предложен метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и формальных семантических моделей. При использовании данного подхода создаются необходимые условия структурирования информационного пространства.

3. Предложен метод определения границ информационного подпространства, необходимого для исполнения бизнес-процесса на основе системной модели бизнес-процесса. Информационное пространство представляется совокупностью программного, аппаратного обеспечения и данных, накопленного в процессе их функционирования.

4. Предложен метод формирования многомерного фасетного классификатора контента информационного пространства на основе содержимого информационных ресурсов. Предложенный метод позволяет выполнять многоаспектную идентификацию контента информационных ресурсов, классификацию как структурированных, так и неструктурированных элементов данных по общим правилам.

5. Предложен алгоритм параметрического определения контента информационных ресурсов, необходимого для исполнения бизнес-процесса на основе системной модели бизнес-процесса.

6. Проведен анализ информационных технологий для формирования и структурирования контента информационного пространства, показано место разработанного программного обеспечения среди существующего программного обеспечения для информационного поиска.

7. Приведен пример структурирования контента информационного пространства государственного учреждения с использованием системы электронного документооборота. ГЛАВА 3. Многоуровневая архитектура программного обеспечения структурирования контента информационного пространства

В главе рассмотрены вопросы разработки архитектуры программного обеспечения для структурирования информационного пространства. Также рассмотрены вопросы построения многоуровневого программного обеспечения на базе типовых решений, рассмотрены подходы к описанию моделей предметной области с использованием объектно-ориентированного подхода и подхода, основанного на метаданных.

Структура контента информационного подпространства пространства документооборота Федерального агентства водных ресурсов

Типовая структура информационного подпространства предметной документооборота предметной области (на примере Федерального агентства водных ресурсов) представляет собой, прежде всего, совокупность документ-ориентированных баз данных и приложений, реализующих выполнение организационно-распорядительных и межведомственных бизнес-процессов (рисунок 3.1). Информационное подпространство является открытым, так как взаимодействует с внешними системами и дополняется структурно связанными системами управления контентом [45].

Пример структурирования информационного пространства с целью обеспечения идентифицируемости и прослеживаемости

Рассмотрим пример структурирования информационного пространства Федерального агентства водных ресурсов с целью обеспечения идентифицируемости и прослеживаемости объектов предметной области.

Информационное подпространство организационно-распорядительного и межведомственного документооборота состоит из совокупности программно-аппаратных комплексов, которые накапливают данные в ходе выполнения внутренних бизнес-процессов и в процессе взаимодействия с системой межведомственного электронного документооборота. Накопленные данные могут быть использованы для выполнения текущих бизнес-процессов агентства, а также для предоставления отчетов и сводных данных.

Для того, чтобы обеспечить оперативный доступ к данным необходимо выполнить идентификацию объектов по следующей методике:

1. Определить систему измерений для системной модели выполняемого бизнес-процесса. На данном этапе определяются измерения, на основе которых будет выполнено структурирование предметной области – какие данные необходимо извлечь и способ сравнения полученных данных с системной моделью бизнес-процесса.

2. Определить границ информационного пространства, включающего прецеденты в скрытой форме, схожих с системной моделью в определенной выше системе измерений. На данном этапе определяются программно-аппаратные системы, к которым нужно обратиться для получения необходимых для выполнения бизнес-процессов данных. Определение выполняется на основе априорных правил – известно, какие базы данных о каких сущностях предметной области хранят данные.

3. Структурировать информационное пространство по тождественному базису для системы измерений системной модели решаемой задачи. Структурирование информационного пространства выполняется путем его сплошного индексирования с помощью служб IBM Domino и IBM OmniSearch и дальнейшим структурированием встроенной подсистемой информационного поиска.

4. Последовательно выделять нечеткие прецеденты по критерию семантической близости параметрам системной модели. На данном этапе все объекты, попавшие в границы информационного пространства, необходимого для исполнения бизнес-процесса сравниваются с системной моделью бизнес-процесса. Сравнение выполняется в автоматизированном режиме с использованием поискового индекса информационно-поисковой системы, сформированного на предыдущем шаге – путем выполнения параметризованного поискового запроса.

5. Реализация параметризованных бизнес-процессов с применением предложенной BPMN-технологии. В результате отбора необходимых для выполнения бизнес-процесса данных на предыдущем шаге, можно заполнить системную модель бизнес-процесса конкретными экземплярами данных, создав тем самым BPMN-модель выполняемого бизнес-процесса.

На текущий момент Логика СЭД в Федеральном агентстве водных ресурсов автоматизирует выполнение более 150 внутренних организационно-распорядительных бизнес-процессов и обеспечивает обработку входящих и сходящих документов по системе межведомственного электронного документооборота. Каждый бизнес-процесс описан в нотации, близкой к BPMN в программном средстве IBM WorkFlow Architect, для использования в качестве критериев структурирования бизнес-процессы описаны с помощью метаданных. Метаданные содержат априорные правила о том, в каких подсистемах хранятся необходимые для выполнения конкретного бизнес-процесса данные. В результате, при заполнении форм пользователю предоставляются варианты заполнения на основе имеющихся данных.

Также приложение обеспечивает параметризированный поиск по всему слабоструктурированному пространству.

1. Предложена формализованная модель адаптивного структурирования контента информационного пространства на основе цикла Деминга. Предложенная модель иллюстрирует итеративный характер оценки соответствия полученных информационных ресурсов выполняемому бизнес-процессу. Принятие решения о соответствии полученных результатов модели бизнес-процесса выполняется пользователем на основе его опыта и знаний.

2. Рассмотрены типовые решения, используемые для построения многоуровневого приложения с использованием клиент-серверной архитектуры на основе объектно-ориентированной технологии программирования. Данные решения были заложены в основе разработанного программного обеспечения, что обеспечивает его гибкость, надежность и расширяемость.

3. Показано, что иерархия применяемого многоплатформенного программного обеспечения соответствует иерархии применяемых локальных технологических предметно-ориентированных мета-языков, а также соответствует и иерархии Хомского.

4. Приведен пример структурирования информационного пространства Федерального агентства водных ресурсов Российской Федерации на основе системы электронного документооборота Логика СЭД.

Метод применения информационно-поисковых систем для организации и управления учебной деятельностью

Четвертая глава посвящена вопросам практического применения предложенных методов и моделей для автоматизации деятельности Федерального агентства водных ресурсов Российской Федерации и кафедры Автоматизированных систем управления Уфимского Государственного Авиационного Технического Университета. Рассматриваются вопросы идентификации информационных ресурсов в структурированном и неструктурированном пространстве, а также совместно с BPMN-системой.

Также в главе выполнена численная и экспертная оценка эффективности от использования предложенных методов.

Автоматизированный метод применения информационно-поисковых систем в структурированном информационном пространстве

В соответствии с подходом, изложенным выше, при построении информационных моделей различных предметных областей следующий порядок идентификации структурированной части модели контента: строится формальная математическая атрибутивная модель; на основании данной модели определяется структура баз данных; на основе ключевых атрибутов производится уникальная идентификация записей. Для семантического определения модели формируется графо-аналитический предметно-ориентированный мета-язык со словарем данных и глоссарием.

Для решения задач построения интеллектуальных алгоритмов управления возникает необходимость представления указанного выше описания в кибернетическом аспекте, так как данные, приведенные выше модели, содержат кибернетические свойства в неявной форме. Для определения структуры системы как объекта управления (проектирования), необходимо произвести кластеризацию атрибутов на четыре класса: входные, выходные, управляющие атрибуты и атрибуты механизма исполнения в

Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели Бармин Александр Александрович

Существующие модели информационного поиска

Метод проектирования программно-аппаратной архитектуры информационного пространства на базе атрибутивных и семантических формальных моделей

Методика отбора контента информационных ресурсов, необходимого для исполнения бизнес-процессов

Пример структурирования информационного пространства с целью обеспечения идентифицируемости и прослеживаемости

Похожие диссертации на Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели