Содержание к диссертации
Введение
1. Проблемная область «Хранилища данных» 14
1.1. Цели построения хранилища данных 15
1.2. Базовые элементы хранилища данных 17
1.3. Проблемы построения хранилища данных 19
1.4. Описание метаданных на основе моделей 26
1.5. Постановка задачи создания инструмента управления метаданными в хранилищах данных 33
1.6. Выводы по главе 1 38
2. Теоретические аспекты эффективного управления метаданными хранилищах данных 39
2.1. Организация обмена метаданными 39
2.1.1. Децентрализованный доступ к метаданным 42
2.1.2. Подход OMG (общая шина метаданных) 44
2.1.3. Централизованный доступ к метаданным 46
2.1.4. Конфедеративный доступ к метаданным 47
2.1.5. Доказательство эффективности конфедеративного подхода 48
2.2. Классификация метаданных для хранилища данных 53
2.2.1. Классификация по фазе жизненного цикла проекта 54
2.2.2. Классификация по модели данных 55
2.2.3. Классификация по уровню абстракции 56
2.2.4. Классификация по этапу жизненного цикла данных 58
2.2.5. Классификация по пользователям 59
2.2.6. Классификация по степени общности 60
2.2.7. Сводная классификация метаданных для ХД 62
2.3. Теоретические основы технологии манипулирования метаданными 65
2.3.1. Спецификация Meta Object Framework (MOF) 67
2.3.2. Спецификация XML Metadata Interchange (XMI) 75
2.4. Выводы по главе 2 80
3. Технология создания и использования центрального Репозитория метаданных хранилища данных 83
3.1. Концептуальная архитектура Репозитория метаданных 83
3.1.1. Связь со спецификацией OMG Common Warehouse Metamodel 83
3.1.2. Обоснование использования многомерной модели данных для описания предметной области 86
3.1.3. Виды моделей метаданных Репозитория 87
3.1.4. Модель метаданных Репозитория как расширение спецификации CWM 88
3.2. Модель метаданных Репозитория 92
3.2.1. Используемые обозначения 92
3.2.2. Структура описания модели метаданных Репозитория 94
3.2.3. Отображение концептуального уровня метаданных на логический 95
3.3. Технология создания корпоративного хранилища данных с использованием Репозитория метаданных 106
3.3.1. Сценарий 1: «Создание хранилища данных» 109
3.3.2. Сценарий 2: «Модификация хранилища данных (решение новой прикладной задачи)» 111
3.3.3. Обмен метаданными с другими компонентами системы 113
3.4. Выводы по главе 3 116
4. Практическое применение и оценка эффективности 118
4.1. Практическое применение технологии управления метаданными в хранилищах данных 118
4.1.1. Описание Корпоративного каталога показателей 118
4.1.2. Использование Корпоративного каталога показателей на примере производственно-торговой компании 124
4.2. Оценка экономической эффективности проекта по созданию Репозитория 130
4.2.1. Оценка прибыли за счет внутренней экономии ресурсов на проектах по созданию ХД 130
4.2.2. Оценка прибыли за счет исполнения внешних проектов по созданию крупных хранилищ данных 132
4.2.3. Оценка финансовых показателей 134
4.3. Выводы по главе 4 136
Заключение 138
Словарь терминов и сокращений 142
Список литературы 145
- Постановка задачи создания инструмента управления метаданными в хранилищах данных
- Доказательство эффективности конфедеративного подхода
- Модель метаданных Репозитория как расширение спецификации CWM
- Использование Корпоративного каталога показателей на примере производственно-торговой компании
Введение к работе
Актуальность работы
Любая крупная компания рано или поздно сталкивается с задачей сбора информации для принятия управленческих решений. С одной стороны в компании существует множество информационных систем, в которых есть все необходимые для анализа детальные данные, с другой стороны эти системы не представляют собой единого источника согласованной информации, необходимого для принятия стратегических решений. Возникает потребность в организации цепочки доставки информации: от существующих оперативных систем и других источников данных (например, периодические издания или интернет ресурсы) до информационно-аналитических систем. Одним из вариантов построения цепочки доставки информации является создание корпоративного хранилища данных (информационно-аналитической системы масштаба предприятия).
Идею хранилищ данных предвосхищали в своих работах многие исследователи. Можно смело утверждать [77], что первой публикацией, посвященной именно хранилищам данных, была статья Девлина (Devlin) и Мэрфи (Murphy), вышедшая в 1988 году [10]. В 1992 году Уильям Г. Инмон (William Н. Inmon) написал монументальную монографию «Building the Data Warehouse» [20], в которой определил хранилище данных как «предметно-ориентированную, интегрированную, вариантную по времени, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений». Для анализа содержащейся в хранилище данных информации, как правило, применяется технология оперативного анализа данных (OLAP). В 1995 году создатель аналитического издания OlapReport Найгель Пендс (Nigel Pendse) резюмировал определение OLAP только пятью ключевыми словами: Быстрый Анализ Разделяемой Многомерной Информации - или, кратко - FASMI (в переводе с английского: Fast Analysis of Shared Multidimensional information) [38].
Современные хранилища данных объединяют большое количество баз данных, файловых систем, инструментов и приложений. Каждая из
объединяемых компонент обычно имеет свою собственную модель данных и структуры для хранения и передачи данных. Например, в качестве источников данных могут использоваться реляционные базы данных с разными логическими схемами данных, плоские файлы, XML или EDIFACT файлы и т.п. Аналогично, для построения витрин данных и для анализа данных разные инструменты используют различные модели: OLАР, объектные, объектно-реляционные, реляционные. Таким образом, построение хранилища данных является задачей системной интеграции. Все модели данных, используемые в инструментах и средствах, включенных в хранилище данных, взаимосвязаны. Эти модели так или иначе описывают понятия предметной области, для которой создается хранилище. Для поддержания семантической целостности необходимо отслеживать зависимости и соответствия между различными моделями данных различных компонент хранилища. Эту задачу необходимо решать не только на этапе проектирования хранилища, но и в процессе его эксплуатации при появлении новых источников информации или новых понятий предметной области. Сложность этой задачи возрастает при увеличении числа компонент хранилища данных (нелинейно).
Ключевым аспектом при решении такой задачи системной интеграции является то, что все это разнообразие средств и технологий собирается вместе для построения единой цепочки доставки информации в одной компании. Другими словами, все интегрируемые системы имеют дело с общим набором предметных областей - в них присутствует и используется одна и та же информация, разница существует лишь в форме представления этой информации или в выполняемых над ней операциях.
Проблема эффективной интеграции программных продуктов различных производителей на уровне данных может быть разрешена (или сведена к более простым задачам) путем интеграции метаданных между используемыми в хранилище данных системами. Для этого в хранилище данных должна входить специальная компонента, управляющая моделями данных остальных компонент, - Репозиторий. Репозиторий предназначен для управления метаданными, т.е. информацией о структуре, содержимом и взаимосвязями между компонентами хранилища данных. Репозиторий облегчает работу
проектировщикам и администраторам, поскольку является единым местом сбора информации о структуре и составе хранилища данных. Также он полезен бизнес пользователям, поскольку содержит информацию о предметной области, которая необходима при навигации по хранилищу данных и при построении аналитических запросов.
Используемые сегодня подходы и технологии создания информационно-аналитических систем масштаба предприятия (хранилища данных) обладают рядом недостатков:
Низкое качество информации и отсутствие возможности обзора у конечных пользователей и у ИТ специалистов информационного наполнения системы;
Высокая трудоемкость создания ХД при осуществлении интеграции на уровне метаданных традиционными способами;
Высокая трудоемкость по поддержанию ХД в актуальном состоянии (стоимость владения системой составляет до 40-100% в год от первоначальной стоимости разработки [7]);
Несовместимость на уровне метаданных программных продуктов различных производителей, используемых в качестве компонентов ХД, что делает практически нерентабельным построение ХД из лучших в своем классе продуктов различных производителей.
Цель исследования
Целью диссертационной работы является исследование и разработка теоретических способов эффективной интеграции программных продуктов различных производителей на уровне метаданных и создание на их основе технологии и инструментария для управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных), что позволит автоматизировать процессы построения и развития таких систем в крупных организациях. Основные задачи (направления исследований)
Для достижения указанной цели необходимо решить следующие задачи:
Разработать модель порождения и обмена метаданными внутри информационно-аналитической системы;
Построить классификацию метаданных, встречающихся в среде гетерогенных информационно-аналитических систем масштаба предприятия (хранилищ данных);
Выделить классы метаданных, подлежащих ведению в центральном Репозитории информационно-аналитической системы;
Построить модель метаданных центрального Репозитория, покрывающую потребности в метаданных всех компонентов информационно-аналитической системы;
Разработать механизмы конфигурационного управления и версионного контроля для модели метаданных центрального Репозитория информационно-аналитической системы;
Спроектировать и осуществить программную реализацию центрального Репозитория информационно-аналитической системы;
Разработать технологию создания информационно-аналитических систем масштаба предприятия (хранилищ данных) на основе управления метаданными и с использованием центрального Репозитория.
Научная ценность
Научная новизна работы заключается в следующих результатах:
Предложен новый «конфедеративный» подход к управлению и обмену метаданными в среде информационно-аналитической системы масштаба предприятия (хранилища данных);
Автором предложена многомерная классификация метаданных, встречающихся в среде информационно-аналитической системы масштаба предприятия (хранилища данных), состоящая из 6 классификаций;
Автором разработана модель общих метаданных информационно-аналитической системы масштаба предприятия (хранилища данных), включающая описания бизнес объектов, структур хранения данных и
гибкие описания связей между бизнес понятиями и структурами хранения данных; модель состоит из 119 классов. Практическая ценность
Практическая значимость работы заключается в следующих результатах:
Разработана технология построения гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных) на основе конфедеративного управления метаданными;
Модель метаданных для ХД разработана на основе и совместима с промышленными стандартами MOF, CWM, XMI, XML;
Осуществлена программная реализация центрального Репозитория хранилища данных на платформах J2EE и .NET.
Методы исследования
В работе использовались методы и аппараты теории множеств, реляционного моделирования данных, теории графов, системного анализа, объектно-ориентированного анализа и проектирования, календарного планирования, теории решения изобретательских задач. Апробация работы
Результаты работы применяются Отделением Системной Интеграции холдинга ЛАНИТ в процессе исполнения проектов по созданию гетерогенных информационно-аналитических систем масштаба предприятия. В частности, положения разработанной технологии управления метаданными применялись под руководством и при участии автора при разработке информационно-аналитической системы для одного из крупнейших банков России. По сформулированным в данной работе требованиям и технологическим решениям под руководством и при участии автора создан программный продукт «Корпоративный каталог показателей» («Enterprise Metadata Center»)1.
По теме диссертационной работы опубликовано 13 печатных работ и сделаны доклады на следующих семинарах и конференциях:
1 Свидетельство об официальной регистрации программы для ЭВМ №2004611855, 11 августа 2004г., выдано Федеральной службой по интеллектуальной собственности, патентам и товарным знакам.
Научная сессия МИФИ-2003, Москва, февраль 2003 г.1;
Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, апрель 2003 г.;
Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.;
XL VII научная конференция Московского Физико-Технического Института «Современные проблемы фундаментальных и прикладных наук», Москва, ЛАНИТ, ноябрь 2004 г.
Положения, выносимые на защиту
На защиту выносятся следующие положения:
Конфедеративный подход к обмену метаданными в среде информационно-аналитической системы масштаба предприятия;
Классификационная модель метаданных в среде информационно-аналитической системы масштаба предприятия;
Формальная модель метаданных центрального Репозитория информационно-аналитической системы масштаба предприятия;
Технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными.
Структура и объем работы
Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и пяти приложений. Работа состоит из 152 страниц, 49 рисунков и 26 таблиц. Краткое содержание работы
Во введении обосновывается актуальность темы диссертационной работы, формулируется цель, научная новизна и практическая ценность полученных результатов.
В первой главе рассмотрена типовая архитектура современной информационно-аналитической системы масштаба предприятия (хранилища
1 Работа «Технология построения репозитория метаданных для хранилищ данных» отмечена дипломом Научной сессии.
данных). Сформулированы существующие проблемы построения таких систем, связанные со сложностью интеграции компонентов хранилища данных в целостную систему. Обоснован выбор задачи интеграции программных продуктов на уровне метаданных в качестве основного направления решения этих проблем. В конце главы поставлены конкретные задачи исследований.
Во второй главе предложена «конфедеративная» модель обмена метаданными между компонентами хранилища данных и доказана ее эффективность по сравнению с традиционными подходами. Создана система классификаций метаданных, встречающихся в хранилищах данных. На ее основе выявлены классы метаданных, подлежащие централизованному ведению при конфедеративном управлении метаданными. Обоснован выбор современных стандартов в области проектирования информационных систем и описания метаданных, на основе которых осуществляется проектирование модели метаданных для ХД. Особое внимание уделено формальности проектируемой модели метаданных и ее совместимости со спецификацией OMG Common Warehouse Metamodel.
В третьей главе диссертации проводится проектирование концептуальной архитектуры Репозитория метаданных и осуществляется построение модели метаданных Репозитория. Модель метаданных строится в виде расширения метамодели Common Warehouse Metamodel. Полученная метамодель состоит из 119 классов, из которых 45 доработаны или введены автором. Сделанные расширения впервые позволили интегрировать программные продукты различных производителей на уровне метаданных на уровне детализации, позволяющем решить задачи по автоматической настройке (генерации кода) процедур загрузки данных, витрин данных Oracle OLAP Option и аналитических приложений в BusinessObjects.
Заключительная часть третьей главы посвящена технологии построения и эксплуатации хранилища данных на основе конфедеративного управления метаданными. Разработанная технология позволяет построить гетерогенную информационно-аналитическую систему масштаба предприятия, способную к эволюции при изменении бизнес требований с минимальным объемом ручных доработок (в некоторых случаях вообще без дополнительного
программирования). При этом показано, что использование центрального Репозитория и технологии создания хранилищ данных на основе конфедеративного управления метаданными может сократить срок создания такой системы на 40-50% по сравнению с традиционными методами.
В четвертой главе диссертационной работы приведено описание программного продукта «Корпоративный каталог показателей», являющегося реализацией центрального Репозитория метаданных, выполненной компанией ЛАНИТ. Описан программно-аппаратный комплекс, демонстрирующий возможности предложенной автором технологии создания корпоративных информационно-аналитических систем и Корпоративного каталога показателей на примере информационно-аналитической системы распределенной производственно-торговой компании.
Расчет экономической эффективности создания Корпоративного каталога показателей показал, что дисконтированный период окупаемости разработки составляет 31 месяц.
В приложении I приведено подробное описание компонентов и процессов, происходящих в хранилищах данных. Этот материал дополняет главу 1.
В приложении II приведено дополнительное описание классов метаданных, составляющих модель метаданных Репозитория. В разделах 11.1. и П.2. описаны классы, заимствованные из спецификации CWM, а разделы И.З. и II.4. содержат описания оригинальных классов, которые не вошли в главу 3. Раздел И.4. полностью является результатом работы автора и содержит подробное описание классов метаданных, используемых для описания способов реализации хранения элементов измерений в реляционных структурах данных: «Parent-Child», звезда, снежинка, граф, вырожденное измерение.
Приложение III содержит пример описания метаданных информационно-аналитической системы, выполненного в терминах метамодели Репозитория. Описание выполнено при реализации проекта по созданию информационно-аналитической системы для одного из крупнейших
банков России и покрывает предметную область «Сбор и анализ банковской статистики» в части описания формы банковской отчетности № 115.
Приложение IV содержит описание формата XML файла, используемого для передачи метаданных из Корпоративного каталога показателей в другие компоненты хранилища данных. Описание выполнено на языке XML Schema и является эквивалентным описанию модели метаданных, выполненному на языке UML в главе 3. Если с UML описанием удобно работать людям, то XML форма описания модели метаданных более удобна для программ - потребителей метаданных.
Приложение V содержит документы о внедрении результатов работы и регистрации разработанного программного обеспечения в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.
Постановка задачи создания инструмента управления метаданными в хранилищах данных
Целью данной работы является автоматизация процессов разработки и развития гетерогенных информационно-аналитических систем масштаба предприятия (корпоративных хранилищ данных). В качестве основного направления достижения этой глобальной цели выбрано решение задачи интеграции компонентов хранилища данных. Выше было показано, что эффективная интеграция компонент на уровне данных невозможна без их эффективной интеграции на уровне метаданных.
Работа посвящена разработке теоретических основ и базирующейся на них технологии ведения и обмена метаданными между компонентами гетерогенных информационно-аналитических систем масштаба предприятия, а также разработке инструмента для управления метаданными в таких системах. Создание инструмента для управления метаданными (Репозитория метаданных) позволит решить актуальные задачи: Интеграция компонент хранилища данных на уровне метаданных.
Организация обмена метаданными между различными компонентами системы позволит сократить трудозатраты на порождение метаданных в каждом из компонентов системы. Использование Репозитория метаданных в качестве единого источника метаданных также позволит решить проблему несогласованности метаданных в различных компонентах хранилища данных, которая сильно затрудняет создание крупных хранилищ данных ( 10 компонент, сотни объектов в предметной области).
Ведение единого формального описания всей системы. Ведение метаданных системы в одном месте (центральном Репозитории) позволит поддержать процесс порождения, согласования и утверждения метаданных, являющихся описанием бизнеса компании, создающей у себя хранилище данных. Хранилища данных являются дорогими проектами, окупаются не быстро и эксплуатируются длительное время (более 5 лет). За такой срок ни одна компания не стоит на месте и поэтому практически любое хранилище данных должно развиваться, чтобы удовлетворять изменяющимся требованиям конечных пользователей. Наличие формального описания системы в виде метаданных центрального Репозитория и механизма для распространения и использования этих метаданных среди других компонентов ХД позволит создавать хранилища данных, способные к эволюции при изменении бизнес-требований. Реализация механизмов и средств интеграции компонентов ХД на уровне метаданных позволит приблизить создаваемые хранилища данных к «идеалу» по четырем из пяти ранее сформулированных критериев: «Предоставление доступа к информации организации» за счет создания единого пространства терминов в организации в виде информационного содержимого центрального Репозитория и предоставления бизнес пользователям доступа к этому содержимому. «Обеспечение целостности информации организации» за счет использования формальной модели метаданных и единого места для ведения метаданных — центрального Репозитория. «Хранилище данных является гибким и настраиваемым источником информации» - за счет минимизации ручных операций по проектированию и модернизации хранилища вплоть до автоматической настройки некоторых компонентов ХД на решение новых задач через метаданные при изменении бизнес-процессов компании. «Хранилище данных является фундаментом для принятия решений в организации» - за счет использования единого набора описаний предметной области во всех компонентах системы - от оперативного склада данных до аналитических приложений. Термины, в которых будут формироваться все отчеты хранилища данных, будут одинаковы для всех подразделений организации. В результате проведенного анализа принятых способов описания и управления метаданными в ХД было выявлено, что готового решения рассматриваемой проблемы нет. Основной предпосылкой для начала проекта по созданию Репозитория метаданных, позволяющего интегрировать инструменты различных производителей в единую систему, явилась публикация спецификации CWM в 2000 году. Несмотря на то, что спецификация CWM предназначена для описания метаданных для хранилищ данных, она не решает всех описанных выше задач, возникающих при построении хранилища данных. В частности, спецификация CWM не предусматривает единого описания предметной области, а также не является достаточно подробной, чтобы обеспечить автоматическую настройку отдельных компонентов ХД на решаемую задачу. Для решения поставленной задачи целесообразно использовать существующие подходы, спецификации и стандарты, однако при этом необходимо рассмотреть несколько не решенных в их рамках задач, связанных с управлением метаданными. Обмен метаданными. Это ключевой вопрос при решении задачи управления метаданными. Возможно, неудачная проработка именно этого вопроса создателями спецификации CWM является причиной того, что эта спецификация не получила достаточного распространения, необходимого для решения задачи интеграции продуктов различных производителей на уровне метаданных. Необходимо провести анализ возможных способов организации обмена метаданными и, при необходимости, предложить схему обмена метаданными, учитывающую недостатки стандартных способов организации обмена метаданными. Теоретически эта задача решается в разделе «2.1 Организация обмена метаданными». Для того чтобы построить модель метаданных Репозитория необходимо сначала понять, какие виды метаданных подлежат ведению в центральном Репозитории. Для систематизации требований по объему ведущихся в Репозитории метаданных необходимо выявить и классифицировать все виды метаданных в ХД. Затем необходимо определить, какие виды метаданных подлежат централизованному ведению, а какие нет. Эта задача решается в разделе «2.2 Классификация метаданных для хранилища данных».
При разработке метамодели Репозитория следует использовать метамодель CWM, однако, необходимо учесть недостатки этой метамодели. В частности, следует ограничить разрабатываемую модель метаданных такой предметной областью применения, которая может быть описана многомерной моделью данных; следует снабдить разрабатываемую модель метаданных средствами для описания связи между объектами предметной области и структурами хранения данных. Построенная таким образом модель метаданных будет менее общей по сравнению с CWM, однако принятые ограничения позволят сделать ее достаточно подробной для построения функционирующего приложения.1 Формальное описание модели метаданных на языке UML, предложенном для описания метаданных в спецификации OMG Meta Object Facility [35], приводится в разделе «3.2 Модель метаданных Репозитория». Разработка технологии создания и развития ХД с использованием центрального Репозитория.
Доказательство эффективности конфедеративного подхода
При сравнении подходов были использованы следующие критерии: Согласованность метаданных показывает насколько «трудно» совершить ошибку при описании метаданных. В подходах, не предусматривающих единого места для ведения метаданных (в котором мог бы осуществляться контроль целостности и непротиворечивости вводимой информации), согласованность метаданных между описаниями, порождаемыми в различных компонентах хранилища данных, необходимо поддерживать вручную, что является трудоемким процессом и не гарантирует отсутствие ошибок. Централизованное ведение метаданных позволяет обеспечить высокую согласованность описаний, создаваемых в итоге в компонентах корпоративного хранилища данных.
Возможность выбора компонентов для построения ХД показывает, есть ли ограничения на выбор инструментов (и производителей инструментов) при создании корпоративного хранилища данных.
Автономность компонентов показывает, могут ли компоненты корпоративного хранилища данных работать автономно друг от друга и от центрального репозитория (при его наличии). Под автономностью здесь понимается отсутствие прямого сетевого соединения между компонентами.
Общедоступность метаданных показывает, какой объем метаданных доступен все компонентам корпоративного хранилища данных. Низкая общедоступность означает, что метаданные порождаются и потребляются внутри инструментов, а обмен осуществляется только частью всех метаданных. Конфедеративный подход имеет среднюю общедоступность метаданных. Это означает, что не все метаданные ведутся в центральном репозитории, а только те, которые являются общими хотя бы для двух потребителей метаданных.
Скорость доступа к метаданным. Считается, что при обращении к локальным репозиториям скорость работы с метаданными выше, чем при непосредственной работе с общим центральным репозиторием, который в этом случае является «узким местом» системы. Это связано, во-первых, с тем, что доступ к центральному репозиторию осуществляется по локальной вычислительной сети. Во-вторых, для разных программных систем, являющихся потребителями данных, эффективными с точки зрения времени доступа к метаданным могут оказаться различные структуры представления метаданных, а в центральном репозитории, как правило, используется только одна модель представления метаданных.
Сложность развития системы / количество необходимых конвертеров определяет насколько высоки трудозатраты по добавлению еще одного компонента-потребителя метаданных в систему обмена метаданными. Наихудшим с этой точки зрения является децентрализованный подход, при котором при добавлении (N+l)-oro компонента необходимо создать 2 N односторонних конвертеров метаданных.
Универсальность модели метаданных характеризует независимость механизма обмена метаданными от конкретных интегрируемых инструментов, между которыми организовывается обмен метаданными. Например, при централизованном доступе к данным центральный репозиторий разрабатывается «в комплекте» с будущими потребителями метаданных, поэтому при необходимости добавить в систему еще одного потребителя со своими требованиями к метаданным необходимо будет изменить модель метаданных центрального репозитория. Это означает низкую универсальность модели метаданных. Использование промышленного стандарта CWM для описания метаданных означает высокую универсальность модели метаданных.
Применимость в реальных условиях. Этот критерий введен для оценки реализуемости того или иного подхода в реальных условиях. Низкой оценкой по этому критерию оценивается модель, предлагаемая и поддерживаемая консорциумом OMG в спецификации CWM (общая шина метаданных), поскольку уже прошло более 3 лет с момента выпуска спецификации (2000 г.), а интеграция этим способом программных продуктов различных производителей все еще не стала реальностью.
В предыдущем разделе был предложен и обоснован конфедеративный подход к управлению метаданными в среде хранилища данных. В этом подходе для организации эффективного обмена метаданными необходимо выделить множество метаданных, являющихся общими хотя бы для двух компонентов хранилища данных и подлежащих ведению в центральном Репозиторий. Для определения типов метаданных, подлежащих централизованному ведению, необходимо сначала определить все виды метаданных, которые встречаются и используются в хранилище данных, и определить какие виды метаданных могут использоваться одновременно в нескольких компонентах хранилища данных.
Данный раздел посвящен построению системы классификаций метаданных, используемых в хранилищах данных. После выявления всех видов метаданных можно будет ответить на вопрос: «какие виды (классы) метаданных подлежат ведению в центральном Репозитории хранилища данных?».
Для удобства описания модели метаданных (или просто метамодели) и для удобства описания отличий метамодели Репозитория от метамодели OMG CWM необходимо классифицировать все метаданные по таким признакам, как принадлежность к тому или иному этапу жизненного цикла хранилища, описываемая модель данных, потребители метаданных и т.п.
В проекте по созданию хранилища данных существует два жизненных цикла, о которых может идти речь: жизненный цикл самого проекта (состоит из этапов и деятельностей, проводимых участниками проекта во время создания и эксплуатации хранилища данных) и жизненный цикл данных в хранилище (определяет состояния данных и выполняемые над ними операции в процессе эксплуатации ХД).
Модель метаданных Репозитория как расширение спецификации CWM
Первой и самой важной задачей, решаемой путем построения и использования инструмента для управления метаданными, является описание того, какая информация содержится (будет содержаться) в хранилище данных. Такое описание, по сути, является описанием предметных областей (бизнеса компании), охватываемых хранилищем данных (бизнес метаданные). При этом конечной целью построения всей цепочки доставки информации (хранилища данных) является предоставление пользователям доступа к данным. Конечные пользователи корпоративного хранилища данных обычно могут использовать несколько классов инструментов (программных систем), предназначенных для визуализации информации:
Системы оперативного анализа данных (OLAP). Предназначены для самостоятельного создания нерегламентной отчетности «продвинутыми» конечными пользователями или специалистами по анализу данных (технические специалисты, которые хорошо разбираются в прикладной области и задачах, решаемых конечными пользователями). Системы оперативного анализа данных эффективно работают только с данными, представленными в многомерной форме. Системы генерации отчетов. Предназначены для создания регламентной отчетности и поддерживают «жестко встроенные» типы отчетов. Формы, содержание, адресаты и сроки предоставления подобных отчетов определяются соответствующим регламентом, утвержденным на уровне руководства организации. Для работы таких систем данные могут быть представлены в многомерной форме.
Конечные пользователи будут «видеть» свою информацию через инструменты, внутри которых эта информация представлена в виде многомерной модели данных. Таким образом, для предоставления пользователям доступа к бизнес информации необходимо построить описания предметных областей ХД в многомерной форме.
Выбор многомерной модели данных для описания предметной области в Репозитории является удобным, но не очень сильным ограничением, поскольку в мире существует опыт удачного многомерного моделирования множества предметных областей: банковская деятельность, страхование, производственная деятельность, торговля, электронная коммерция и др. [1, 25]. Многомерное (многофакторное) представление данных является наиболее распространенным и широко используемым в области анализа данных, т.е. является стандартом де-факто.
В соответствии с описанным в выводах к главе 2 сценарием создания Репозитория метаднных, необходимо создать абстрактную платформонезависимую модель метаданных, а затем создать реализации этой модели в различных программных средах (Рисунок 26). При этом необходимо создать как минимум три платформозависимые модели: модель времени исполнения (на каком-либо языке программирования), модель долговременного хранения метаданных, например, в реляционной базе данных, и модель обмена метаданными в XML формате. При создании Репозитория для долговременного хранения метаданных используется Oracle Reposiotry, являющийся надстройкой над Oracle Database, создается две модели времени исполнения (на язаках Java и VB.NET) и реализуется сериализация метаданных в XML файле. В данной работе в дальнейшем будет подробно рассмотрена платформо-независимая модель метаданных, на основе которой осуществляется проектирование платформозависимых моделей (в том числе и средствами автоматической генерации программного кода). В спецификацию CWM вошли те технологии, которые достаточно широко распространены и для которых существует общее понимание большинства понятий. Остальные технологии в области хранилищ данных являются кандидатами на описание в качестве расширений спецификации CWM. Например, ER-модель удовлетворяет критерию на широкое распространение, но не удовлетворяет критерию по общепринятости используемых понятий. Существует множество реализаций ER-моделей в различных инструментах, но многие из них несовместимы между собой по используемым понятиям. Однако из-за высокой значимости в области программной инженерии ER-модель была описана в виде расширения стандарта CWM. Стандарт CWM разработан очень гибким, что означает его изменчивость по мере развития индустрии и его расширяемость по требованиям конкретных реализаций. Механизм изменения стандарта обеспечивается и поддерживается OMG. Для поддержки расширяемости в стандарте предусмотрено несколько механизмов с различным потенциалом для описания расширений: Путем наследования классов Стандарт CWM построен с использованием механизма наследования, поэтому использование этого же механизма является наиболее мощным способом расширить метамодель. При таком подходе у разработчиков есть возможность порождать от классов метаданных CWM собственные классы с произвольными атрибутами и ассоциациями. С использованием стереотипов и меток Минусом механизма наследования является то, что он слишком тяжеловесен для расширения метамодели в простых случаях, например, когда требуется добавить один или два атрибута к одному классу. В CWM предусмотрены специальные понятия стереотип (Stereotype) и метка (Tag) (заимствованы из UML), которые представляют собой легковесный механизм расширения, не затрагивающий набор используемых классов. С использованием расширений XMI Поскольку обмен метаданными в CWM осуществляется через XML файлы, создаваемые по правилам стандарта XMI, то есть возможность использовать внутренние механизмы расширения XMI при обмене метаданными. Расширения XMI поддерживают все описательные возможности стандарта XMI и поэтому не страдают выразительной ограниченностью как стереотипы и метки. Основным недостатком XMI расширений является то, что они не являются частью стандарта CWM. Хотя данные в виде XMI расширений могут успешно доставляться до потребителей, но, по сути, этот поток информации будет «подпольным» по отношению к CWM и нет никакой гарантии, что любой CWM инструмент (специально не запрограммированный) сможет распознать такую информацию. Разрабатываемая модель метаданных будет содержать дополнительные понятия для реализации универсального хранилища данных, частью которого является Репозиторий. С точки зрения стандарта CWM это стандартная ситуация, в которой необходимо оформить новые понятия и концепции в виде расширения CWM Extension (CWMX). При разработке метамодели Репозитория будет использован механизм расширения CWM с использованием наследования классов. Warehouse Process Warehouse Operation Transformation OLAP Data Mining Information Visualisation Business Nomenclature Object Relational Record Multi-Dimensional XML Business Information Data Types Expressions Keys and Indexes Software Deployment Type Mapping Core Behavioral Relationships Instance На рисунке (Рисунок 27) показана многоуровневая структура метамодели CWM. Одним из основных принципов построения CWM является то, что пакеты, находящиеся на определенном уровне зависят только от пакетов предыдущего уровня. Такая структура метамодели позволяет при построении конкретных реализаций использовать только те пакеты, которые нужны для решения поставленной задачи. Результатом является отсутствие пакетной зависимости между метамоделями на одном уровне или зависимости пакета нижнего уровня от пакетов верхнего уровня.
Использование Корпоративного каталога показателей на примере производственно-торговой компании
Разработан конфедеративный способ обмена метаданными между компонентами информационно-аналитической системы масштаба предприятия (хранилища данных). Применение этого способа позволяет минимизировать трудозатраты на ввод метаданных, сократить количество ошибок при порождении метаданных в различных компонентах системы и осуществлять интеграцию в единую систему программных продуктов различных производителей.
Создана классификация метаданных, встречающихся и используемых в ИАС масштаба предприятия. На основе этой классификации выявлено множество метаданных, подлежащее централизованному ведению при конфедеративном управлении метаданными. 3. Разработана формальная модель метаданных для ИАС масштаба предприятия. Модель метаданных разработана в соответствии со спецификацией OMG Meta Object Facility и является расширением спецификации OMG Common Warehouse Metamodel. Разработанная модель метаданных позволяет описывать одновременно как бизнес, так и технические аспекты функционирования хранилища данных, а также описывать и отслеживать взаимосвязи между всеми объектами метаданных. Основные расширения спецификации CWM выполнены в части описания способов представления многомерных данных в реляционных структурах данных. 4. Разработана технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными. Данная технология позволяет строить такие системы из программных продуктов различных производителей, изначально подготовленные к эволюции при изменении бизнес требований. 5. Под руководством и при участии автора осуществлена реализация двух программных продуктов, выполняющих роль центрального Репозитория ИАС масштаба предприятия: Технический Каталог Показателей (платформа реализации J2EE, WEB, СУБД Oracle) и Корпоративный Каталог Показателей / Enterprise Metadata Center (платформа реализации .NET, клиент-сервер, СУБД Oracle). 6. В среде Корпоративного каталога показателей выполнено описание метаданных для предметных областей «банковская деятельность», «анализ сбыта слабоалкогольной продукции» и «анализ деятельности транзитной телекоммуникационной компании». 7. Достаточность описательной мощности предложенной автором модели метаданных подтверждена успешной программной реализацией алгоритмов преобразования метаданных во внутренний формат метаданных аналитического инструмента BusinessObjects и многомерного сервера данных Oracle OLAP Option 9i. Научная новизна теоретических положений и результатов экспериментальных исследований
Для системного решения задач управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных) автором создана многомерная классификация классов метаданных, встречающихся и используемых в таких системах. Данная классификация позволяет наглядно и обозримо произвести выбор классов метаданных, подлежащих ведению и передаче между компонентами хранилища данных. Такой набор классов метаданных представляет собой спецификацию интерфейса обмена метаданными между компонентами системами.
Впервые предложена технология конфедеративного обмена метаданными между компонентами информационно-аналитической системы масштаба предприятия (хранилища данных). Автором предложена и разработана уникальная модель метаданных, позволяющая описывать связь между бизнес и техническими метаданными гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных).
Методы исследования, достоверность и обоснованность результатов диссертационной работы В работе использовались методы и аппараты теории множеств, реляционного моделирования данных, теории графов, системного анализа, объектно-ориентированного анализа и проектирования, календарного планирования, теории решения изобретательских задач.
Разработка теоретических положений и создание на их основе технологии и инструмента для управления метаданными стали возможными благодаря комплексному использованию современных стандартов и спецификаций в области описания метаданных и проектирования информационных систем: OMG Unified Modeling Language, OMG Model Driven Architecture, OMG Meta Object Facility, OMG Common Warehouse Metamodel, Rational Unified Process и др. Описание предложенной в данной работе модели метаданных выполнено в терминах Модели Meta Object Facility в виде расширения спецификации Common Warehouse Metamodel.
Разработанные теоретические положения и новые технические решения опробованы экспериментально. Процесс создания информационно-аналитической системы по предложенной технологии конфедеративного управления метаданными и с использованием Корпоративного Каталога Показателей был продемонстрирован на семинаре «Хранилища данных и аналитические системы - от концепции к решению», проведенном совместно компаниями ЛАНИТ и Oracle в декабре 2003 года [66].
Практическая ценность результатов диссертационной работы Разработанные в диссертационной работе конфедеративный подход к организации обмена метаданными и модель метаданных позволяют повысить эффективность процессов разработки и развития (эксплуатации) гетерогенных информационно-аналитических систем масштаба предприятия (хранилищ данных), а также повысить качество информационного обслуживания конечных пользователей таких систем за счет использования единого и формального описания предметной области. Использование предложенной автором технологии конфедеративного управления метаданными и Корпоративного каталога показателей на этапе проектирования и разработки системы позволяют снизить трудоемкость (и стоимость) создания небольших хранилищ данных на 40-50%. Использование предложенной технологии и инструментария (Корпоративный каталог показателей) при создании крупных хранилищ данных позволяет создавать системы, способные к эволюции при изменении бизнес требований (без проектирования и доработки со стороны разработчиков хранилища данных). При этом система может создаваться на основе программных продуктов различных производителей. Совмещение этих возможностей в одной системе является уникальным результатом для современной индустрии создания хранилищ данных. Апробация работы Основные положения и результаты работы докладывались и обсуждались на семинарах и конференциях: Научная сессия МИФИ-2003, Москва, февраль 2003 г.1; Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, апрель 2003 г.; Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.; XL VII научная коференция Московского Физико-Технического Инстиута, Москва, ЛАНИТ, ноябрь 2004 г. Реализация результатов работы и достигнутый эффект подтверждены соответствующим актом. Разработанный программный продукт зарегистрирован в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем «Корпоративный каталог показателей» (свидетельство об официальной регистрации программы для ЭВМ №2004611855, 11 августа 2004г.).