Введение к работе
Актуальность работы
Любая крупная компания рано или поздно сталкивается с задачей сбора
информации для принятия управленческих решений. С одной стороны в
компании существует множество информационных систем, в которых есть все
необходимые для анализа детальные данные, с другой стороны эти системы не
представляют собой единого источника согласованной информации,
необходимого для принятия стратегических решений. Возникает потребность в
организации цепочки доставки информации: от существующих оперативных
систем и других источников данных (например, периодические издания или
интернет ресурсы) до информационно-аналитических систем. Результатом
организации такой цепочки доставки информации является создание
информационно-аналитической системы масштаба предприятия
(корпоративного хранилища данных, ХД).
Современные информационно-аналитические системы (ИАС) объединяют большое количество баз данных, файловых систем, инструментов и приложений. Каждая из объединяемых компонент обычно имеет свою собственную модель данных и структуры для хранения и передачи данных. Например, в качестве источников данных могут использоваться реляционные базы данных с разными логическими схемами данных, плоские файлы, XML или EDIFACT файлы и т.п. Аналогично, для построения витрин данных и для анализа данных разные инструменты используют различные модели: OLAP, объектные, объектно-реляционные, реляционные. Все модели данных, используемые в инструментах и средствах, включенных в хранилище данных, взаимосвязаны. Эти модели так или иначе описывают понятия предметной области, для которой создается хранилище. Для поддержания семантической целостности необходимо отслеживать зависимости и соответствия между различными моделями данных различных компонент системы. Эту задачу необходимо решать не только на этапе проектирования хранилища, но и в процессе его эксплуатации при появлении новых источников информации или новых понятий предметной области. Сложность этой задачи нелинейно возрастает при увеличении числа компонент ИАС.
Ключевым аспектом при решении такой задачи системной интеграции разнородных компонентов ИАС является то, что все это разнообразие средств и технологий собирается вместе для построения единой цепочки доставки информации в одной компании. Другими словами, все интегрируемые системы имеют дело с общим набором предметных областей - в них присутствует и используется одна и та же информация, разница существует лишь в форме представления этой информации или в выполняемых над ней операциях.
Используемые сегодня подходы и технологии создания ИАС масштаба предприятия (хранилищ данных) обладают рядом недостатков:
Низкое качество информации и отсутствие возможности обзора у конечных пользователей и у ИТ специалистов информационного наполнения системы;
Высокая трудоемкость создания ХД при осуществлении интеграции на уровне метаданных традиционными способами;
Высокая трудоемкость по поддержанию ХД в актуальном состоянии (стоимость владения системой составляет до 40-100% в год от первоначальной стоимости разработки);
Несовместимость на уровне метаданных программных продуктов различных производителей, используемых в качестве компонентов ХД, что делает практически нерентабельным построение ХД из лучших в своем классе продуктов различных производителей;
Отсутствие единого промышленного стандарта метаданных, обладающего достаточной степенью подробности для решения практических задач по созданию информационно-аналитических систем.
Проблема эффективной интеграции программных продуктов различных производителей на уровне данных может быть разрешена (или сведена к более простым задачам) путем интеграции метаданных между используемыми в хранилище данных системами. Для этого в хранилище данных должна входить специальная компонента, управляющая моделями данных остальных компонент, - Репозиторий. Репозиторий предназначен для управления метаданными, т.е. информацией о структуре, содержимом и взаимосвязями между компонентами хранилища данных. Репозиторий облегчает работу проектировщикам и администраторам, поскольку является единым местом сбора информации о структуре и составе хранилища данных. Также он необходим бизнес пользователям, поскольку содержит информацию о предметной области, которая необходима при навигации по хранилищу данных и при построении аналитических запросов.
Цель исследования
Целью диссертационной работы является исследование и разработка теоретических способов эффективной интеграции программных продуктов различных производителей на уровне метаданных и создание на их основе технологии и инструментария для управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных), что позволит автоматизировать процессы построения и развития таких систем в крупных организациях.
В соответствии с поставленной целью определены задачи диссертации:
Разработать модель порождения и обмена метаданными внутри гетерогенной информационно-аналитической системы масштаба предприятия;
Построить классификацию метаданных, встречающихся в среде гетерогенных информационно-аналитических систем масштаба предприятия;
Выделить классы метаданных, подлежащих ведению в центральном Репозитории метаданных информационно-аналитической системы;
Построить формальную модель метаданных центрального Репозитория, покрывающую потребности в метаданных всех компонентов информационно-аналитической системы;
Спроектировать и осуществить программную реализацию центрального Репозитория метаданных информационно-аналитической системы;
Разработать технологию создания информационно-аналитических систем масштаба предприятия на основе управления метаданными и с использованием центрального Репозитория метаданных.
Научная ценность
Научная новизна работы заключается в том, что в ней впервые:
предложен «конфедеративный» подход к управлению и обмену метаданными в среде гетерогенной информационно-аналитической системы масштаба предприятия;
разработана многомерная классификация метаданных, встречающихся в ИАС, состоящая из 6 классификаций;
разработана модель общих метаданных информационно-аналитической системы масштаба предприятия, включающая описания бизнес объектов, структур хранения данных и гибкие описания связей между бизнес понятиями и структурами хранения данных; модель состоит из 119 классов.
Практическая ценность
Практическая значимость работы заключается в следующих результатах:
разработана технология построения гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных) на основе конфедеративного управления метаданными;
модель метаданных для хранилища данных разработана на основе и совместима с промышленными стандартами MOF, CWM, XMI, XML;
осуществлена программная реализация центрального Репозитория метаданных информационно-аналитической системы на платформах J2EE и.NET.
Положения, выносимые на защиту
Для публичной защиты выдвигаются следующие результаты положения
Конфедеративный подход к обмену метаданными в среде информационно-аналитической системы масштаба предприятия,
Классификационная модель метаданных в среде информационно-аналитической системы масштаба предприятия,
Формальная модель метаданных центрального Репозитория информационно-аналитической системы масштаба предприятия,
Технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными
Методы исследования
Достоверность полученных результатов обеспечивается использованием
методов и аппаратов теории множеств, реляционного моделирования данных,
теории графов, системного анализа, объектно-ориентированного анализа и
проектирования, календарного планирования, теории решения
изобретательских задач, а также результатами практической реализации
Разработка теоретических положений и создание на их основе технологии и инструмента для управления метаданными стали возможными благодаря комплексному использованию современных стандартов и спецификаций в области описания метаданных и проектирования информационных систем OMG Unified Modeling Language, OMG Model Driven Architecture, OMG Meta Object Facility, OMG Common Warehouse Metamodel, Rational Unified Process и др Разработанная модель метаданных описана на языке Модели MOF и является расширением спецификации Common Warehouse Metamodel
Апробация работы
Результаты работы применяются Отделением Системной Интеграции холдинга ЛАНИТ в процессе исполнения проектов по созданию гетерогенных информационно-аналитических систем масштаба предприятия, что подтверждено актом о внедрении В частности, положения разработанной технологии управления метаданными применялись под руководством и при участии автора при разработке информационно-аналитической системы для одного из крупнейших банков России По сформулированным в данной работе требованиям и технологическим решениям под руководством и при участии автора создан программный продукт «Корпоративный каталог показателей» («Enterprise Metadata Center»)'
Свидетельство об официальной регистрации программы для ЭВМ №2004611855 11 августа 2004г, выдано Федеральной службой по Интел тектуальной собственности, патентам и товарным знакам
Основные результаты работы докладывались, одобрены и опубликованы в материалах следующих научных конференций и семинаров:
Научная сессия МИФИ-2003, Москва, МИФИ, февраль 2003 г.2;
Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, РУДН, апрель 2003 г.;
Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.;
XLVII научная конференция Московского Физико-Технического Института «Современные проблемы фундаментальных и прикладных наук», Москва, ЛАНИТ, ноябрь 2004 г.
Публикации
Основные научные и практические результаты диссертации опубликованы в 13 печатных работах.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы из 94 наименований, и пяти приложений. Работа состоит из 152 страниц текста, 49 рисунков и 26 таблиц.
Работа «Технология построения репозитория метаданных для хранилищ данных» отмечена дипломом Научной сессии