Содержание к диссертации
Введение
ГЛАВА 1. Проблемы представления и моделирования структурно-нестабильной информации при проектировании современных информационных систем 15
1.1. Особенности обработки информации в современных информационных системах. Неоднородность информационных ресурсов 15
1.1.1. Организация данных в современных информационных 'Ш системах , 17
1 1.2. Гибридные данные. Основные понятия - 18
1.1.3. Классификация структурно-нестабильных данных 19
1.2. Проблемы моделирования структурно-нестабильных данных 24
1.2.1. Современные подходы к представлению структурно-нестабильных данных 24
1.2.2. Классификация моделей представления данных 26
1.3. Современные методы и способы хранения структурно-нестабильных данных. Классификация методов. Достоинства и недостатки 32
1.3.1 - Файловый метод 32
1,3,2, Метод традиционных моделей представления данных 35
1.3.3. Метод специализированных систем 43
1.4. Новые подходы к моделированию структурно-нестабильных данных 44
Основные результаты 46
ГЛАВА 2. Универсальная модель представления гибридных данных сложной нестабильной структуры 47
Предварительные замечания 47
2-1- Структурная составляющая универсальной модели 47
2.1Л. Структурные элементы универсальной модели 47
2.1.1.1. Слабоструктурированные объекты. Экземпляры слабоструктурированных объектов 49
2.1.1.2. Связи 51
2.1.1.3. Атрибуты. Свойства атрибутов (метасвойства) 54
2.2. Формализованное описание слабоструктурированной схемы данных...58
2.3. Диаграмма слабоструктурированной схемы данных 60
2.4. Формализованное описание экземпляра слабоструктурированной базы данных 64
2.5. Диаграмма экземпляра ел або структурирован ной базы данных 66
2.6. Ограничения слабо структурированных баз данных. Классификация ограничений 72
2.6.1. Функциональные зависимости 73
2.6.2. Формализм расширенных функциональных зависимостей 75
2.6.3. Виды расширенных функциональных зависимостей 76
2.6.4. Ключи. Внешние ключи 77
2.6.5. Иерархические ключи. Абсолютные и относительные ключи 80
2.6.6. Ограничения общего вида 82
Основные результаты 83
ГЛАВА 3. Проектирование слабоструктурированных баз данных на основе универсальной модели представления гибридных данных 84
3.1. Принципы проектирования слабоструктурированных баз данных на основе универсальной модели 84
3.2. Аномалии, как следствие информационной избыточности на слабоструктурированной схеме данных 86
3.3. Понятие условно-нормальной формы (УНФ) для слабоструктурированной схемы данных 91
3.4. Реструктуризация слабоструктурированной схемы 94
3.4.1. Эвристические алгоритмы реструктуризации слабоструктурированной схемы данных 95
3.4.1.1. Исключение транзитивной расширенной функциональной зависимости (случай 1) 95
3.4.1.2. Исключение транзитивной расширенной функциональной зависимости (случай 2) 99
3.4.1.3. Исключение транзитивной расширенной функциональной зависимости (случай 3) 103
3.4.1.4. Исключение некогерентной расширенной функциональной зависимости 108
3.4.2. Итерационный алгоритм привидения схемы данных к условно- нормальной форме ПО
Основные результаты 112
ГЛАВА 4. Проектирование систем управления гибридными данными сложной нестабильной структуры 113
4.1. Общая методология проектирования систем управления гибридными данными на основе универсальной модели 113
4.2. Проектирование банка данных системы управления гибридными данными. Основные этапы 114
4.2.1. Проектирование физической модели базы данных метаин формации 116
4.2.2. Проектирование физической модели структурированной части гибридных данных 119
4.2.2.1. Формирование предварительных реляционных отношений. Рекурсивный алгоритм 119
4.2.2.2. Формирование таблиц базы данных 123
4.2.3. Проектирование физической модели слабоструктурированной части гибридных данных : 124
4.2.3.1. Формирование предварительных реляционных отношений... 124
4.2.3.2. Формирование таблиц базы данных 126
4.3. Архитектура систем управления гибридными данными. Основные компоненты системы 127
4.4. Проектирование слабо структурированной базы данных на примере справочников структурных показателей свободных цен на энергоремонт 131
4.4.1. Специфика структуры документов нормативно-справочной информации на энергоремонт 133
4.4.2. Проектирование логической модели справочника структурных показателей при помощи универсальной модели 136
4.4.3. Проектирование базы данных структурированной части справочника структурных показателей 141
4.5 Некоторые проектные решения 143
4.5.1. Выбор средств разработки 143
4.5.2. Технические и программные требования для создания и функционирования СУГД 145
4.6. Результаты внедрения 146
Основные результаты 148
Заключение 150
Основные обозначения и сокращения 153
Список использованной литературы
- Гибридные данные. Основные понятия
- Слабоструктурированные объекты. Экземпляры слабоструктурированных объектов
- Аномалии, как следствие информационной избыточности на слабоструктурированной схеме данных
- Проектирование физической модели базы данных метаин формации
Введение к работе
Актуальность проблемы. В настоящее время огромное количество гетерогенной информации становится доступным в электронном виде. Очень часто одна и та же информация в разных информационных источниках может быть представлена в виде данных разной структуры. Примером таких информационных ресурсов могут служить электронные библиотеки и коллекции данных- Назначение систем такого рода как раз и состоит в том, чтобы хранить разнородные информационные ресурсы, В добавление к этому данные, интегрируемые из распределенных разнородных источников, очень часто являются слабоструктурированными, т.е. лишенными четкой, фиксированной структуры.
Разработчикам при проектировании современных информационных систем (ИС) все чаще и чаще приходится сталкиваться с проблемой хранения и обработки одновременно структурированных и слабоструктурированных данных — гибридных данных, представленных с помощью различных форматов и моделей данных.
Структурированные данные - это данные, имеющие регулярную, фиксированную структуру, которая выявляется на этапе проектирования ИС, т.е, схема данных известна заранее и неизменна (статична). Задачи моделирования W структурированных данных опираются на принцип фиксированной схемы.
Слабоструктурированные данные — это нерегулярные, несогласованные данные с явно выраженными структурными алогизмами, которые не имеют постоянной, четко определенной структуры, т,е. их структура, тип и состав могут динамически изменяться. В слабоструктурированных данных можно выделить ту или иную структуру, однако эта структура заранее целиком или частично неизвестна или может потенциально измениться.
В последние несколько лет в научных исследованиях в области баз данных появилось новое направление, которому собственно и посвящена эта работа, - управление гибридными данными сложной нестабильной структуры.
На сегодняшний день пока отсутствует полная и систематическая теория управления слабоструктурированными данными»
Несмотря на достаточно большое количество разнообразных моделей представления структурированных и слабоструктурированных данных, разработанных к настоящему времени, существует достаточно большой класс задач, связанных с моделированием гибридных данных сложной нестабильной структуры, синтезирующих структурированные и слабоструктурированные данные. Решение этих задач современными инструментами моделирования недостаточно эффективно- Для традиционных моделей представления структурированных данных (реляционная, объектная, объектно-реляционная) разработаны способы эффективного физического хранения и методы эффективного доступа к структурированным данным. В свою очередь модели представления слабоструктурированных данных (графовые модели, деревья — OEM, XML) позволяют описать данные любой структуры, основное их назначение - нахождение общей схемы при интеграции данных из различных гетерогенных источников, извлечение схемы из слабоструктурированных данных. При этом такие модели не имеют возможности описать семантическую информацию о моделируемых объектах, следствием чего являются отсутствие механизмов эффективного хранения и эффективного доступа к данным и невозможность использования данных моделей в контексте управления базами данных с точки зрения теории баз данных.
Специфика разработки систем управления гибридными данными (СУГД) обусловливает необходимость создания новой модели представления гибридных данных сложной нестабильной структуры, которая позволила бы с единых концептуальных позиций изложить совместное представление данных жесткой и слабой структуры, выявить специфику семантической информации о моделируемых объектах с целью обеспечения эффективного (универсального) доступа к таким данным, эффективного хранения (с минимальной информационной избыточностью) и эффективной обработки (использования стандартных средств для обработки одновременно структурированных и слабоструктурированных данных).
Управление гибридными данными ставит проблемы их хранения, манипулирования и обработки. Отсутствие универсального механизма доступа к таким информационным источникам делает невозможным эффективное хранение, обработку и управление данными со сложной, а главное — нестабильной структурой. От того, как будет организована работа с такими данными, зависит эффективность хранения и извлечения информации в электронных библиотеках, корпоративных хранилищах, которые составляют основу большинства современных информационных систем.
Таким образом, необходимо универсальное, однородное представление (организация) гибридных данных с целью обеспечения эффективного универсального доступа к ним, хранения и дальнейшей автоматизированной программной обработки.
Наиболее полно теоретические вопросы моделирования структурно-нестабильных данных, а также концепции построения систем управления структурно-нестабильными данными изложены в научных работах Калиничен-ко JLA,, Бунемана П., Уидома Д., Абайтбоула С Винера Д., Линга Т., Мо И.5 Ульмана Д., Дэвидсона С. и других авторов.
Диссертационная работа посвящена вопросам разработки систем управления гибридными данными сложной нестабильной структуры на основе универсальной модели.
Целью работы являются разработка и исследование способов проектирования систем управления гибридными данными сложной нестабильной структуры на основе универсальной модели, позволяющей с единых концептуальных позиций изложить совместное представление данных с жёсткой и слабой структурой в однородном каноническом виде с целью обеспечения унифицированного доступа, эффективного безызбыточного хранения и автоматизированной программной обработки.
Для достижения поставленной цели решаются следующие задачи:
- формализация представления гибридных данных сложной нестабильной структуры;
- разработка формализованного описания слабоструктурированной схемы данных;
- разработка и исследование условно-нормальной формы для слабоструктурированной схемы данных;
разработка эвристических алгоритмов реструктуризации слабоструктурированной схемы данных;
создание методологии проектирования слабоструктурированных баз данных;
- создание технологии проектирования и разработка архитектуры систем управления гибридными данными на основе универсальной модели»
Методы исследования. Исследования осуществлялись на основе теории множеств, теории графов, теории баз данных, методов системного анализа, методов структурного и компонентно-ориентированного программирования.
Научная новизна
1. В диссертации разработана универсальная модель представления гиб- 4ц ридных данных сложной нестабильной структуры, позволяющая с единых концептуальных позиций изложить совместное представление данных с жёсткой и слабой структурой,
2. На основе положений теории множеств и теории баз данных предложены формализованные описания слабоструктурированной схемы данных и дерева экземпляра слабоструктурированной базы данных» позволяющие в рамках единой концепции описать представление гибридных данных.
3. Разработана новая характеристика структуры слабоструктурированной схемы данных - условно-нормальной форма.
4. Разработаны эвристические алгоритмы реструктуризации слабострук-турированной схемы данных с целью исключения функциональных зависимо стей, следствием которых является информационная избыточности возникающая при хранении данных.
5. Разработан рекурсивный алгоритм формирования физической модели слабоструктурированной базы данных на основе логической модели - слабоструктурированной схемы данных.
6. Предложена общая методология проектирования слабоструктуриро-ванных баз данных на основе универсальной модели представления гибридных данных сложной нестабильной структуры.
Практическая ценность. Результаты диссертационной работы являются основой для проектирования елабоструктурированных баз данных и систем управления гибридными данными. Предложенное в диссертации формализованное описание слабоструктурированной схемы данных, с единых концептуальных позиций излагающее совместное представление данных с жёсткой и слабой структурой, позволяет осуществить унификацию процесса проектирования современных баз данных за счет снижения вероятности принятия ошибочных проектных решений и упрощения процесса сопровождения информационных систем. Проектирование слабоструктурированных баз данных с использованием предложенной методологии позволяет создавать хранилища гибридных данных, характеризующиеся эффективным доступом, безызбыточным хранением и обеспечивающие эффективную обработку гибридных данных. Результаты исследований, проведенные в рамках диссертационной работы, были применены:
? при проектировании и внедрении программно-информационной системы поддержки ремонтно-восстановительных работ энергооборудования (АРМ-СМЕТА) на предприятии федерального масштаба ОАО «Рязанская ГРЭС»;
? при проектировании и внедрении программной системы управления нормативно-справочной информацией на ремонт энергооборудования на ОАО «Рязанская ГРЭС»; учебном процессе ГОУВПО «Рязанская государственная радиотехни-ческая академия» (для студентов специальностей 351400 «Прикладная информатика в экономике» и 220400 «Программное обеспечение вычислительной техники и автоматизированных систем» при изучении дисциплин, связанных с информационными технологиями).
Внедрение результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены на предприятии федерального масштаба ОАО «Рязанская ГРЭС», в учебный процесс ГОУВПО «Рязанская государственная радиотехническая академия». Л Разработанные программные продукты имеют свидетельства об офици альной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):
1)программная система поддержки ремонтно-восстановительных работ на энергогенерирующем предприятии «АРМ-СМЕТА», свидетельство №2003612625 от 02.12.2003; 2) программная система управления нормативно-справочной информацией на ремонт энергооборудования, свидетельство № 2003612626 от 02.12.2003; 3)база данных нормативно-справочной информации на ремонт энергооборудования, свидетельство № 2003620259 от 02.12.2003. Основные результаты выносимые на защиту
1. Универсальная модель представления гибридных данных сложной нестабильной структуры.
2. Формализованные описания слабо структурированно и схемы данных и дерева экземпляра слабоструктурированной базы данных.
3. Новая характеристика структуры слабоструктурированной схемы данных - условно-нормальная форма.
4. Эвристические алгоритмы реструктуризации слабоструктурированной ф схемы данных.
5. Рекурсивный алгоритм формирования физической модели слабоструктурированной базы данных.
Структура диссертационной работы. Диссертационная работа состоит из введения, четырех глав, заключения, основных обозначений и сокращений, списка использованной литературы и приложений. Основной текст содержит 169 страниц, 19 таблиц, 42 рисунка. Список литературы состоит из 128 наименований- Приложения выполнены на 15 страницах.
Во введении обоснована актуальность темы, определены цели и задачи исследований, представлены основные положения диссертационной работы, которые выносятся на защиту, кратко излагается содержание диссертации.
Первая глава посвящена обоснованию темы диссертации. В главе определяются основные цели и задачи разработки систем управления гибридными (структурно-нестабильными) данными, проблемы манипулирования и хранения структурно-нестабильной информации, приводятся основные направления исследований данной проблемы и обзор работ. Особое внимание уделено моделям представления данных (структурированным и слабоструктурированным) как инструментам моделирования, приводятся их классификация и анализ, на основе которого обоснована актуальность проблемы совместного представления структурированных и слабоструктурированных данных и разработки новой универсальной модели представления гибридных данных. Предложена классификация свойств схем слабоструктурированных данных. Осуществлена классификация современных методов и способов хранения структурно-нестабильных данных. Предложены новые подходы к моделированию гибридных данных.
Во второй главе предложены формализованные описания слабострукту-рировашюй схемы данных и дерева экземпляра слабоструктурированной базы данных на основе положений теории множеств и теории баз данных, позволяющие в рамках единой концепции описать представление гибридных данных. Определены основные типы ограничений, описанных в теории баз данных, применительно к универсальной модели представления данных - предложен формализм расширенных функциональных зависимостей как некоторое предположение относительно структуры схемы данных, позволяющий выявить расширенные функциональные зависимости на слабоструктурированной схеме данных. Введено понятие расширенной функциональной зависимости на слабоструктурированной схеме данных. Выделено и математически описано понятие иерархического ключа слабоструктурированного объекта.
В третьей главе сформулированы основные принципы, образующие методологию проектирования слабоструктурированных баз данных на основе универсальной модели представления гибридных данных сложной нестабильной структуры. Разработана концепция условно-нормальной формы как структурной характеристики схемы данных. Разработан набор эвристических алгоритмов исключения расширенных функциональных зависимостей путем реструктуризации слабоструктурированной схемы данных с целью приведения ее к условно-нормальной форме для минимизации информационной избыточности. Разработана алгоритмическая аппроксимация неформальной процедуры реструктуризации слабоструктурированной схемы данных (итерационный алгоритм).
В четвертой главе сформулирована общая методология проектирования систем управления гибридными данными на основе универсальной модели. Предложена архитектура и структурные составляющие системы управления гибридными данными. Предложена физическая модель хранилища гибридных данных на основе реляционной СУБД. Разработан рекурсивный алгоритм формирования предварительных реляционных отношений на основе слабоструктурированной схемы данных, представляющих структурированную часть гибридных данных. Спроектирована логическая модель справочника структурных показателей свободных цен на энергоремонт с помощью универсальной модели. С помощью эвристических алгоритмов реструктуризации схема данных справочников структурных показателей приведена к условно-нормальной форме заключении приводится обобщение основных результатов диссертационной работы.
Апробация работы. Основные результаты диссертационной работы представлены и обсуждены на 10-й международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», г. Рязань, Рязанская государственная радиотехническая академия, 2001 г.; 11-й международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», г. Рязань, Рязанская государственная радиотехническая академия, 2002 г.; 8-й всероссийской научно-технической конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании» НИТ-2003, г, Рязань, Рязанская государственная радиотехническая академия, 2003 г.; 12-й международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», г, Рязань, Рязанская государственная радиотехническая академия, 2004 г.; 9-й всероссийской научно-технической конференции студентов, молодых ученых и специалистов, г. Рязань, Рязанская государственная радиотехническая академия, 2004 г.; 30-й межвузовской научно-практической конференции «Информационно-телекоммуникационные технологии», г. Рязань, РВВКУС, 2004 г.; а также на научных семинарах кафедры ВПМ, РГРТА.
Публикации. По теме диссертации опубликовано 14 печатных работ, среди которых 2 статьи в центральной печати, 1 статья в межвузовском сборнике научных трудов, 8 тезисов к докладам на международных и всероссийской научно-технических конференциях и 3 свидетельства об официальной регистрации программ.
Гибридные данные. Основные понятия
Слабоструктурированные данные характеризуются следующими положениями [16, 56]: 1) не существует фиксированной (статичной) схемы данных; 2) нет четкого различия между собственно данными и их схемой; 3) отсутствует строгая типизация данных; 4) изменение схемы данных является рутинной операцией, сравнимой с внесением изменений в данные; 5) объем данных сравним со сложностью их схемы; 6) схема данных является описывающей, а не предписываюгцей, и может быть получена из самих данных; 7) возможны запросы к слабоструктурированной базе данных, полностью игнорирующие схему данных, так как полное знание схемы данных не является необходимым условием для построения запросов.
Осуществим классификацию свойств слабоструктурированных схем данных исходя из проблем, возникающих в ходе решения практических задач связанных с управлением слабоструктурированных данных. На рис. L3 приведена классификация различных характеристик схем структурно-нестабильных данных.
Рассмотрим основные категории характеристик ел&ооструктур$ровамыых степень структурированности схемы данных; елаоая; 1,4) метаструктуры; 2) скорость изменения схемы данных; 2.1) частая; 2.2) редкая; 3) известность схемы данных; ЗЛ) априорно известна; 3.2) апостерионо известна; 3.3) неявная схема данных; 4) нерегулярность данных; 4Л) отличия по типам; 4.2) отличия по структуре; 5) «размеры» схемы данных; 5Л) схема данных «соизмерима» с объемом хранимых данных; 5.2) схема данных «несоизмерима» мала по сравнению с объемом хранимых данных; Критерии классификации слабоструктурированных схем данных Степень структурированности схемы данных В ходе процесса моделирования прикладной области [70, 92, 98, 99, 124] на основе терминов, понятий и фактов, описывающих моделируемый срез реального мира, создается модель данных прикладной области (совокупность взаимосвязанных структур) с целью обеспечения дальнейшей автоматизированной программной обработки данных, представленных в виде разработанной модели. При этом часть информации моделируемого среза реального мира может быть представлена данными регулярной, согласованной, фиксированной структуры — оісєсткой структуры (статической структуры), которая становится известна на этапе проектирования информационной системы и неизменна в ходе ее дальнейшего использования.
Для решения задач хранения, манипулирования и обработки структурированных данных используют традиционные системы управления базами данных [31, 64, 92, 99, 118]- Частичная структурированность данных подразуме . вает, что часть данных имеет структуру, которая становиться известной на эта пе моделирования данных, но при этом часть данных может потенциально измениться со временем. Данные слабой структуры - данные с динамической структурой, т.е. структура которых изменяется или может потенциально измениться.
В отдельных случаях в ходе моделирования данных создаются вспомога тельные структуры — метаструктуры [11, 47, 77] как вспомогательный меха низм описания структур хранения данных. Метаструктуры позволяют описать и представить в унифицированном однородном виде структуру базы данных. А Скорость изменения структуры данных. В традиционных системах управления базами данных — реляционных, объектных, объектно-реляционных [92, 99, 118] схема данных базы данных рассматривается как статическая схема. При классическом подходе к проектированию ИС, изменения в модель дан-ных прикладной области после ее разработки, на практике не вносятся. Внесение изменений в фиксированную схему в большинстве случаев является очень сложной и трудоемкой операцией, которая в зависимости от вносимых структурных изменений может привести к повторному проектированию всей ИС, т.е. практически созданию новой ИС, ориентированной на обработку данных, представленных в виде «новой» модели.
В случае, когда структура данных изменяется часто разработчики программного обеспечения отказываются от использования традиционных подходов и стандартных систем управления данными, так как возможна ситуация при которой время, затрачиваемое на разработку ИС, соизмеримо с периодом изменения схемы данных. Скорость изменения структуры данных во многом определяет выбор модели представления данных как инструмента моделирования.
Известность схемы данных. Традиционные системы управления базами данных опираются на принцип фиксированной схемы данных - схемы данных, которая проектируется до внесения какой-либо информации в базу данных, т.е. схема данных известна априорно. При решении различных практических задач, связанных с обработкой слабоструктурированных данных, структура данных очень часто становится известной апостериорно — по мере поступления данных. Также существует ряд задач, при решении которых приходится сталкиваться с проблемой обработки данных, которые имеют некоторую, достаточно строгую структуру, но эта структура неявная, но выявляемая при помощи различных средств и методов, например, данные в формате XML [9, 10, 13, 14], текстовые документы или HTML документы [85] на Web-серверах. Обработка таких данных ставит проблему разработки специальных методов выявления неявной структуры. В этом направлении уже ведется ряд работ [8, 18, 60, 83].
Слабоструктурированные объекты. Экземпляры слабоструктурированных объектов
Понятие сущность, рассматриваемое в теории баз данных, представляет собой некоторый, вполне отличимый от других, абстрактный объект моделируемого среза реального мира. Каждая сущность характеризуется множеством своих атрибутов, являющихся свойствами сущности. Таким образом, сущность представляет собой схему (шаблон) на основе которой будут создаваться экземпляры сущности (конкретные представители) в базе данных.
Экземпляр сущности - это непосредственный, физически ощутимый, конкретный представитель сущности в базе данных, атрибуты которого имеют вполне определенные значения.
Экземпляры некоторой сущности в структурированной базе данных являются однородными, т.е. разделяют одно и тоже множество атрибутов статической, фиксированной, заранее определенной структуры.
Под слабоструктурированным объектом в универсальной модели представления гибридных данных сложной нестабильной структуры мы будем понимать абстрактный объект представляющий собой неоднородную схему, характеризующуюся нестабильной структурой (множество атрибутов экземпляра слабоструктурированного объекта не является фиксированным и регулярным) (рис. 2.2).
Каждый слабоструктурированный объект характеризуется именем и множеством своих атрибутов. В универсальной модели представления гибридных данных сложной нестабильной структуры множество атрибутов слабоструктурированного объекта - это те атрибуты, которые возможно будут иметь экземпляры данного слабо структурированного объекта, но при этом вовсе необязательно, чтобы экземпляры одного и того же объекта имели строго определенный, фиксированный набор атрибутов.
Слабо структури ровааный объект и его экземпляры д экземплярам слабоструктурир&йаішаго объекта будем понимать физически жжтеыьж , с определенными значениями атрибутов, конкретный представитель объекта в елабоетруктурировамиой базе данных (рис. 2.2),
Экземпляры елабоструктурмрованного объекта в алабаструкмурирояші-лой баж данных пе являются однородными На рис. 2.2 представгаены слабо и экземпляры объекта А, созданные ш его жх А. характеризуется множеством из двух вірибутов {af-. (обязательный, нефиксированный), а?: (необязательный, нефиксированный)}. Каждый из атрибутов а/ и а-2 обладает определенными свойствами - обязателькый/необязательный/нефмксированный. Детальное объяснение каждого из свойств в отдельности приводится далее в настоящей главо. Экземпляры слабоструктуриронаиного объекта А&/ и Л&2 не являются однородными, так шк не разделяют одинакового множества атрибутов.
Экземпляры одного и того же слабоструктурированного объекта могут иметь разные наборы атрибутов огли іакїщиеея друг сі друга как по тину, так и по составу, т.е, возможна такая ситуация» когда два экземпляра одного и тоже ел абоелгру итерированного объекта будут иметь совершенно разные наборе своих атрибутов. Такой подход к рассмотрению концепции экземпляра слабоструктурированного объекта отличается от традицмотюго (классического) понятая объект. Например, модель объектных бат данных ОВМСт [31] гает, что каждый объект характеризуется строго фиксированным, заранее опре-деленным на этапе проектирования ооъектной базы данных, набором атрибутов.
По своей природе слабоструктурированный объект является схемой (шаблоном), на основе которого будут создаваться его экземпляры в слабоструктурированной базе данных.
Если порядок следования экземпляров дочернего слабоструктурирован ного объекта для соответствующего экземпляра родительского слабострукту рированного объекта имеет значение, то такие экземпляры будем называть упо ф рядоченными.
Универсальная модель представления гибридных данных сложной нестабильной структуры позволяет явным образом указать необходимость упорядочивания экземпляров, т.е. упорядочивания уже на семантическом уровне, л отличие от реляционной модели, в которой порядок следования кортежей в реляционном отношении может быть любым и решение такой задачи, встречающейся на практике очень часто, переносится на прикладной уровень разрабатываемой ИС, усложняя ее программный код и тем самым обработку данных.
Одни слабоструктурированные объекты связаны с другими объектами посредством связей родитель-потомок. Каждая связь ассоциирует между собой только два слабоструктурированных объекта, один из которых является — роди тельским слабоструктурированным объектом, другой дочерним. Связь роди тель-потомок представляет собой связь типа «вложение» и определяет, что «область видимости» экземпляра дочернего слабоструктурированного объекта ограничена экземпляром соответствующего родительского объекта, т.е. экзем пляр дочернего слабоструктурированного объекта не может существовать сам по себе, без соответствующего экземпляра родительского объекта,
Аномалии, как следствие информационной избыточности на слабоструктурированной схеме данных
Нормальная форма - это совокупность некоторых заданных характеристик схемы данных, гарантирующая минимальную информационную избыточность при хранении данных. Целью процесса нормализации схемы данных является приведение схемы данных к нормальной форме [23, 92, 93].
Нормализация является одним из достаточно хорошо изученных вопросов в теории баз данных. Процесс нормализации реляционной схемы данных [92] необходим для устранения избыточности, возникающей при хранении данных, следствием которой являются различные рода аномалии обновления и удаления данных, путем усиления структуры схемы данных за счет декомпозиции реляционных отношений. В отличие от реляционной модели представления данных [23] для которой существует теория нормализации реляционных отношений, на сегодняшний день не существует систематической теории нормализации слабоструктурированных данных, положения которой, позволили бы определить — находится слабо структурированная схема данных в нормальной форме или нет. Эта тема является одной из основных проблем, подлежащих исследованию в области управления слабоструктурированными данными на сегодняшний день.
Нормальные формы (НФ\ определенные для реляционной схемы представления структурированных данных, такие как ЗНФ, 4НФ, 5НФ и НФБК (нормальная форма Бойса-Кодда) [92, 94] напрямую не применимы для нормализации слабоструктурированных данных, вследствие ряда важных причин:
слаб о структурированная модель данных представляет собой более сложную модель представления данных, чем реляционная модель;
слабоструктурированные данные должны соответствовать схеме данных, которая хранится вместе с самими данными. Таким образом, не существует постоянной структуры слабо структурированных данных. Структура слабоструктурированных данных является динамической, т.е. может меняться со временем;
в отличие от операции сравнения двух кортежей реляционного отношения, которая заключается сравнении значений атрибутов, операция сравнения слабоструктурированных данных представляет собой нетривиальную задачу. Необходимо определить операцию сравнения слабоструктурированных данных, поскольку одна и та же информация на слабоструктурированной модели представления данных может быть представлена при помощи данных совершенно разной структуры;
понятия функциональной и многозначной зависимостей, используемых в традиционных подходах при проектировании схемы данных, напрямую неприменимы для слабоструктурированных данных.
Информационная избыточность является следствием наличия расширенных функциональных зависимостей на слабоструктурированной схеме данных. Выделим расширенные ФЗ, которые не приводят к появлению информационной избыточности на схеме данных.
Определение 1. Множество В будем называть множеством базовых функциональных зависимостей, элементами которого являются расширенные функциональные зависимости на слабо структурированной схеме данных S = OiA,F,L,M,P,R,r не приводящие к появлению информационной избыточности при хранении данных и обозначаемое B{S). Элементами множества являются следующие расширенные функциональные зависимости: 1) пусть о - слабоструктурированный объект на схеме данных S = 0,A,F,L,M,P,R,r , оєО, К\о\ - абсолютный иерархический ключ объекта о; 1.1) расширенные функциональные зависимости вида [o]= F, если Y с К\о\ присутствуют в В; 1.2) расширенные функциональные зависимости вида Л [о]= У, если УПЛцо] —О присутствуют в В;
2) пусть Ос - является дочерним слабо структурированным объектом по отношению к объекту 0Р и SP - слабоструктурированная схема данных с корневой вершиной 0Р, Sc - слабо структурированная схема данных с корневой вершиной Ос, К[Ор] - абсолютный иерархический ключ объекта ОР. Тогда при добавлении атрибутов множества К\рр ]П к\Ос ] к атрибутам слабо структурированного объекта Ос B{Sc)czB(SP);
3) пусть Ор и Ос слабоструктурированные объекты на схеме данных 5", причем Ос еР{0Р), К[Ор] - абсолютный иерархический ключ объекта Ор. Тогда расширенная функциональная зависимость вида ЛГ[Ор]= Ос также находится во множестве В.
В связи с приведенными отличиями нормальной формы структурированных данных от слабоструктурированных данных сформулируем определение условно-нормальной формы (УНФ) слабоструктурированной схемы данных [115] - как характеристики структуры слабоструктурированной схемы данных.
Проектирование физической модели базы данных метаин формации
Менеджер ресурсов
Менеджер ресурсов представляет собой встроенную систему управления памятью — систему кэширования объектов. Менеджер ресурсов позволяет сократить время повторного извлечения и компоновки объектов из базы данных за счет их предварительного размещения в оперативной памяти ЭВМ. Менеджер ресурсов отвечает за выделение дополнительной оперативной памяти необходимой для хранения объектов, а также реализует временное хранилище объектов с целью повышения эффективности работы с базой данных за счет сокращения времени доступа к объектам.
Компоновщик объектов
Компоновщик объектов представляет собой подсистему компоновки и декомпозиции объектов во внутреннее представление (внутренние структуры) системы управления гибридными данными. На стороне прикладной информационной системы работа осуществляется только со скомпонованными объектами. Система управления гибридными данными хранит объекты в «разобранном» виде, В зависимости от того какими свойствами обладают атрибуты слабоструктурированных объектов будет выбран определенный план физического хранения атрибутов, т.е, хранение экземпляра слабоструктурированного объекта осуществляется по частям — с использованием того или иного способа физического представления. Назначение компоновщика объектов как раз и состоит в том чтобы «собрать» и «разобрать» экземпляр слабоструктурированного объекта во внутренний формат.
Менеджер ввода/вывода
Менеджер ввода/вывода представляет собой подсистему обмена данными с реляционной СУБД. Этот компонент напрямую связан с программным интерфейсом РСУБД и использует специфичные для выбранной СУБД методы обмена данными. Назначение менеджера ввода/вывода состоит в управлении размещением информации в реляционной базе данных.
Менеджер внешних источников данных, адаптеры Менеджер внешних источников данных предназначен для извлечения слабо структурированных данных из различных внешних источников информа ции- Полученные данные объединяются с хранимыми данными. Извлечение данных осуществляется в одностороннем порядке. Для каждого внешнего ис точника данных реализован соответствующий адаптер; адаптер XML данных, адаптер реляционных данных, адаптер текстовых данных- Адаптер предназна чен для установления подключения к источнику данных, осуществления вы борки данных и предоставления их в универсальном формате. А Генератор XML документов
Генератор XML документов представляет собой систему формирования выходных данных в формате XML. Формат обмена данными XML между распределенными ИС уже давно является стандартом и представляет собой систему обозначений для описания структурированных и слабоструктурированных данных. Генератор XML документов формирует структуру документов на основе слабоструктурированной схемы данных.
Проектирование слабоструктурированной базы данных на примере справочников структурных показателей свободных цен па энергоремонт
В качестве практического применения разработанной в диссертационной работе универсальной модели была создана автоматизированная система поддержки ремонтно-восстановительных работ на энергогенерирующем предприятии «АРМ-СМЕТА» [105, 108, 109, 111], предназначенная для планирования, контроля и учета ремонтно-восстановительных работ и формирования сметной документации (смет, актов приемки выполненных работ). Функциональные возможности программной системы: планирование, контроль и учет ремонтно-восстановительных работ; составление, проверка и калькуляция смет на ремонтные работы на ос нове нормативных данных; ж ведение сборников коэффициентов пересчета сметной стоимости в текущий уровень цен; ведение базы нормативно-справочной информации (справочников структурных показателей свободных цен на энергоремонт); создание собственной нормативной базы, дополнение и корректировка существующей; формирование и печать, подготовленных программной системой выходных документов, сметной документации (смет, актов); экспорт сметной документации в пакет Microsoft Excel; профессиональная сетевая версия программной системы позволяет осуществлять одновременный доступ и работу над сметой нескольких специалистов сметного отдела.
Одним из ключевых компонентов системы «АРМ-СМЕТА» является система управления гибридными данными [104, 110, 111], Основное ее назначение - ведение базы нормативно-справочной информации на ремонт энергогенери-рующего оборудования.