Содержание к диссертации
Введение
Глава 1 Классификация информационных систем, методов моделирования и постановка задач исследований ., 11
1.1 Обобщенная схема информационных систем... 11
1.2 Классификация информационных систем 12
1.3 Анализ и классификация моделей, методов и принципов, используемых при создании информационных систем 15
1.4 Исследование методов представления категорированных отношений 24
1.5 Выводы и постановка задач исследований 28
Глава 2. Метод моделирования информационных ресурсов системы , 31
2.1 Введение 31
2.2 Принципы метода моделирования информационньгх ресурсов системы 33
2.3 Содержание, элементы и правила метода моделирования инфор-ML мационных ресурсов системы 34
2.4 Программа инструментальной поддержки метода моделирования информационных ресурсов системы 49
2.5 Основные результаты 51
Глава 3. Аналитический метод оценки объемов памяти, необходимых для реализации категорированных отношений в реляционных базах данных 53
3.1 Введение и постановка задачи 53
3.2 Аналитический метод оценки различий в требуемых ^ ресурсах памяти БД вариантов представления категорированных отношений. Модель базы категорированных данных 56
3.3 Имитационная программа для уточнения аналитических
выражений метода оценки требуемых ресурсов памяти 63
3.4 Основные результаты 69
Глава 4. Аналитико-имитационный метод оценки временных характеристик вариантов реализации категорированных отношений в реляционных базах данных 71
4.1 Введение и постановка задачи 71
4.2 Процедуры доступа к информации в известных вариантах представления категорированных отношений 73
4.3 Имитационная программа метода 77
4.4 Анализ экспериментальных данных 80
4.5 Аналитические модели метода 83
4.6 Анализ данных, полученных с помощью аналитических моделей 95
4.7 Основные результаты 101
Глава 5. Инженерная методика выбора вариантов представле ния категорированных отношений в реляционных базах данных 102
5.1 Введение и постановка задачи 102
5.2 Синтез критериев оценки вариантов реализации категорированных отношений 105
5.3 Критериальная оценка вариантов представления категорированных данных 109
5.4 Прототип многомерной базы данных и OLAP-среды для проведения анализа и выбора вариантов представления категорированных отношений 113
5.5 Процедуры и шаги методики 115
5.6 Функциональная модель методики 127
5.7 Основные результаты 134
Заключение 135
Библиографический список
- Анализ и классификация моделей, методов и принципов, используемых при создании информационных систем
- Программа инструментальной поддержки метода моделирования информационных ресурсов системы
- Аналитический метод оценки различий в требуемых ^ ресурсах памяти БД вариантов представления категорированных отношений. Модель базы категорированных данных
- Процедуры доступа к информации в известных вариантах представления категорированных отношений
Введение к работе
Актуальность работы. Информационно-телекоммуникационные технологии (ИКТ-технологии) интенсивно продвигаются во все сферы человеческой деятельности.
Вопросам, связанным с внедрением ИКТ на государственном уровне в Российской Федерации придается особое значение [64], принята Федеральная целевая программа «Электронная Россия» [57].
Тенденции развития ИКТ, диктуемые потребностями общества в информационном обеспечении всех сторон человеческой деятельности, влекут за собой непрерывный рост сложности программ и баз данных. Масштабы таких функционально законченных прикладных программных комплексов достигают сотен тысяч и миллионов строк текста, а объемы баз данных - от сотен мегабайт до десятков гигабайт и выше. Трудоемкость создания таких программных комплексов и баз данных измеряется сотнями и тысячами человеко-лет, а длительность жизненного цикла может составлять десяток и более лет [17].
Важнейшим направлением повышения эффективности промышленного сектора экономики России, повышения качества и конкурентоспособности на внешнем рынке наукоемкой продукции с использованием современных высоких технологий является применение CALS -технологий, реализуемых в ходе всего жизненного цикла продукции, услуг и компонентов [49]. Стратегией CALS-технологий является создание единого информационного пространства для всех участников жизненного цикла наукоемкой продукции. В этих условиях возрастает роль территориально распределенных информационных систем.
С другой стороны, динамика общественных процессов требует значительного ускорения разработки прикладных программ и баз данных, снижения трудоемкости и обеспечения возможности их совершенствования в процессе эксплуатации, наращивания или изменения функций при
изменении требований к ним со стороны пользователей. Как никогда ранее в инженерной практике при создании информационных систем широко используются модельный подход и средства автоматизации проектирования. Поэтому совершенствование методов моделирования и оптимизации представления данных в информационных системах, повышение их гибкости для удовлетворения непрерывно растущих требований составляет одно из актуальных направлений современной информатики.
Цель работы - сокращение сроков проектирования, уменьшение материальных затрат и повышение качества функционирования территориально распределенных информационных систем за счет рациональной организации категорированных данных в реляционных базах, достигаемой применением новых метода моделирования информационных ресурсов системы, аналитических и аналитико-имитационных моделей категорированных данных, позволяющих выбрать наиболее оптимальные варианты представления категорированных данных.
Для реализации этой цели должно быть разработано математическое и программное обеспечение решения следующих проблем:
информационного моделирования ресурсов территориально распределенных автоматизированных систем;
оценки необходимых объемов памяти для хранения категорированных информационных ресурсов;
оценки производительности вариантов хранения категорированных информационных ресурсов;
создания инженерной методики выбора вариантов реализации категорированных информационных ресурсов в реляционных базах данных.
Задачи исследований. Для достижения целей диссертационной работы необходимо решение следующих задач:
1. Разработка метода моделирования информационных ресурсов распределенных автоматизированных систем.
2. Разработка программы для моделирования информационных ре-
^ сурсов распределенной автоматизированной системы
Исследование представления категорированных данных в реляционных базах и разработка аналитических моделей категорированных данных.
Исследование зависимостей ресурсов памяти, требуемых для категорированных данных и разработка аналитического метода оценки ресурсов памяти, требуемых для хранения категорированных данных.
Разработка имитационной программы для проверки достоверности аналитических моделей и уточнения параметров аналитической моде-ли категорированных данных.
Исследование зависимостей времени доступа к категорированным данным в реляционных базах и разработка аналитических моделей времени доступа к категорированным данным.
1. Разработка имитационных программ для определения параметров аналитической модели времени доступа к категорированным данным.
8. Разработка критериев интегральной оценки эффективности фраг
ментов баз данных с категорированными данными для инженерной мето-
Ф
у дики выбора вариантов представления категорированных данных.
9. Разработка инженерной методики рационального выбора вариан
тов представления категорированных данных.
Методы исследования. Основные теоретические положения, выводы и экспериментальные результаты диссертационной работы, получены с использованием теории графовых моделей, теории аналитических функций, теории вероятностей, теории имитационного моделирования.
Публикации. По итогам исследований опубликовано 12 работ, в том числе 7 тезисов докладов на всероссийских и международных научно-технических конференций.
В Российском агентстве по патентам и товарным знакам зарегистрирована программа для моделирования информационных ресурсов автоматизированных систем.
Личное участие автора в проведении исследований. В работах, выполненных по теме диссертации, автору полностью принадлежат постановка целей и задач, разработка основных теоретических положений, методов и программ для исследований представления категорированных данных в реляционных базах данных.
Апробация работы. Результаты настоящей работы докладывались на семи научно-технических конференциях, в том числе на всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в радиоэлектронике", г. Рязань, 1998 г., международной молодежной научной конференции "XXV Гагаринские чтения", г. Москва, 1999 г., 4-ой всероссийской научно-технической конференции студентов, молодых ученых и специалистов, г. Рязань, 1999г., 3-ей Международной научно-технической конференции "Космонавтика. Радиоэлектроника. Геоинформатика.", г. Рязань, 2000г., межвузовской научно-технической конференции студентов, молодых ученых и специалистов «Новые технологии в учебном процессе и производстве», г. Рязань, 2003 г.
Научная новизна. В диссертации разработаны новые метод моделирования информационных ресурсов системы и аналитико-имитационные методы оценки необходимых ресурсов памяти для реализации фрагментов баз данных с категорированньши отношениями и их временных характеристик. Получены аналитические модели требуемых ресурсов памяти для фрагментов баз данных, аналитические модели времени доступа к фрагментам баз данных, критерии интегральной оценки фрагментов и зависимости требуемых ресурсов, времени доступа от различных параметров категорированных данных и вариантов организации
категорированных отношений, позволяющие существенно сократить сроки проектирования и выбрать рациональные варианты организации баз данных.
При проведении исследований в рамках диссертационной работы, получены новые научные результаты.
Разработан новый метод моделирования информационных ресурсов системы.
Разработаны аналитические модели требуемых ресурсов памяти для фрагментов баз данных с различными вариантами организации категорированных данных.
Разработаны аналитические модели времени доступа к фрагментам баз данных с различными вариантами организации категорированных данных.
Получены критерии интегральной оценки фрагментов баз данных с различными вариантами организации категорированных данных, учитывающие требуемые ресурсы памяти и время доступа к данным фрагментов.
Достоверность научных положений определяется:
корректностью полученных аналитических формул;
сравнением результатов полученных на основе теории аналитических функций и на основе имитационного моделирования;
оценкой точности экспериментальных данных методами математической статистики.
Практическая значимость работы. На основе полученных результатов автором создана инженерная методика оценки проектных решений по фрагментам баз с категорированными данными. Наибольший эффект может быть достигнут при проектировании баз данных информационных систем средней и большой сложности следующего назначения:
информационной поддержки изготовления, испытаний и эксплуатации сложных технических изделий;
PDM - системы (при реализации CALS - технологий);
управления проектами для организаций и предприятий, связанных с созданием сложной наукоемкой продукции;
компьютеризированные системы менеджмента качества для проектных организаций и предприятий, связанных с созданием сложной наукоемкой продукции.
Гибкость и универсальность разработанных методов делает возможным их применение при создании инженерных методик оценки проектных решений по фрагментам баз данных с произвольными структурами данных. При этом области применения результатов работы могут быть существенно расширены.
Реализация и внедрение результатов работы Результаты исследований внедрены в ФГУП ОКБ «Спектр» (г. Рязань), при выполнении НИОКР по созданию информационных систем различного назначения, в учебный процесс студентов специальностей 220100 и 075200 Рязанской государственной радиотехнической академии и рязанского Филиала Московского открытого университета.
Копии актов о внедрении представлена в Приложении 4.
Структура работы Диссертация содержит 146 страницы основного текста и состоит из введения, пяти глав, заключения, библиографического списка из 87 наименований и 4 приложений на 42 листах. В диссертацию включены 84 рисунка и 4 таблицы.
Анализ и классификация моделей, методов и принципов, используемых при создании информационных систем
Большой вклад в теорию создания информационных систем внесли российские ученые Костогрызов А.И., Корячко В.П., Мамиконов А.Г., Но-ренков И.П.» Филинов Е.Н. и др., которые проводят исследования в области построения ИС, автоматизации проектирования, технологии БД, технологии CALS, технологии моделирования ИС и в других направлениях.
Вместе с тем, несмотря на бурное развитие технологии моделирования информационных систем, растущие потребности удовлетворяются не полностью.
Переход в рамках CALS—технологий на электронное документирование продукции на всех стадиях жизненного цикла — одно из направлений, предъявляющих более высокие требования к информационному моделированию, чем те, которые могут быть удовлетворены известными методами [36, 46]. Сложная, наукоемкая продукция (транспортная - автомобильная, морская, железнодорожная; ракетная; компьютерная и т.п. техника), в основном именно для такой продукции актуальна CALS - технология, отличается использованием в одном изделии десятков тысяч видов комплектующих изделий. Для представления такого количества видов изделий, имеющих различные наборы характеризующих их свойств, широко используются категорированные отношения в реляционных базах данных. Однако создавать структуры баз данных, отражающих особенности свойств каждого типа изделий, не представляется возможным из-за слишком большого числа типов. На практике применяются эвристические приемы, позволяющие при внесении в БД данных по изделиям, формировать произвольный набор их свойств. Такие приемы позволяют создавать в БД «скрытые» (не отраженные в информационных моделях) формы категорированных данных, которые не предусмотрены в известных методах информационного моделирования и выходят за рамки их концепций [83].
Для создания научной основы решений задач представления «скрытых» категорированных отношений необходимо дополнение известных методов информационного моделирования новым интефальным методом, в котором в гармонизированном виде реализованы возможности нескольких известных методов.
Другой принципиальной особенностью CALS-технологий является необходимость манипулирования информационными ресурсами, накапливаемыми различными участниками жизненного цикла продукции. Стратегией CALS-технологии является создание так называемого единого информационного пространства для всех участников жизненного цикла продукции. Используемый в раках CALS-стандартов метод информационного моделирования (язык Express [26]) часть проблем решает, но не позволяет моделировать физического размещения информационных ресурсов.
Для выделения принципов, предпочтительных для реализации в методе моделирования информационных ресурсов автоматизированной системы предлагается классификация моделей, методов и принципов, используемых при создании информационных систем, которая представлена ниже (рис, 1.2).
Цель классификации:
- выявление совокупности использованных в известных методах мо делирования основных принципов, которые обеспечили успешное приме нение моделей при создании информационных систем и перспективны с точки зрения развития методов информационного моделирования. Контекст классификации:
- в классификацию помимо информационных моделей, методов ин формационного моделирования и использованных в них принципов (яв ляющихся объектом исследований в диссертации) включены и модели иного назначения (функциональные, потоков данных и др.); цель такого расширения фаниц классификации — выявление новых принципов, кото рые не использовались ранее в известных методах информационного мо делирования; показаны принципы, обеспечившие эффективное использо вание методов создания моделей иного назначения и заимствованы при создании предложенного нового метода моделирования информационных ресурсов системы;
- в классификацию включены только часть типов моделей и методов, которые с одной стороны получили наибольшее распространение в практике создания информационных систем, а с другой - послужили в той или иной мере прототипом при создании нового метода моделирования информационных ресурсов системы (глава 2);
- в классификацию не включен метод моделирования на основе графов; как не имеющий широкого применения в практике создания информационных систем, в то же время представление информационной модели в виде графа частично использовано при создании предлагаемого метода (раздел 1.3.3).
Точка зрения классификации: - классификация предложена автором и не претендует на полноту представления моделей, методов и принципов, используемых при созда нии информационных систем; классификация необходима для решения задач диссертационной работы.
Программа инструментальной поддержки метода моделирования информационных ресурсов системы
В соответствии с описанным методом моделирования информационных ресурсов системы разработана программа инструментальной поддержки метода.
Программа инструментальной поддержки метода моделирования информационных ресурсов системы имеет внутреннюю базу данных со структурой данных, соответствующей информационной модели метода (рис. 2.2). Структура программы и функции составных частей представлена на рис. 2.9. Формы «Навигатор» «Объекты» и вкладки предназначены для ввода данных модели информационных ресурсов системы и определения параметров и состава фрагментов при формировании текстового представления модели (ее фрагментов).
Более подробное описание программы инструментальной поддержки метода моделирования информационных ресурсов системы приведено в Приложении 1.
1. Разработан метод моделирования информационных ресурсов системы реализующий ряд принципов, не используемых ранее в известных методах информационного моделирования. Метод позволяет фрагментировать и детализировать модель и отражать в модели физическое размещение информационных ресурсов системы.
2. В методе моделирования информационных ресурсов системы реализован способ представления в модели объектов 2-го порядка, позволяющий реализовать в отдельных таблицах баз данных («отдельные схемы») информационные объекты произвольной структуры (в частности, структуры категорированных данных с большим или произвольным количеством категорий).
3. Разработана программа инструментальной поддержки метода моделирования информационных ресурсов системы.
Модель информационных ресурсов системы отражает физическое размещение информационных ресурсов системы, фрагментирует представляемую пользователю текстовую нотацию модели.
В рамках модели информационных ресурсов системы проработан вариант представления отдельных областей предметной области концептуально новым способом - представлением в модели предметной области объектами 2-го порядка (в базе данных создаются специфические «отдельные схемы»). Новый способ представления обеспечивает новое свойство соответствующих фрагментов баз данных. Отдельные схемы способны сохранять информационные объекты с произвольной структурой. В то же время в модели информационных ресурсов возможна деталировка структуры сохраняемых в отдельной схеме информационных объектов. Ф Такая возможность позволяет использовать модель в качестве «метаданных». Основные результаты исследований, изложенные в данной главе, опубликованы в [10,12, 14].
В различных СУБД предоставляются много вариантов реализации категорированных отношений в рамках трех вариантов представления в информационной модели (раздел 1.4). Наиболее развитые варианты реализации категорированных отношений в СУБД Oracle. Варианты СУБД Oracle охватывают практически все возможные варианты других СУБД, поэтому они приняты за основу при разработке аналитического метода оценки объемов памяти необходимых для реализации категорированных отношений в реляционных базах данных. В СУБД Oracle поддерживается два варианта категорированных отношения (раздел 1.4, рис. 1.4 и рис. 1.5). Однако, рассматривая варианты их окончательной реализации в виде таблиц БД, можно использовать базовую ER-диаграмму, представленную на рис. 3.1.
Аналитический метод оценки различий в требуемых ^ ресурсах памяти БД вариантов представления категорированных отношений. Модель базы категорированных данных
В аналитических выражениях метода оценки объемов памяти (разделы 3.2.1.и 3.2.2) единицей измерения объема памяти является символ данных, заносимых в базу данных - Sa. Такой выбор удобен для определения параметров модели категорированных данных по анализу информационных моделей. В то же время при оценке затрат ресурсов памяти общепринятым являются единицы измерения: бит, кбит, Мбит и Гбит.
Помимо этого в ЭВМ и в СУБД используются методы сжатия данных. При записи таких типов данных, как числовые, несмотря на то, что отдельным атрибутам (в СУБД) резервируется определенные максимально возможные значения, нулевые значения слева от значащих символов числа не записываются и не сохраняются в памяти ЭВМ. Как правило, не заносятся (и не требуют ресурсов памяти) пустые значения атрибутов.
Современные СУБД обладают развитыми средствами повышения производительности баз данных. Ряд методов повышения производительности достигают за счет избыточного хранения данных (например, методы индексации записей в таблицах БД).
Для практического применения аналитических выражений (3.21) -(3.30) необходимо определить коэффициент перевода единиц измерения, учета сжатия и избыточности данных - к размерностью бит/символ данных. При этом оценки (в единицах измерения - бит) необходимых затрат ресурсов памяти для реализации различных вариантов представления ка-тегорированных отношений:
Для перевода единиц измерения необходимо учитывать особенности кодирования символов данных - SA. Каждый символ данных представляется обычно десятичным или шестнадцатеричным кодом, содержащим несколько символов (символов кода - SK). Наиболее употребительным является стандарт ASCII (American Standard Code for Information Interchange, стандарт ANSI - американского национального института стандартов).
Часто используемая для передачи данных американская версия семибитовой кодировки символов кода (SK), утверждена ISO. Восьмой бит символа кода ASCII обычно является битом контроля четности (паритета). Таким образом, одним из компонентов кеС является коэффициент (Пк) двоичного представления символа кода SK. Для ASCII nsK=8 (бит/символ); Пдк=1 (байт/символ); nsK l/1024 (кбайт/символ) и т.д.
На персональных компьютерах используется так называемый расширенный код ASCII, в котором первые 128 комбинаций совпадают со стандартным, а остальные используются для представления национальных алфавитов, псевдографики и специальных знаков. Кодировка символов данных отличается количеством знаков кода (NsK)- Например, цифры и большая часть латинских символов кодируются двумя десятичными знаками (NsK—2) двумя, а символы кириллицы - тремя (NsK=3). Необходимый для представления данных объем памяти зависит от набора символов, необходимого для определенного типа данных, заносимых в базу данных. В первом приближении, может быть принято, что набор символов данных носит случайный характер, и этот набор может быть представлен математическим ожиданием значения числа символов кода - sK . По стандарту ASCII для большинства наборов символов значение sK будет находиться в диапазоне от 2 до 3.
Таким же образом может быть признана случайной величина коэффициента учета сжатия (ксЖ) данных при записи в ЭВМ (при записи данных сжатие производится только по отдельным атрибутам и степень сжатия различна). Фактор сжатия данных должен приводить к уменьшению ке,.. При сжатии данных, например, в 1,5-2 раза общая оценка кеС должна находиться в диапазоне от Ідо 2 (при измерении в единицах байт/символ).
Избыточность данных, прежде всего при использовании индексиро вания записей, также может быть учтена коэффициентом (к„д). При индексировании записей СУБД может создавать дополнительные колонки, с помощью которых упорядочиваются записи. В связи с этим введение к„д адекватно отражает изменения в требуемых ресурсах памяти.
С учетом представления коэффициента сжатия средним значением, общий вид кеС: кеС= кІЖ кид nSK NsK
В формуле коэффициенты представляемые средним значением выделены жирным шрифтом.
Процедуры доступа к информации в известных вариантах представления категорированных отношений
Решение задач выбора вариантов представления категориро-ванных данных и оценки реальной производительности фрагментов баз данных в этих условиях не является тривиальной.
Необходимо также учитывать, что для применения в инженерной практике, методы решения проектных задач должны отличаться высоким уровнем автоматизации и не требовать значительных затрат материальных и трудовых ресурсов.
В последнее время анализ многомерных данных интенсивно развивается в технологии хранилищ и витрин данных. В середине 80-х Ральф Кимбел начал реализовывать то, что позднее назвали системами поддержки принятия решений [61].
Системы поддержки принятия решений (Decision support system, DSS) в основном являются методами фильтрации и анализа данных [61]. В таких системах применяются современные технологии баз данных, OLAP (On-Line Analytical Processing), хранилищ данных, глубинного анализа и визуализации данных [31.].
OLAP - технологии интерактивной аналитической обработки данных для поддержки принятия решений, ориентированные главным образом на нерегламентированные интерактивные запросы. OLAP имеет дело, как правило, со статистическими данными и часто используется в хранилищах данных. Термин OLAP был введен в 1993 году Э. Коддом, сформировавшим основные требования к функциональности программных продуктов, реализующих эти технологии [69].
Одним из уровней в подобных системах являются хранилища и витрины данных. Они включают в себя специальным образом организованные базы данных, ориентированные на хранение и анализ информации. Согласно определению Б. Инмона, хранилище данных является предметно-ориентированной, интегрированной, некорректируемой, зависимой от времени коллекцией данных, предназначенной для поддержки принятия управленческих решений.
По типу хранения информации хранилища и витрины подразделяются на реляционные и многомерные. Многомерные хранилища и витрины организуются в виде многомерных баз данных. Информация в многомерных базах данных позволяет существенно снизить время получения требуемой информации [66, 69].
Многомерные СУБД являются относительно новым направлением в информационных технологиях. На практике для организации хранилищ и витрин данных широко используются реляционные базы данных
Особенности многомерных коллекций данных приводят к специфическим приемам моделирования, которые используются при создании хранилищ и витрин данных.
Наработаны определенные приемы создания структур реляционных баз данных для реализации хранилищ и витрин данных, структуры типа «снежинка», «звездочка» [41].
Технология организации коллекции данных и проведения их . анализа в современных системах поддержки принятия решений (и, в частности, в многомерных базах данных [50]) хорошо согласуется с потребностями организации компьютерного хранения и многомерного анализа данных, формируемых в соответствии с разработанными аналитическими моделями. Экспериментальные данные, получаемые с помощью разработанных имитационных программ, должны превращаться в постоянно пополняемую коллекцию данных и многократно использоваться для решения проектных задач. Постановка задачи. В связи с вышесказанным, в данной главе ш основное внимание уделяется решению следующих задач:
1. Разработка критериев для интегральной оценки вариантов реализации категорированных отношений.
2. Разработка прототипа многомерной базы данных для проведения анализа и выбора вариантов представления категорированных отношений.
3. Изложение процедур и шагов и разработка функциональной модели инженерной методики выбора варианта представления категорированных отношений в реляционных базах данных.