Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Специализированные базы данных для статистической обработки информации Червенчук Игорь Владимирович

Специализированные базы данных для статистической обработки информации
<
Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации Специализированные базы данных для статистической обработки информации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Червенчук Игорь Владимирович. Специализированные базы данных для статистической обработки информации : Дис. ... канд. техн. наук : 05.13.11 Омск, 2000 228 с. РГБ ОД, 61:01-5/2206-4

Содержание к диссертации

Введение

1 Модели представления информации в системах статистического анализа 18

1.1 Семантические модели представления данных . 19

1.2 Концепция информационной модели ССОИ . 29

1.2.1 Показатели, объекты, ИП-пространство . 29

1.2.2 Иерархическое меню. Дерево показателей . 32

1.2.3 Дерево объектов 35

1.3 Основные задачи исследования информационной модели ССОИ и ее реализации 36

1.4 Итоги первой главы 38

2 Математическая модель ССОИ и ее исследование . 39

2.1 Свойства информационно-поискового пространства . 39

2.1.1 Свойства дерева объектов 40

2.1.2 Выборки и временные ряды в ИП-пространстве . 44

2.1.3 Ковариационные матрицы 45

2.1.4 Метрика ИП-пространства 48

2.1.5 ИП-пространство как аксиоматическая модель . 50

2.2 Числовые характеристики иерархической информации . 56

2.2.1 Вес и компактность дерева показателей . 56

2.2.2 Вес или компактность дерева объектов . 61

2.2.3 Характеристики быстродействия поиска показателей 62

2.2.4 Характеристика эффективности структуры показателей 67

2.2.5 Характеристика быстродействия поиска объекта. 88

2.2.6 Оценка сложности иерархической информации . 95

2.3 Основные итоги второй главы 97

3 Методы построения эффективной системы статистического анализа в условиях большого объема структурированной информации 98

3.1 Анализ различных СУБД 98

3.2 Структуры хранения исходной информации 105

3.3 Структуры хранения оценок статистических характеристик 114

3.4 Оценка временных затрат на вычисление статистических характеристик 121

3.5 Автоматическая актуализация вторичных данных в БСХ 128

3.6 Манипуляция данными. Организация статистических расчетов 132

3.6.1 Выборки. Сложение выборок. Алгебра А+ 132

3.6.2 Расширенные выборки. Алгебра А+/ 135

3.6.3 Сопоставления, совмещения, многомерные выборки 142

3.7 Повышение скорости доступа к данным в условиях большого объема исходной информации 151

3.8 Общая структура реализованной специализированной системы статистической обработки информации . 155

3.9 Основные выводы к главе 3 159

4 Комплекс средств статистической обработки 161

4.1 Процедуры анализа статистических матриц 163

4.2 Реализация операции восстановления данных посредством использования возможностей статистического анализа главных компонент . 168

4.2.1 Вычисление главных компонент и критериев потери информативности 168

4.2.2 Заполнение пропусков с помощью главных компонент 172

4.3 Процедуры статистического анализа временных рядов 178

4.4 Основные выводы к главе 4 181

Заключение 182

Литература

Введение к работе

Развивается общество, увеличивается его информационная насыщенность, все сложнее становятся исследуемые информационные объекты, все большее количество показателей требуется для их описания. В данных условиях возрастает роль статистических методов обработки информации, зачастую не имеющих альтернативы при исследовании некоторых сложных систем. Типичным примером подобной системы может служить экологический мониторинг города Омска.

В рамках задачи построения системы для статистической обработки структурированной информации, в частности экологической, основными проблемами являются: во-первых создание модели, отражающей многоуровневую структуру исходных данных, во-вторых адаптация исходных данных для последующего применения процедур статистического анализа, в-третьих наличие достаточного набора процедур и функций для статистического анализа. При всем этом необходимо обеспечить удобство пользователю и простоту диалога с ЭВМ, возможность специалисту в области медицины, экономики, экологии легко общаться с системой.

Примечательно, что заложенные еще в конце 70-ых - начале 80-ых годов нормативы создания статистического программного обеспечения [96], уделяют большое внимание средствам манипуляции и представления исходных данных при статистическом анализе. Однако реализованные на сегодняшний день пакеты статистической обработки при всем многообразии возможностей статистического анализа имеют лишь минимальный набор средств манипуляции и представления данных.

Современные пакеты статистической обработки имеют большой арсенал процедур для статистического анализа, позволяющий специалисту провести более или менее полное исследование. Однако, как правило,

исходные данные представляются в виде простых таблиц, т. е. пользователю необходимо осуществлять предварительную подготовку данных (или писать достаточно сложные программы доступа к данным, как в системе STATISTICA [13]). Особенно сложно осуществлять подобную подготовку при исследовании многомерных показателей (multivariate analysis) в условиях большого массива исходной информации, в этом случае на плечи пользователя ложится задача сопоставления нескольких показателей (например, по времени), причем часто приходится проделывать эту процедуру многократно, например чтобы выявить предикторы (причинные переменные) для некоторого процесса или показателя.

Исходными данными для пакетов статистической обработки являются таблицы наблюдений (случаев) по одной или нескольким переменным, однако их получение из исходного материала (первичных данных) остается, как правило, за пределами возможности пакетов. То есть проблема предварительной подготовки данных для статистического анализа (т. е. преобразование информации из первоначального вида в форму, пригодную для последующего статистического анализа) остается нерешенной.

В рамках решения выше перечисленных проблем перспективы использования СУБД для создания систем статистического анализа очевидны. Относительно недавно появилось направление статистических баз данных, обладающих рядом особенностей [43]. Изначально, с распространением персональных компьютеров появился ряд небольших систем статистической обработки баз данных, среди которых можно назвать систему "PROSTO" [39], подсистему "СТАТИСТИКА", работающую в рамках системы "ИСПОЛНИТЕЛЬ" [40], Специализированные базы данных [30] и т.д. В задачу подобных разработок входило создание специализированных баз данных, приспособленных к эффективному реагированию на разного рода запросы пользователя, выполнению функций

агрегирования данных. Вся статистическая обработка сводилась к построению отчетов по информации, содержащихся в БД (например, в форме таблиц, содержащей сведения о количестве тех или иных фактографических знаний в БД [39] ), не используя функций вычислений статистических характеристик и процедур статистического анализа как такового.

Описанный в [11] пакет программ по прикладной статистике (ІШС) обладает большими возможностями статистического анализа, имеет встроенные программы дескриптивного анализа, регрессионного анализа, статистического прогнозирования и проч. Данная система примечательна тем, что содержит модуль "База данных и графический редактор", позволяющим осуществлять хранение и обработку экспериментальных данных и справочно-учетную информацию к ним, однако данные в этой системе имеют простую структуру.

С появлением развитых систем управления базами данных значительно облегчилась обработка больших массивов информации и стали появляться системы, генерирующие статистические отчеты на основе информации, содержащейся в БД. Примером подобной системы может служить система STAT (Италия. РимХ выполненная с использованием dBase ПТ+ [94]. Данная система позволяет генерировать отчеты по содержащейся в БД информации и представлять их в наглядной форме. По сути здесь на новом уровне (с использованием СУБД) решаются задачи, подобные которым ставились при разработке систем типа "PROSTO"" [30, 39, 40] у причем решение этих задач происходит со значительном перекрытием и со значительно меньшими затратами (в [94] даже приводится весь текст программы).

В последствии стали появляться системы с более развитым набором статистических процедур. Остановимся на система Flexibles Statistik-

Paket (Германия), выполненная в dBase IV, [92]. Диалог с пользователем производится с помощью меню. Имеются встроенные функции нахождения среднего арифметического, среднего геометрического, среднего гармонического, медианы, минимального и максимального значения (как видим, набор статистических процедур сильно ограничен). Статистической обработке подвергается информация в БД, соответствующая заданным пользователем условиям, лотом осуществляется фильтрация исходной БД, Обработка сложноструїоурированньтх данных в подобной системе затруднена и требует создания специальных дополнительных полей.

Растущая популярность систем, ориентированных на хранение больших объемов информации, стимулирует разработчиков программных средств разрабатывать на их бизе системы, поддерживающие многоуровневую структуру. Примером подобной системы может служить система Oracle Express, [551, созданная на базе СУБД Oracle 7, позволяющая производить доступ к многоуровневым данным. Система Oracle Express имеет диалог применения формул, позволяющий производить некоторые процедуры статистической обработки данных, система предоставляет удобный и достаточно понятный интерфейс с пользователем, Развитие подобных систем, поддерживающих OLAP технологию, имеет большие перспективы для организации обработки многомерных данных в распределенных системах.

Проблематика статистических баз данных (СБД) привлекает внимание специалистов ряда крупных научных центров в разных странах. Ей посвящена специальная регулярно проводимая конференция - International Working Conference on Statistical and Scientific Database Management. В рамках этого направления были созданы специализированные статистические СУБД SUBJECT [93] и RAPIDfJOO].

Разработанная в рамках данной работы система статистической обработки информации (ССОИ) является результатом взаимодействия двух направлений информатики: систем управления базами данных и пакетов статистической обработки информации, и вписывается в концепцию СБД. Такой подход позволяет заметно расширить возможности и повысить эффективность статистической обработки. В данной работе рассматривается комплекс проблем, возникающих при статистической обработке сложно структурированной информации, при этом одной из главных задач ставилось обеспечить максимально удобный интерфейс доступа к исходным данным. Данные принципы были использованы при реализации системы специализированных баз данных для статистической обработки экологических данных г. Омска, внедренной Госкомэкологии Омской области в сентябре 1997 г. Однако разработанная система универсальна и может с успехом применяться и в других сходных по виду исследуемых данных отраслях наук: медицине, социологии, экономике. Данная система, будем называть ее "Специализированные базы данных для статистической обработки информации" (ССОИ), нашла свое применение также при эпидемиологических исследованиях, внедрена в Омской государственной медицинской академии & октябре 1997 г.

Предлагаемая в данной работе специализированная система для статистической обработки информации решает проблемы эффективной статистической обработки структурированных данных большого объема, выражаемых системой числовых характеристик. Актуальность работы.

Тенденция к увеличению объемов и усложнению- структуры информации, которую необходимо подвергнуть статистическому анализу, налагает новые требования на создание систем статистической обработки. На первый план выходят проблемы хранения исходных данных и

обеспечения удобства работы для пользователя. Основываясь на анализе современного состояния проблемы разработки эффективных систем статистической обработки информации можно сделать вывод о том, что актуальность данной темы определяется:

отсутствием эффективной семантической модели, ориентированной на данные статистической природы, позволяющей неподготовленному пользователю легко представить данные широкого класса предметных областей;

недостаточной проработанностью методов оценки эффективности иерархического представления информации, представляющей семантические описания объектов сложной структуры;

отсутствием до конца формализованного аппарата, позволяющего манипулировать «сырыми» исходными данными с учетом временной привязки, производить их предварительную обработку и выполнять статистическую обработку;

отсутствием общей математической модели, позволяющей в полной мере отразить основные особенности статистических данных: структурность, однородность, зависимость от времени, и позволяющей реализовать на ее основе эффективную систему статистической обработки с удобным интерфейсом.

При создании систем статистической обработки на первый план выходят проблемы хранения данных и ускоренного доступа к данным. При этом иерархическое структурирование исходной информации является наиболее перспективным направлением решения этих проблем. Однако, применяемые в настоящее время различные подходы к такому структурированию нуждаются в теоретическом обосновании с применением фундаментальных математических исследований.

B основу новой научной концепции иерархического структурирования информационных систем больших объемов, которая предложена в данной работе, положены некоторые идеи информационной алгебры, разработанной группой комитета CODASYL.

В частности, информационная алгебра оперирует понятиями «сущность» и «свойство». Сущности - это физически существующие объекты, элементы реальной системы, имеющей сложную иерархическую структуру, а их свойства суть логические и числовые характеристики, которыми они обладают. Поскольку настоящая работа начиналась с разработки экологического мониторинга г. Омска, то понятие «суіцность» здесь трансформировалось в понятие «объект», а понятие «свойство» в показатель. Мир объектов - это частный случай мира сущностей, мир показателей - специфика мира свойств.

Иерархическое структурирование здесь основано на заданной иерархии объектов, на основе которой с учетом семантики описания проектируется классификация показателей, и статистических данных (значений показателей). Данная концепция помимо очевидной практической выгоды, получаемой при разработке специализированных систем для статистической обработки информации, представляет собой еще и немаловажный научный интерес. Подробное теоретическое исследование модели, построенной на данной концепции, приводится ниже.

Иерархия может также служить средством обеспечения интерфейса пользователя. Предложенная в рамках данной работы система иерархических меню позволяет построить удобный интерфейс.

Предложенная модель позволяет пользователю легко описать предметную область или сложный объект в терминах объектов и показателей, то есть легко перейти с сохранением семантики от описания предметной области на неформальном языке данной предметной области

непосредственно к формальному описанию в ИП-пространстве, автоматически переводящегося на язык описания в БД ССОИ,

Цель и задачи исследования. Целью диссертационной работы является повышение эффективности создания специализированных систем для статистической обработки информации за счет методов иерархического структурирования больших объемов статистических данных и обоснования общих принципов и новых методов построения систем баз данных, предназначенных для хранения статистической информации.

Основными задачами являются:

всесторонний анализ возможностей, принятой за основу концепции;

нахождение численных характеристик эффективности структурирования, позволяющих постановку оптимизационных задач;

выявление наиболее приемлемого набора стандартных структур данных, образующих ядро системы статистической обработки;

разработка языка с большими возможностями по манипулированию данными и статистической обработке информации, позволяющего создать удобный интерфейс пользователю;

разработка методов реализации эффективной системы статистической обработки на базе принятой концепции.

Методы исследования. Разработка специализированной базы данных для ССОИ базируется на использовании теории графов, теории множеств, функционального анализа, теории программирования. При разработке методов и процедур статистической обработки используется аппарат математической статистики.

Научная новизна. В отличие от информационной алгебры здесь по иному вводится система координат. Она основана на понятии информационно-поискового пространства (ИП-пространства), имеющего три

измерения, и позволяющего адекватно описывать многоуровневые информационные системы в терминах объектов и показателей. Помимо точек в этом пространстве существуют переменные, временные ряды, совокупности переменных, древовидные структуры значений и т. д. Введена метрика ИП-пространства и доказаны основные его свойства.

Все три измерения ИП-пространства (дерево объектов, дерево показателей, даты) суть корневые деревья, но с различными свойствами и характеристиками. На основании этих характеристик получены макрохарактеристики всей информационной системы, которые предложены в качестве количественных оценок ее быстродействия, компактности и сложности.

Дана оценка сложности иерархического структурирования показателей, предложен критерий оптимальности для структур показателей, выделен класс оптимальных структур.

Дана новая трактовка выборки, введены операции над выборками, построена алгебра выборок, определены основные операции, что послужило основой создания своеобразного языка манипулирования данными.

Предложены и использованы новые научные идеи, позволяющие заполнить пропуски в исходной информации наиболее вероятными значениями. Введены понятия полного и квазиполного ИП-пространства.

Практическая ценность работы. На базе предложенной концепции и
разработанных в диссертации принципах структурирования создано
математическое обеспечение интерфейса, позволяющее широкому кругу
пользователей осуществлять на компьютере иерархическое

структурирование больших объектов информации и эффективно эксплуатировать получаемую при этом специализированную базу данных. На базе предлощнных числовых характеристик выработаны рекомендации по структурированию сид-гедоы показателей.

Р&зработанные математическая модель и принципы организации позволили создать эффективную систему статистической обработки, позволяющую специалисту в предметной области производить статистический анализ большого объема исходной информации, имеющей многоуровневую структуру. Предоставляемые пользователю гибкие средства манипулирования данными, формирования запросов, автоматическое сопоставление данных для статистического анализа, настройка режимов работы, дружественный интерфейс вызова статистических процедур и средств визуализации данных позволяют пользователю производить статистическую обработку легко и эффективно.

Имеются акты о внедрении результатов диссертационной работы в научно-практическую деятельность Госкомэкологии Омской области для статистического анализа экологических данных и в научно-исследовательскую деятельность и учебный процесс на кафедре "Эпидемиологии" Омской государственной медицинской академии для проведения ретроспективного и оперативного эпидемиологического анализа с использованием статистических методов.

Основные положения, выносимые на защиту:

  1. Предлагаемая концепция моделирования иерархических систем на базе ИП-пространства, дерева объектов и дерева показателей.

  2. Разработанная математическая модель представления данных, построенная на основе ИП-пространства.

  3. Предложенный аппарат числовых характеристик, позволяющий оценить компактность и быстродействие иерархических структур и систем, сформулировать и решить задачи оптимизации.

  4. Разработанная логическая модель исходных данных ССОИ, построенная на основе реляционной платформы.

  1. Предлагаемый математический аппарат над выборками, позволяющий построить на его основе мощный и удобный язык манипулирования данными.

  2. Методы организации системы статистического анализа, основанные на применении БСХ, множественных индексов позволяющие повысить эффективность системы статистического анализа в условиях большого объема структурированной информации.

  3. Методы заполнения пропусков в исходной матрице данных с использованием распределения главных компонент.

В главе 1 дается критический анализ концептуальных моделей представления данных применительно к созданию систем статистической обработки. В результате анализа дается обоснование необходимости разработки новой модели для создания специализированных систем для статистической обработки сложноструктурированной информации большого объема. Предлагается новая концептуальная модель представления данных на основе введенных понятий дерева объектов, дерева показателей, ИП-пространства, позволяющая обеспечить семантическое описание предметной области и создать удобный интерфейс доступа к данным. Производится постановка теоретических задач на всестороннее исследование предложенной модели, конкретизируются задачи реализации некоторой системы статистической обработки на базе предложенной модели представления данных. В данной главе определяется концептуальная и математическая модель ССОИ.

В главе 2 разрабатывается концепция математического моделирования иерархически структурированных информационных систем (производится разработка математической модели ССОИ). На основе исходных абстрактных понятий: показатель, объект, значение показателя - получена

математическая модель таких систем. Исследованы свойства введенного в главе 1 РШ-пространства. Введены числовые характеристики, позволяющие оценить эффективность результатов иерархического структурирования информации. Предложен критерий оптимальности структур показателей, выделен класс эффективных структур, обоснованы рекомендации по структурированию системы показателей.

В главе 3 на базе принятой концептуальной модели разработана информационная структура исходных данных. Для создания систем статистической обработки предложены и обоснованы подходы, позволяющие значительно ускорить процессы доступа к данным и статистической обработки. С точки зрения теории построения баз данных в данной главе определяется логическая и физическая модель ССОИ как БД. Дается трактовка выборки как математического объекта, построена некоторая алгебра над выборками, определены основные операции над выборками, позволяющие создать мощный и удобный язык манипулирования данными.

В главе 4 рассматривается арсенал статистических процедур, включенных в систему. Усовершенствован метод заполнения пропусков данных с использованием главных компонент, позволяющий повысить надежность восстановления данных, разработано программное обеспечение, включающее программы статистической обработки на основе усовершенствованного автором метода, позволяющие снизить размерность исходных показателей с минимальными потерями информативности, произвести расчеты критериев потери информативности, заполнить пропуски в матрице исходной информации.

Предлагается расширить язык манипулирования данными, основанный на операциях над выборками, операциями над статистическими матрицами на базе соответствующих статистических функций, что позволило создать

удобный язык статистических исследований. Для создания систем статистической обработки рекомендован подход многоуровневого вызова статистических процедур, позволяющий увеличить глубину исследования и обеспечить удобство работы с системой; для обеспечения данного подхода были, в частности, решены подзадачи вычисления обобщенного коэффициента корреляции по данным матрицы частных коэффициентов корреляции и нахождения коэффициентов обобщенной модели, учитывающей тенденцию и автокорреляционные зависимости.

В заключении приводятся основные результаты работы.

В приложениях приводятся примеры структур данных, тексты программ разработанных статистических процедур (некоторых из тех, которые основаны на новых принципах), текст головного модуля программы, примеры работы программы, акты внедрения.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 100 наименований, двух актов внедрения, приложений со структурами баз данных, текстами программ и примеров работы системы. Работа содержит 228 страниц печатного текста, в том числе 191 страницу основного текста, работа содержит 27 иллюстраций.

Концепция информационной модели ССОИ .

Предлагаемая модель ориентирована прежде всего на статистическую информацию о сложном объекте, имеющем иерархическую структуру или о некоторой предметной области. При этом предполагается, что свойства (показатели) имеют естественную иерархическую структуру (классификацию). Такой подход характерен для экологических, эпидемиологических и ряда социологических данных. В рамках данной диссертации будем считать, что данная модель достаточно универсальна (т.е. универсальна в рамках некоторого класса предметных областей) и автор пока не претендует на универсальность в широком смысле. Основные задачи - описать некоторый широкий класс данных реального мира; - сделать это максимально естественно и удобно для пользователя. Хорошая модель должна быть одновременно достаточно емкой и максимально простой. Из всех элементов, присущих природе статистических данных сложных объектов выделим важнейшие (на взгляд автора) элементы: объект, показатель, значение показателя, время. Кроме того, среди связей выделим древесные порядки иерархии объектов и классификации показателей.

В качестве изначальных понятий в предлагаемых теоретических построениях идеологии ССОИ принимаются следующие три абстракции; показатель, объект, дата. Они здесь определяются не на математическом, а на интуитивно-содержательном уровне.

Будем называть показателем все то, что может иметь числовое или логическое значение. В частности, показателями в экологическом мониторинге являются различные оценки загрязнения среды обитания по разовым, среднесуточным и среднегодовым концентрациям, а также различные медико-демографические критерии состояния здоровья населения, например, наличие специфических заболеваний (логический показатель - либо есть, либо нет), увеличение детской смертности (числовой показатель).

Будем называть объектом любой из элементов системы, который имеет одну или несколько числовых или логических характеристик, т. е. хотя бы один показатель. Например, роддом № 1 в г. Омске является объектом экологического мониторинга этого города, так же как и сам город.

Однако увеличение детской смертности в роддоме № 1 не то же самое, что увеличение детской смертности в целом по городу. Поэтому если X -множество всех показателей, а Г - множество объектов некоторой системы, то их прямое произведение X xY будет давать множество различных показателей, привязанных к определенным объектам.

Кроме того, показатели могут иметь еще и временную привязку. Ведь увеличение детской смертности в общем случае может меняться со временем. Если D- множество моментов времени (например, дат) в которые производились измерения некоторых показателей, то X xY х D будет содержать различные показатели, привязанные по "месту" и "времени"; причем любой элемент этого множества будет соответствовать некоторой постоянной величине - значению показателя.

Введем множество Z, содержащее в себе значения любого показателя системы, т. е. это объединение двух множеств Z=RuL, (1.1) где R - множество действительных чисел (значения числовых показателей), L - множество значений логических показателей (объединение областей значений всех логических показателей системы).

Понятие "значение показателя" предполагает отделение собственно показателя от его значения. Следовательно, "показатель" - это абстракция, содержащая лишь семантику показателя, но не его значение, а множество Хв этом случае будет представлять лишь совокупность таких семантик (смысловых определений сущности показателя). Именно такие смысловые определения и позволяют отличать один показатель от другого.

Определение 1. Специализированной базой данных для статистической обработки информации (базой исходной информации) будем называть базу, которая задает следующее соответствие q = (XxYxD,Z,Q), (1.2) где X х Y х D - область отправления соответствия q (X - множество показателей, Y - множество объектов, D - множество моментов времени, в которые определялись значения показателей); Z -область прибытия соответствия q (множество значений показателей, определяемых по (1.1)); 2cIx7x/)xZ - закон соответствия q, т. е. это множество четверок "показатель, объект, дата, значение", определяющих содержание базы данных.

Выборки и временные ряды в ИП-пространстве

Непротиворечивая модель характеризуется тем, что любое из ее утверждений нельзя одновременно и доказать, и опровергнуть с помощью правил вывода из П и аксиом из Н.

Практический интерес представляют лишь непротиворечивые аксиоматические модели. Если непротиворечивая аксиоматическая модель еще и полная, то ее называют замкнутой. Неполные непротиворечивые аксиоматические модели называют открытыми.

Рассмотрим наше ИП-пространмтво с точки зрения аксиоматического моделирования.

Будем полагать, что алфавит А представлен объединением всех алфавитов и знаков, используемых в современных компьютерах. Наш объект моделирования разбит на более мелкие объекты, а те, в свою очередь, разбиваются еще на более мелкие и т.д. Перечень имен этих объектов будет представлен конечными последовательностями из русских букв. Эти простейшие языковые формы будут удовлетворять семантике и синтаксису русского языка.

На множестве объектов задается бинарное отношение частичного порядка "быть частью". Редукцией данного отношения является дерево Ту объектов.

Наши объекты обладают различными числовыми и логическими характеристиками, которые названы выше показателями. Это уже не объекты, а их свойства, т. е. предикаты первого порядка. Они определяют свойства термов, которыми здесь являются объекты.

Имя показателя составляется из описателей. Описатель, подобно имени объекта, есть конечная последовательность русских букв, удовлетворяющая правилам семантики и синтаксиса русского языка. На множестве описателей задано бинарное отношение частичного строгого порядка, редукцией которого является дерево показателей Тх.

Показатель объекта, т. е. элемент множества XxY, может иметь различные значения в зависимости от времени его определения. Однако любой точке (х, у, d) єі ИП-пространства соответствует не более одного значения. Каждое такое соответствие порождает одну из аксиом Е, є Е.

Поэтому ИП-пространство задает непротиворечивую систему аксиом, что равносильно свойству однозначности соответствия (2.2). Следовательно, ИП-пространство является непротиворечивой аксиоматической моделью.

Правила вывода этой модели в данном случае представлены операциями обобщения (суммирования или усреднения) и восстановления. ИП-пространство всегда будет открытым (неполным) для настоящего и будущего. Замкнутым оно может быть лишь для прошлого. Однако при разработке средств прогнозирования динамики изменения показателей можно будет обеспечивать полноту информации с достаточно высокой достоверностью и на будущее. Тогда можно будет считать ИП-пространство квазизамкнутой аксиоматической системой.

Дадим некоторые дополнительные пояснения.

У нас точкой ИП-пространства является тройка х, у, d . Ей, в рамках нашей информационной системы, поставлено в соответствие не более одного числа - результат измерения характеристики х для объекта у в какой-то момент времени d.

При этом не указывается, каким методом и какими приборами был произведен данный замер. Видимо, результат измерения также зависит от этих факторов, как и результат операции восстановления данных, как и результат операции восстановления от выбранного метода. Отсюда следует вывод, что в смысле истинности результатов измерения (восстановления) соответствие (2.2.) на однозначность не претендует. Однако оно однозначно в информационном смысле: в рамках модели ИП-пространства, каждой тройке х, у, d поставлено в соответствие не более одной логико-числовой характеристики. И каждое такое соответствие можно принять на веру в качестве исходной аксиомы.

Итак, соответствие (2.2) однозначно. Операции обобщения также однозначны. Восстановление же данных неоднозначно до тех пор, пока мы допускаем произвол в выборе методов восстановления пропущенных данных. В предлагаемой информационной системе этот произвол устраняется следующим образом. Использовать метод fy (см. 4.2.2) , обладающий наибольшей надежностью (другие методы не использовать). В этом случае операцию восстановления считать однозначной, а систему непротиворечивой. Возможен и другой подход: на базе различных методов восстановления построить однозначное соответствие - определить какой метод следует применить для каждой конкретной ситуации (например, искусственно сделать пропуски и определить какой метод дает более правдоподобные результаты). Тогда можно создать универсальный метод восстановления пропущенных данных, обеспечивающий однозначность операции восстановления. Однако эта проблема лежит вне целей и задач настоящей работы.

Структуры хранения исходной информации

СУБД являются мощным средством создания информационных систем, однако в плане реализации заданной модели представления данных СУБД является лишь инструментом. Тем не менее, выбор инструмента также имеет большое значение при построении эффективной информационной системы, поэтому рассмотрим основные подходы, используемые СУБД для представления данных. Принимая во внимание иерархическую природу объектов и показателей, которая лежит в основе модели ССОИ, кратко рассмотрим возможности известных СУБД в плане реализации данной модели.

На первый взгляд, наиболее подходящими для реализации модели ССОИ являются СУБД, использующие наследование. Основополагающими моделями данного направления являются сетевая модель DBTG CODASYL (группа Data Base Task Group, подгруппа CODASYL) и иерархическая модель на основе языка DL/1 (Data Language 1 фирмы IBM) [51,78].

В сетевой модели DBTG существует две основные структуры данных: типы записей и наборы. В языке описания данных (ЯОД) DL/1 основой является дерево, вершины дерева называются сегментами.

В данных моделях структура связей между элементами является жесткой, т. е. число уровней и связей между уровнями должно быть известно заранее и соответствующим образом описано на языке определения данных. Таким образом, при появлении некоторого нового уровня приходится редактировать программу на ЯОД. Ограниченный набор команд языка манипулирования данными (ЯМД) не позволяет реализовать все желаемые запросы.

Использование физических указателей является одновременно и сильной, и слабой стороной сетевых и иерархических СУБД. Сильной, поскольку они позволяют извлекать данные, связанные определенными отношениями; слабой, поскольку эти отношения должны быть определены до запуска системы. В условиях изменяющейся структуры объектов и показателей для ведения подобной базы пришлось бы постоянно изменять/дополнять программный код.

Вообще говоря, иерархические структуры данных можно разделить на два типа:

1) однородное дерево переменной глубины, т. е. число уровней заранее неизвестно, при необходимости структура может изменяться, сегменты же имеют однородное строение;

2) неоднородное дерево заданной глубины, т.е. число уровней иерархии должно бать известно заранее, сегменты-предки и сегменты-потомки в общем случае, могут иметь разнородную структуру, свободно можно манипулировать только экземплярами, которые относятся к тому или иному заданному уровню.

Как видно из вышесказанного, существующие СУБД, использующие наследование (т. е. сетевые и иерархические) ориентированы на иерархию второго типа и мало приспособлены для реализации структур первого типа иерархии (однородное дерево переменной глубины). Структура объектов и классификация показателей лее предполагает иерархию первого типа. Поэтому существующие СУБД, использующие наследование мало пригодны для реализации структуры данных ССОИ. К недостаткам вышеназванных СУБД следует также отнести слаборазвитые средства оформления и трудоемкость программирования, особенно в случаях, когда требуется дополнить систему некоторыми вычислительными возможностями, в частности, возможностями статистической обработки.

Основной недостаток известных сетевых и иерархических СУБД их негибкость. Реляционная модель, основанная на логических отношениях данных, преодолела подобные проблемы. Кратко рассмотрим возможности ряда СУБД, основанные на реляционной модели данных.

Реляционные системы управления базами данных (РСУБД) предоставляют пользователю и проектировщику информационных систем широкие возможности по созданию сложных информационных комплексов, состоящих из множества взаимосвязанных таблиц, к тому же опираются на мощный аппарат реляционной алгебры / реляционного исчисления и хорошо формализованную теорию функциональных зависимостей (также множественных зависимостей и зависимостей соединения [26,72,73,81]). Документы, формируемые на основе хранящейся в базе информации, могут содержать тексты переменной длины, графические элементы. СУБД позволяют формировать новые значения переменных в соответствии со сложными алгоритмами. Пользователь получает мощное средство ввода, контроля, хранения, преобразования данных. Платой за эти возможности является большая оперативная память, необходимая для работы СУБД (она может колебаться от 256 Кбайт до нескольких Мбайт), сложность изучения и применения возможностей пакета.

Вычисление главных компонент и критериев потери информативности

Пусть у нас имеется р статистически связанных переменных ИП-простанства. Переход от исходных данных к главным компонентам позволяет снизить число переменных при минимальной потери информативности. Попутно с решением задачи восстановления данных автором диссертации был найден способ нахождения характеристик потери информативности при переходе от исходных данным к главным компонентам на базе данных ковариационной матрицы.

Вычисление коэффициентов для нахождения главных компонент и интегрального показателя потери информативности при переходе к главным компонентам осуществляется по ковариационной матрице (2), однако, можно показать, что и оценку частых показателей потери информативности (по каждому показателю в отдельности) можно получить используя данные только лишь матрицы (Z).

Пусть матрица исходных показателей X (центрированных) из элементов ,(Л содержит рпризнаков (строк) и «измерений (столбцов), 7=1,2.../?, / = 1,2...и (т.е. имеем выборку размерности р)Ма практике ковариационная матрица исходных признаков находится как: І = S = XX . (4.8) Переход к главным компонентам может производиться как: Z = CX, (4.9) где Z - матрица, содержащая к первых главных компонент, размерностью кхп, к р. С - матрица ортогональных нормированных векторов, составленная из А-первых собственных векторов матрицы 2 , см., например, [4], с элементами cjJ\i = \...pJ = L..k, где /?-число исходных признаков, А:-число используемых главных компонент, к р. Как правило, в исследованиях р находится в пределах 3...10, к = \..3,п-число наблюдений, может быть достаточно большим.

Первые к собственных чисел матрицы Ъ ,ХХ Х.г... Хк являются дисперсиями соответствующих главных компонент.

Наряду с разного рода экстремальными свойствами главные компоненты обладают наименьшей ошибкой самовоспроизводимости, т.е. автопрогноза исходных показателей [97,98].

Для восстановления исходных показателей применяется преобразование: X , CZ , (4Л0 где С - транспонированная матрица С . В [97] доказано, что данная оценка имеет наименьшую ошибку восстановления исходных показателей из класса всех линейных комбинаций главных компонент.

Таким образом, восстановленные значения X можно получить как: = 2 +0 2 +... 2 (4.11) а исходные значения выразить: I t ьі , (4.12) х? = с 2 +cz 2)+...cjk z+eV где є \ - ошибка восстановления.

Для оценки ошибок восстановления исходных показателей применяют интегральный показатель оценивающий ошибку преобразования в общем, где D(s{,)) - дисперсия ошибок восстановления /- ой переменной, D(x(,))- собственная дисперсия / - ой переменной, диагональный элемент матрицы Е .

В источниках [97, 98] не уделяется большого внимания частным критериям ошибочности, т.е. относящимся к отдельному показателю, в [4] приводится только пример вычисления и использованием всех данных, однако их оценка часто необходима для окончательных выводов.

Похожие диссертации на Специализированные базы данных для статистической обработки информации