Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Козырев Михаил Александрович

Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления)
<
Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления)
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Козырев Михаил Александрович. Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления) : Дис. ... канд. техн. наук : 05.13.12, 05.13.01 : Иваново, 2004 212 c. РГБ ОД, 61:04-5/1851

Содержание к диссертации

Введение

Глава 1. Современные подходы к организации аналитической обработки данных в системах поддержки принятия решений 13

1.1. Концепция хранилищ данных - основа среды поддержки принятия решений 14

1.2. Методы и средства аналитической обработки данных 18

1.2.1. Системы регламентированной отчетности 20

1.2.2. Оперативная аналитическая обработка данных 21

1.2.3. Интеллектуальный анализ данных 24

1.2.4. Соотношение концепций интеллектуального анализа и оперативной аналитической обработки данных 33

1.3. Обзор существующих инструментальных средств 37

1.3.1. Microsoft 38

1.3.2. Oracle 40

1.3.3. Cognos 41

1.3.4. ЗАО «Прогноз» 42

1.3.5. Basegroup Labs 43

1.4. Выводы по главе 1 44

Глава 2. Методы организации интеллектуального анализа данных в среде поддержки принятия решений 46

2.1. Программный комплекс ИнфоВизор - основа организации среды поддержки принятия решений 46

2.2. Методы организации интеллектуального анализа данных 49

2.2.1. Метод организации интеллектуального анализа в среде многомерной аналитической обработки 49

2.2.2. Метод организации интеллектуального анализа детализированных данных 55

2.3. Выводы по главе 2 71

Глава 3. Адаптация методов интеллектуального анализа данных для применения в среде поддержки принятия решений 73

3.1. Реализация методов интеллектуального анализа данных в среде оперативной аналитической обработки 74

3.1.1. Организация информационного взаимодействия методов с хранилищем данных 74

3.1.2. Метод главных компонент 77

3.1.3. Кластерный анализ 84

3.1.4. Визуализация многомерных данных 91

3.1.5. Расширение аналитической функциональности методов 93

3.2. Реализация методов интеллектуального анализа детализированных данных 94

3.2.1. Организация информационного взаимодействия методов с хранилищем данных 94

3.2.2. Нейронные сети 97

3.2.3. Деревья решений 101

3.3. Выводы по главе 3 105

Глава 4. Проектирование средств интеллектуального анализа данных в прикладных информационных системах 107

4.1. Технология автоматизированного проектирования информационно-аналитических систем 107

4.1.1. Проектирование хранилища данных 109

4.1.2. Технология проектирования средств интеллектуального анализа данных 112

4.2. Информационно-аналитическая система по топливно-энергетическому балансу Ивановской области 115

4.3. Информационно-аналитическая система по социально-экономическому положению регионов 124

4.4. Информационно-аналитическая система по энергосбережению в сфере образования 131

4.5. Выводы по главе 4 136

Заключение 138

Список литературы 141

Введение к работе

Эффективное управление сложными техническими и социальными системами в процессе их жизненного цикла, включающего проектирование, создание и эксплуатацию, невозможно без полноценной информационной поддержки, обеспечиваемой автоматизированными системами поддержки принятия решений (СППР).

Достаточно остро проблема информационной поддержки принимаемых решений стоит в энергетической сфере. Сложность систем энергетики, значительные средства, расходуемые на всех этапах их жизненного цикла, а также высокие требования к качеству и надежности энергоснабжения, обуславливают необходимость дальнейшей разработки и совершенствования методов и средств принятия решений, реализуемых на разных уровнях управления. Не менее остро проблема информационной поддержки стоит в региональном управлении. Обоснованное и рациональное принятие решений в этой сфере возможно лишь при выполнении оперативного многоаспектного анализа большого количества данных.

Современный подход к автоматизации поддержки принятия решений основан на использовании концепции хранилищ данных (ХД) корпоративных информационно-аналитических систем (ИАС). Интеграция информации и ее комплексная аналитическая обработка позволяют обеспечить поддержку принятия решений с целью совершенствования исследуемых систем, а также с целью оценки эффективности принимаемых решений. Современный арсенал средств автоматизации поддержки принятия решений включает информационно-поисковые системы (ИПС), системы генерации отчетов, средства оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP) и интеллектуального анализа данных (ИАД, Data Mining). Если первые обеспечивают решение задач оперативной отчетности и разведочного анализа данных, то ИАД предназначен для выявления существенных закономерностей в характеристиках исследуемой системы. При этом эффективность создаваемой ИАС в значительной степени зависит от того, насколько средства ИАД интегрированы с единой информационной средой поддержки принятия решений. Проблема организации интеллектуального анализа данных не имеет на сегодняшний день комплексного решения, совмещающего гибкость информационных моделей ХД с удобством манипулирования данными при использовании различных методов анализа.

Масштаб и сложность исследуемых систем, а также длительность их жизненного цикла требуют совершенствования средств автоматизированного проектирования ИАС. Это достигается на основе разработки развитых инструментальных средств, обеспечивающих процесс создания информационно-аналитических систем и их перепроектирование для учета изменений в исследуемой предметной области и для удовлетворения расширяющихся информационных потребностей.

Целью диссертации является разработка методов и средств автоматизации проектирования информационно-аналитических систем, обеспечивающих унифицированные способы организации интеллектуального анализа данных в комплексном процессе обработки накапливаемой информации для эффективной поддержки принятия решений.

Для достижения поставленной цели в диссертационной работе решаются следующие задачи.

1. Исследование методов интеллектуального анализа данных и подходов к их использованию в СППР.

2. Разработка метода организации ИАД в среде оперативной аналитической обработки.

3. Разработка механизма многомерного концептуального представления детализированных данных из реляционных источников для интеллектуального анализа.

4. Разработка функционального ядра предоставления детализированных данных корпоративного хранилища для ИАД посредством использования многомерных концептуальных моделей, хранящихся в специализированных аналитических метаданных.

5. Адаптация методов интеллектуального анализа данных для их применения в рамках разработанных подходов к организации ИАД в СППР.

6. Разработка инструментария интеллектуального анализа данных, ориентированного на применение в среде автоматизированного проектирования ИАС.

7. Разработка технологии организации анализа данных при создании прикладных ИАС.

При решении поставленных задач в диссертационной работе использованы: методы системного анализа, теория множеств, теория построения информационных систем, теория баз данных, методы искусственного интеллекта, теория прикладной статистики, теория и методы автоматизированного проектирования.

Научная новизна работы заключается в разработке методов организации интеллектуального анализа данных в среде поддержки принятия решений, отличающихся использованием многомерного концептуального представления данных при реализации информационного взаимодействия алгоритмов анализа с хранилищем.

Получены следующие новые научные результаты. 1. Разработан метод организации ИАД в среде оперативной аналитической обработки, включающий описание многомерных данных в информационной модели и порядок ее использования при проведении анализа. Предлагаемая информационная модель, описывая метауровень над анализируемым гиперкубическим представлением данных, задает направление его проецирования в виде матрицы «объект - свойство». В отличие от традиционных решений в сфере ИАД, использующих в качестве входной информации плоские файлы, данный метод позволяет использовать преимущества манипулирования многомерными данными, что выражается:

а) в возможности получения информации для анализа любой размерности и степени агрегации посредством базовой OLAP-системы;

б) в обеспечении сохранения многомерного взгляда на информацию при проведении анализа.

За счет повышения уровня консолидации информации посредством предложенного способа интеграции OLAP-технологии и ИАД разработанный метод увеличивает производительность аналитической обработки накопленной в хранилище данных информации, что способствует более эффективной поддержке принятия решений. 2. Разработан метод организации интеллектуального анализа детализированных данных, основанный на многомерном концептуальном представлении реляционной структуры хранилища данных посредством соответствующих информационных моделей, описании моделей в аналитических метаданных и использовании их при проведении анализа. Предложенный подход реализует манипулирование детализированными данными в соответствии с многомерным представлением, включая определение интересующих характеристик многомерного факта, уровней обобщения и областей значений. В отличие от известных подходов к организации интеллектуального анализа детализированных данных, разработанная информационная модель обеспечивает гибкость при моделировании исследуемых фактов за счет:

а) равноправного манипулирования количественными и качественными характеристиками анализируемых фактов;

б) возможности трансформации количественных характеристик многомерных фактов в соответствии с заданной бизнес-логикой;

в) возможности задания произвольных уровней обобщения для качественных характеристик многомерных фактов и области их значений.

Выбор адекватных цели исследования объема данных и степени их обобщения позволяет уменьшить временные затраты на исследование данных с одновременным улучшением интерпретации получаемых закономерностей.

3. Предложена архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование ИАС. В ее основе лежит функциональное ядро доступа к ХД, к которому подключаются модули ИАД посредством предложенных информационных интерфейсов. Данная архитектура, отличаясь реализацией унифицированных способов информационного взаимодействия алгоритмов с хранилищем данных, позволяет осуществлять гибкое масштабирование проектируемых ИАС.

4. Предложена технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств. Данная технология отличается комплексностью получаемых решений в конкретных предметных областях, интегрированностью отдельных составляющих аналитической обработки данных, разнообразием и гибкостью концептуального моделирования анализируемой предметной области.

На защиту выносятся:

1. Метод организации интеллектуального анализа данных в среде оперативной аналитической обработки.

2. Метод организации интеллектуального анализа детализированных данных.

3. Архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование информационно-аналитических систем.

4. Технология проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств.

Основные положения диссертации изложены в работах [90 - 100], а также обсуждались:

• на Международной научно-технической конференции «XI Бенардосов-ские чтения» (Ивановский государственный энергетический университет, Иваново, 2003);

• на 2 Международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта» (Вологодский государственный технический университет, Вологда, 2003);

• на 4 Международной конференции старшеклассников, студентов, молодых ученых, преподавателей, аспирантов и докторантов «Актуальные проблемы современной науки» (Самара, 2003);

• на X Международной научно-технической конференции «Информационная среда ВУЗа» (Ивановская государственная архитектурно-строительная академия, Иваново, 2003);

• на Международном научно-практическом семинаре «Стратегия развития высшей школы и управление качеством образования» (Ивановский государственный энергетический университет, Иваново, 2003). Диссертационная работа структурно состоит из введения, четырех глав и заключения.

Во введении определены цели и задачи исследования, обоснована актуальность выбранной темы, сформулированы новые научные результаты, перечислены основные положения, выносимые на защиту.

В первой главе выполнен обзор современных подходов к организации аналитической обработки в СППР. Рассмотрена концепция хранилищ данных, как основа современной среды поддержки принятия решений, и приведена полная обобщенная структура корпоративной ИАС. Перечислены способы информационно-аналитической обработки данных для поддержки принятия решений, среди которых рассмотрены системы регламентированной отчетности, системы оперативной аналитической обработки данных и средства интеллектуального анализа данных. Рассмотрены основные этапы процесса обнаружения нового знания в базах данных при помощи интеллектуального анализа. Приведена классификация задач и технологических методов ИАД, указаны особенности его применения в различных сферах. Особое внимание уделено соотношению ИАД с концепций оперативной аналитической обработки. Показано, что интеграция данных технологий способна существенно повысить эффективность анализа в обеспечении информационной поддержки принятия решений.

Также выполнен обзор существующих зарубежных и отечественных инструментальных средств в области поддержки принятия решений (компаний Microsoft, Oracle, Cognos, Прогноз, BaseGroup Labs). Определены проблемы, затрудняющие использование данных решений при проведении эффективного ИАД в СППР, и поставлены задачи диссертационной работы.

Во второй главе рассмотрены разработанные методы организации ИАД в среде поддержки принятия решений. Обоснована необходимость разработки средств интеллектуального анализа данных в рамках программного комплекса, реализующего основные концепции хранения и анализа корпоративных данных. Приведена структура положенного в основу разработки комплекса инструментальных средств для автоматизации поддержки принятия решений Ин-фоВизор, созданного в Институте открытых систем Ивановского государственного энергетического университета.

Представлен разработанный метод организации ИАД в среде оперативной аналитической обработки, включающий создание информационной модели представления многомерных данных и порядок ее использования при проведении анализа. Дано математическое описание структуры предложенной информационной модели, определены ограничения ее логической целостности. Также обоснована необходимость разработки метода организации интеллектуального анализа детализированных данных, основанного на многомерном концептуальном представлении реляционной структуры хранилища посредством соответствующих информационных моделей, описании моделей в аналитических метаданных и использовании их при проведении анализа. Дано математическое описание соответствующей многомерной информационной модели. Описан способ описания данных информационных моделей в специализированных аналитических метаданных. Также внимание уделено соотношению предлагаемых походов к организации ИАД.

В третьей главе на основе предложенных подходов представлена реализация ряда методов интеллектуального анализа данных в рамках комплекса инструментальных средств для автоматизации поддержки принятия решений Ин-фоВизор. Рассмотрена методика адаптации существующих методов интеллектуального анализа к предложенным способам его организации, которая включает разработку алгоритма, реализующего существующий метод ИАД на основе его теоретического описания, организацию информационного взаимодействия алгоритма с хранилищем данных, организацию пользовательского интерфейса. Обоснованы достоинства данной методики, заключающиеся в высокой степени инструментальности при проектировании прикладных ИАС и расширении аналитической функциональности реализованных технологических методов ИАД.

В четвертой главе рассмотрена технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС. Рассмотрены:

• ИАС по топливно-энергетическому балансу Ивановской области (Администрация Ивановской области);

• ИАС по энергосбережению в сфере образования (Министерство образования России);

• ИАС по социально-экономическому положению регионов (Администрации Ивановской, Владимирской и Костромской областей, Департамент региональной экономики Минэкономразвития России).

На примере рассмотренных ИАС показаны основные составляющие данной технологии, обеспечивающие эффективность использования средств интеллектуального анализа данных.

В заключении подведены итоги выполненных исследований. Перечислены результаты и выводы работы, определены направления дальнейших исследований.

Соотношение концепций интеллектуального анализа и оперативной аналитической обработки данных

Благодаря такому многообразию методов и решаемых ими проблем сферы их применения чрезвычайно многообразны. В качестве примеров-наиболее мощных и распространенных статистических пакетов, реализующих указанные методы, можно назвать SAS (SAS Institute), SPSS (SPSS), STATGRAPHICS (Statistical Graphics), STATIST1CA (StatSoft) и др. К недостаткам систем этого класса относят повышенные требования к подготовке пользователя и высокую цену [18].

Искусственные нейронные сети (ИНС) [16, 55, 59] представляют парадигму обработки информации, базирующуюся на той или иной упрощенной математической модели биологических нейронных систем. ИНС организует свою работу путем распределения процесса обработки информации между нейроэлементами, связанными между собой посредством синаптических связей. Выявление закономерностей в данных осуществляется путем обучения ИНС, в процессе которого осуществляется корректировка величин синаптических связей. Круг задач, решаемых при помощи данных методов также довольно ши 31 рок: распознавание образов, адаптивное управление, прогнозирование, построение экспертных систем и др. Основными недостатками нейросетевой парадигмы является необходимость иметь большой объем обучающей выборки, отсутствие универсальных топологий и настроек сети. Другой существенный недостаток заключается в том, что ИНС представляет собой черный ящик, не поддающийся интерпретации человеком. Примеры нейросетевых систем — BrainMAker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic).

Для данных методов интерес представляет информация, заключенная не только в отдельных признаках, но и в сочетаниях значений признаков. Они вычисляют частоты комбинаций простых логических событий в подгруппах данных. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциаций в данных, для классификации, прогнозирования. Результаты работы данных методов оформляются в виде так называемых деревьев решений или правил типа «ЕСЛИ... ТО...».

Деревья решений [66, 67, 85] - это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Популярность деревьев решений объясняется быстротой их построения и легкостью использования при классификации. Кроме того, деревья решений могут быть легко преобразованы в наборы символьных правил - генерацией одного правила из каждого пути от корня к терминальной вершине. Однако, правила в таком наборе будут неперекрывающимися, потому что в дереве решений каждый пример может быть отнесен к одному и только к одному терминальному узлу.

Часто более адекватное описание анализируемых данных достигается посредством набора неиерархических перекрывающихся символьных правил. Значительная часть алгоритмов, выполняющих индукцию таких наборов правил, объединяются стратегией отделения и захвата (separate-and-conquer) [76, 77, 80] в отличие от стратегии разделения и захвата (divide-and-conquer), применяющейся в алгоритмах построения деревьев решений. В то же время индукция правил такого типа выполняется более сложными и медленными алгоритмами. Особенно большие трудности возникают с поступрощением построенной модели, в отличие от простоты подрезания деревьев решений.

В целом популярность логических методов обнаруженрия закономерностей определяется наглядностью результатов их работы. Проблемами являются сложность перебора вариантов за приемлемое время и поиск оптимальной композиции предложенных правил. Представителями систем, реализующих данные методы, являются системы See5/C5.0 (RuleQuest), WizWhy (WizSoft).

Идея методов CBR (case based reasoning) довольно проста. Для того, чтобы сделать прогноз на будущее или выбрать правильное решение эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом «ближайшего соседа» (nearest neighbor). Главным минусом такого подхода считают то, что данные системы вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве доступных исторических данных. Поэтому существует проблема выбора объема множества прецедентов, которые необходимо хранить для достижения удовлетворительной классификации или прогноза. Примеры систем, использующих CBR, - KATE tools (Acknosoft), Pattern Recognition Workbench (Unica).

Данные методы предназначены в основном для оптимизации в задачах поиска зависимости целевой переменной от других переменных. Примером может служить обучение нейросети, то есть подбор таких оптимальных значений весов, при которых достигается минимальная ошибка. В основе указанных методов лежит метод случайного поиска, модифицированный за счет использо 33 вания ряда биологических принципов, открытых при изучении эволюции и происхождения видов, для отбора наилучшего решения. В частности используются процедуры репродукции (скрещивания), изменчивости (мутаций), генетической композиции, конкурирования в рамках естественного отбора наилучшего решения. В силу своей специфики данные методы часто используются в качестве дополнительного инструментария к какому-либо другому методу. Пример реализации эволюционного алгоритма - отечественная система PolyAnalist. GeneHanter (Ward Systems Group) - пример системы, использующей генетические алгоритмы.

Данные методы позволяют ассоциировать с анализируемыми данными различные параметры диаграмм рассеивания: цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов. Данные методы не выполняют автоматического поиска закономерностей, но делаемые на их основе выводы чрезвычайно удобны для интерпретации и объяснения. В той или иной мере средства для графического отображения данных поддерживаются абсолютным большинством систем Data Mining, однако внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь может служить программа DataMiner 3D.

Метод организации интеллектуального анализа в среде многомерной аналитической обработки

В ИГЭУ с 1995 года разрабатывается программный комплекс ИнфоВизор - инструментальная оболочка для построения информационно-аналитических систем на основе хранилищ данных [26]. Сложность создания и использования информационно-аналитических систем заключается в необходимости частых модификаций, способных отражать постоянные изменения в исследуемой предметной области и учитывать развивающиеся аналитические потребности. Проблема перепроектирования ИАС при использовании комплекса ИнфоВизор решается благодаря использованию метаданных. Если возникает потребность в изменении структуры базы данных, состава измерений многомерной модели или регламента подкачки данных из информационных источников, модификация работающей системы сводится к изменению соответствующей модели или сценария, что обеспечивается развитыми инструментальными средствами.

Структура комплекса с учетом реализуемой подсистемы ИАД имеет вид, изображенный на рисунке 2.1. Комплекс представляет собой семейство программных систем, которые могут использоваться как отдельно для решения частных задач, так и совместно, взаимодействуя и дополняя друг друга. Концептуально весь набор программных продуктов можно разделить на средства реализации и ведения ХД и средства информационно-аналитической обработки накопленных данных (подробнее программный комплекс ИнфоВизор описан в приложении 1). В перечень задач по обеспечению жизненного цикла ХД входят задачи администрирования хранилища и Как показано выше, поддержка принятия решений на основе накопленной информации может осуществляться в трех базовых сферах: сфере детализированных данных, сфере агрегированных данных и сфере закономерностей. Программный комплекс ИнфоВизор является инструментальной оболочкой для создания ИАС, покрывающих все перечисленные типы обработки данных. Основой системы поддержки принятия решений в комплексе являются описанные в терминах метаданных ХД аналитические и навигационные модели.

Навигационные модели формируются в системе ИнфоВизор ER-Дизайнер и предназначены для работы с детализированной информацией представленных в хранилище информационных объектов. В основу работы с информацией такого типа положена полииерархическая модель представления реляционной структуры хранилищ данных. Данная модель позволяет, оставаясь в рамках реляционной платформы с рядом ее неоспоримых преимуществ, воспользоваться преимуществами иерархического и сетевого подхода в процессах семантического моделирования структуры хранилища данных. Данный подход зачастую более адекватно воспроизводит семантику предметной области, особенно при моделировании сложных систем. Вид этой семантической модели отражается метафорой дерева смысловых атрибутов [29].

Аналитические модели являются основой многомерной аналитической обработки данных. За основу аналитических моделей взято понятие многомерного гиперкуба. Осями гиперкуба {атрибутами информационной модели) могут быть любые способы консолидации данных, представляемые справочниками экземпляров некоторых объектов (множеством точек оси). Совокупность выбранных экземпляров по каждой оси однозначно характеризует ячейку гиперкуба в пространстве объявленных атрибутов. При этом многомерная модель представляется множеством пространств виртуального гиперкуба, соответствующих возможным сочетаниям измерений. Каждое пространство представляется совокупностью областей однородности, соответствующих определенным уровням обобщения информации.

Что касается интеллектуального анализа данных, то в программном комплексе ИнфоВизор разработаны проблемно-ориентированные модули, позволяющие производить анализ в конкретных предметных приложениях. Необходимо придать универсальный характер разрабатываемой в рамках комплекса системе ИАД, позволяющей производить анализ в различных предметных областях разнообразными методами. Важнейшим шагом на пути к достижению заданной универсальности при организации ИАД в среде поддержки принятия решений является разработка информационных моделей представления данных для анализа.

Входными данными для ИАД традиционно служат «плоские» файлы. При использовании ИАД в 011 IP часто приходится сначала извлекать данные из хранилища, преобразовывать их в файлы нужных форматов и только потом переходить собственно к интеллектуальному анализу. Затем результаты анализа требуется сформулировать в терминах бизнес-понятий. Как будет показано ниже, разработка инструментов ИАД в рамках развитого программного комплекса с использованием метаданных хранилища и библиотек функциональной обработки данных, оказывается более эффективной.

Как отмечалось, наиболее продуктивной идеей повышения эффективности применения ИАД является интеграция данной технологии с технологией оперативной аналитической обработки данных. Указывалось также на принципиальные проблемы при организации интеллектуального анализа детализированных данных. Реализация данных идей и решение возникающих при этом проблем осуществлены в двух разработанных методах, описанных ниже.

OLAP-системы чрезвычайно привлекательны с точки зрения удобства манипулирования многомерными данными. Реализуя естественный взгляд аналитика на предметную область и богатый набор базовых операций над гиперкубом, данные системы могут выступать в роли недостающего звена при организации интеллектуального анализа данных хранилища.

Организация информационного взаимодействия методов с хранилищем данных

Согласно описанным в первой главе принципам организации процесса KDD, извлечение знаний из баз данных предполагает реализацию предварительной обработки данных. Данная процедура необходима независимо от применяемого технологического метода ИАД и решает следующий круг задач: определение показателей, характеризующих качество полученных данных, включая выявление аномальных и пропущенных данных; реализацию, в случае необходимости, процедур, направленных на достижение удовлетворительного качества исходных данных; определение для каждой характеристики, непосредственно используемой для ИАД, ряда статистических показателей, позволяющих лучше разобраться в природе анализируемых данных и учесть их существенные особенности при реализации конкретных технологических методов ИАД.

В соответствии с этим данная подсистема состоит из Модуля определения статистических показателей характеристик фактов и Модуля преобразования данных, необходимого для повышения качества исходных данных. В соответствии с заявленным выше концептуальным разделением анализируемых характеристик фактов на количественные и качественные, набор статистических показателей, описывающих область их значений, также принципиально различен. Так для количественных характеристик интерес представляет стандартный набор статистических параметров, включающий минимальное, максимальное значение, различные варианты средних значений и др. Для качественных же характеристик возможно лишь определение количества уникальных и пропущенных значений. Необходимо также отметить, что реализация ИАД в рамках развитой среды поддержки принятия решений, основанной на концепции ХД, предполагает частичное решение задачи обеспечения удовлетворительного качества данных еще на этапе наполнения хранилища.

Как было показано в первой главе, одним из важных этапов обнаружения знаний в базах данных является трансформация данных, предполагающая обогащение полученного набора данных, например, за счет добавления различных отношений и интервалов на основе исходных полей. Благодаря заложенной в информационную модель представления детализированных данных для ИАД гибкости, решение данной задачи осуществляется уже на этапе информационного моделирования данных хранилища.

Полученные по запросу пользователя-аналитика и обогащенные рядом дополнительных характеристик детализированные данные в терминах соответствующих бизнес-понятий непосредственно передаются в подсистему интеллектуального анализа данных. Учитывая чрезвычайное многообразие методов ИАД, а также различные для каждого метода способы дополнительной обработки исходных данных, алгоритмы анализа и варианты представления результатов, оптимальным является организация данной подсистемы в виде набора подключаемых модулей.

При этом в каждом модуле возможна организация необходимых процедур дополнительной обработки данных, максимально удобных способов представления и визуализации результатов анализа и использования выявленных закономерностей непосредственно при принятии решений. Предложенный унифицированный способ представления детализированных данных для интеллектуального анализа позволяет решить наиболее острую и времязатратную проблему подготовки данных для анализа и сократить затраты на расширение данной подсистемы за счет реализации новых методов ИАД.

Технологии реализации методов ИАД в рамках системы ИнфоВизор Data Miner посвящена третья глава. Основой для их реализации является предложенная модель данных, соответствующая описанной выше модели запроса пользователя к многомерной информационной модели. Таким образом, предложенный метод организации интеллектуального анализа детализированных данных позволяет: обеспечить естественное для аналитика многомерное концептуальное представление анализируемых детализированных данных хранилища с поддержкой уровней обобщения для качественных характеристик фактов; благодаря этому достигается удобство локализации объема данных для анализа за счет определения как набора анализируемых характеристик, так и желаемого уровня обобщения и областей значений для качественных атрибутов; реализовать требуемую гибкость при моделировании реляционных данных хранилища за счет организации связи моделируемого многомерного факта с уровнями обобщения его качественных характеристик посредством произвольных реляционных отношений; осуществить извлечение и (или) расчет количественных характеристик исследуемых многомерных фактов, а также формирование на основе числовых признаков качественных характеристик, указывающих на принадлежность многомерного факта к интервалу, имеющему аналитическую ценность в данной предметной области. Соотношение предложенных методов организации интеллектуального анализа данных в среде поддержки принятия решений Схематично процесс проведения интеллектуального анализа в среде поддержки принятия решений на основе предложенных методов представлен на рисунке 2.2. При этом, следует указать наиболее эффективные для каждого способа технологические методы ИАД, а также выявляемые типы закономерностей (обе классификации приведены в первой главе). Способ доступа к необходимой для интеллектуального анализа информации определяется как спецификой анализируемой информации, так и используемым методом ИАД.

В случае анализа статистической информации, интегрируемой в хранилище данных из разных источников, наиболее продуктивным будет организация оперативной аналитической обработки .УТИХ данных с последующим интеллектуальным анализом (первый метод). Чаше всего при этом ставятся задачи обнаружения следующих типов закономерностей; кластеризации, регрессии и прогнозирования временных последовательностей. Набор технологических методов ИА.Д в -этом случае ограничен множеством статистических методов, нейронными сетями, методами визуализации многомерных данных.

Для анализа описанных выше детализированных многомерных фактов возможна реализация обоих методов. Во-первых, организация ИАД в среде многомерной аналитической обработки позволит производить анализ агрегированной информации (при з-том применим тот же набор технологических методов). Но наибольшего эффекта в данном случае можно добиться при анализе непосредственно детализированных данных хранилища. При этом можно выявлять любые закономерности (классификация, кластеризация, ассоциация, последовательность, регрессионный анализ, прогнозирование временных последовательностей). Набор технологических методов здесь также практически не ограничен, однако наибольшее распространение получили нейросетевые методы, методы рассуждения на основе аналогичных случаев, методы обнаружения логических закономерностей в данных (деревья решений и индукция правил).

Информационно-аналитическая система по топливно-энергетическому балансу Ивановской области

В основе системы поддержки принятия решений лежит хранилище данных, в котором накапливается информация из разнообразных источников. Процесс создания хранилища данных начинается с функционального моделирования бизнес процессов, имеющих место в исследуемой системе. При этом выполняется исследование существующих информационных потоков, включая ведомственную и статистическую отчетность, структуры баз данных систем оперативной обработки информации, общесистемные справочники. Выделяются основные бизнес-понятия и бизнес-события, имеющие место в предметной области.

Хранилище организуется в виде совокупности информационных объектов - витрин данных, каждая из которых на метауровне СУБД представлена рядом взаимосвязанных сущностей, а на уровне метаданных хранилища — соответствующими моделями анализа накопленной информации. При этом событийная информация представляется структурами типа «звезда», ориентированными на последующую многомерную аналитическую обработку данных. Детализированная информация, соответствующая экземплярам основных бизнес-понятий (реестровые записи), представляется в виде многоуровневых иерархических структур [44].

Успех реализации того или иного хранилища данных как основы для организации СПЛР, ориентированной на всестороннюю аналитическую обработку информации, включая интеллектуальный анализ данных, кроме описанных выше основных принципов его построения, зависит от целого ряда дополнительных требований. Среди множества аспектов создания и функционирования ХД выделим лишь те, которые имеют принципиальное значение в отношении его направленности на аналитическую обработку информации. Несмотря на то, что качество поступающих в хранилище данных актуально для всех аспектов использования хранилища, его аналитическая направленность предполагает дополнительное ужесточение данного требования. Его невыполнение будет приводить к невозможности получения значимых и достоверных знаний об управляемой системе. В принципе алгоритмы методов ИАД содержат процедуры, позволяющие работать с пропущенными или противоречивыми данными. Кроме того, предусмотрены специальные методы предварительной обработки данных, позволяющие повысить изначальное неудовлетворительное качество данных за счет: сглаживания, удаления шумов, редактирования аномальных значений, заполнения пропусков в рядах данных, понижения размерности данных, устранения незначащих факторов. Однако все эти механизмы призваны лишь частично сгладить проблемы использования некачественных данных хранилища, поэтому указанная проблема остается чрезвычайно актуальной.

Для получения наиболее полной информации и выявления адекватных закономерностей в функционировании исследуемой системе в хранилище данных должны быть максимально отражены все потенциально значимые сферы ее деятельности. Это требование приводит к стремительному росту как собственно корпоративных источников данных, так и их типов. Среди них следует особо выделить внешние источники, приобретающие особую значимость с точки зрения обеспечения бизнес-перспективы. Учитывая тот факт, что практически всегда процесс создания успешного полноценного хранилища данных носит поэтапный характер, его структура должна быть адаптирована к постоянному обогащению. Соответственно, этим объясняется необходимость наличия развитых инструментальных средств администрирования ХД, позволяющих быстро и непротиворечиво производить содержательное его пополнение.

Другой особенностью данных типов ХД является то, что они являются максимально детальными и глубоко историческими. Эта особенность вызвана, в частности, тем фактом, что ряд методов ИАД ориентирован на работу непосредственно с детализированными данными. Кроме того, элементарные данные, присутствующие в хранилище, могут послужить для удовлетворения не только известных аналитических требований, но и заранее неизвестных.

Аналитическая направленность ХД предполагает получение максимального набора показателей, характеризующих представленные в хранилище факты. Причем для полноценного многомерного анализа практически всегда необходима организация ряда вычисляемых показателей, основанных на элементарных характеристиках фактов. Этот вопрос на этапе проектирования ХД тесно связан с предпочтительной организацией таблицы фактов и выбранным для анализа программным обеспечением. Ее структура в этой связи может быть определена двумя принципиально различными способами. Первый способ заключается во введении в таблицу фактов отдельного атрибута для хранения каждой элементарной числовой характеристики представленного в ХД факта. В данном случае проблема организации вычисляемых показателей может быть решена достаточно просто. Другой способ предполагает наличие всего одного числового поля в таблице фактов для хранения всех возможных показателей, описывающих факт. Их различение в многомерных аналитических моделях производится при этом за счет введения дополнительного поля в таблицу фактов и организации специального измерения «Показатель» посредством индексации фактов по этому полю. Здесь организация вычисляемых ячеек существенно сложнее и в настоящее время в комплексе ИнфоВизор не реализована. Таким образом, первый способ формирования структуры таблиц фактов оказывается более предпочтительным. Однако он не может быть охарактеризован как универсальный. Он целесообразен при организации хранения однородных фактов, когда представленные в таблице элементарные показатели относятся к полному базису измерений. В случае же ориентации многомерной структуры хранилища на построение интеграционной модели, призванной осуществлять консолидацию большого объема достаточно разнородной информации из разнообразных источников, единственным практически реализуемым оказывается второй способ организации таблицы фактов.

Другая важная проблема при проектировании ХД для реализации интеграционных многомерных моделей состоит в определении способов организации измерений. Учитывая разнородный характер консолидируемой информации в таких моделях, вопросы выбора оптимального количества измерений и способов их организации не являются тривиальными. С одной стороны введение отдельного измерения в качестве характеристики ряда фактов повышает аналитические возможности модели. С другой стороны, если атрибут, по которому организовано измерение не носит универсального характера для всех фактов, его введение вносит некоторую путаницу при использовании такой модели и усложняет проектирование реляционной структуры хранилища и его моделирование. Учитывая многообразие предметных областей и потенциально ничем не ограниченную сложность реализуемых хранилищ данных, дать четкие правила на этот счет представляется затруднительным, однако следует привести некоторые рекомендации.

Похожие диссертации на Автоматизация проектирования систем интеллектуального анализа данных (В сфере энергетики и регионального управления)