Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Гудков Алексей Анатольевич

Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных
<
Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гудков Алексей Анатольевич. Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных : диссертация ... кандидата технических наук : 05.13.10 / Гудков Алексей Анатольевич; [Место защиты: Пенз. гос. ун-т].- Пенза, 2008.- 177 с.: ил. РГБ ОД, 61 09-5/373

Содержание к диссертации

Введение

1. Методы и системы мониторинга социально-экономической сферы региона 10

1.1. Традиционные методы мониторинга социально-экономических систем 11

1.2. Системы поддержки принятия решений и технологии KDD 20

1.3. Обзор существующих систем анализа социально-экономической информации 35

Выводы 44

2. Модели и методы интеллектуального анализа социально-экономических данных 46

2.1. Интеллектуальный анализ данных (ИАД) как основа процесса KDD... 46

2.2. Методы ИАД в социально-экономической сфере 57

2.3. Конструирование интегральных показателей как метод ИАД, специфичный для социально-экономических данных 66

Выводы 82

3. Информационное и программное обеспечение автоматизированной системы мониторинга (АСМ) 84

3.1. Структура АСМ 84

3.2. Формирование многомерного хранилища данных в Microsoft Analysis Services 101

3.3. Особенности использования компонента Microsoft SQL Server Data Mining 109

Выводы 117

4. Методические и практические аспекты применения АСМ 119

4.1. Организация процесса мониторинга социально-экономической сферы региона 119

4.2. Анализ социально-экономических данных с использованием методов Data Mining 131

4.3. Построение интегрального показателя на основе социально-экономических данных 152

Выводы 156

Заключение 158

Список литературы 161

Список сокращений 174

Приложение 175

Введение к работе

Управление социально-экономическими (СЭ) объектами подразумевает выполнение определенной последовательности действий: сбор информации об объекте управления; анализ полученной информации; принятие решения; управляющее воздействие; контроль. Первые два этапа, относящиеся к сбору и анализу информации, составляют основу понятия «мониторинг». Таким образом, мониторинг можно определить как составную часть процесса управления, заключающуюся в систематическом наблюдении и анализе деятельности объекта управления. Следовательно, для принятия обоснованных управленческих решений региональным органам власти необходимы современные средства и методы сбора и анализа СЭ-информации. Особую актуальность проблема мониторинга приобретает тогда, когда информация об исследуемой системе сложно структурирована и отражает различные стороны ее функционирования, что характерно для СЭ-сферы региона.

Проблемой регионального мониторинга занимаются такие ведущие организации, как Центральный экономико-математический институт РАН, Институт экономики Карельского научного центра РАН, Ивановский государственный энергетический университет, компании «Прогноз», «ИНЭК», «ПАРУС» и др.

Данная работа направлена на разработку новых подходов к мониторингу СЭ-сферы региона, позволяющих повысить его качество. Для этих целей предлагается использовать технологии обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD), к которым можно отнести технологии хранилищ данных (ХД), многомерных баз данных (МБД), технологии оперативной и интеллектуальной обработки данных (OLAP и Data Mining), геоинформационные технологии.

Цель и задачи исследования. Целью диссертационной работы является исследование проблемы регионального мониторинга и анализа СЭ-

информации с использованием технологий KDD, а также разработка автоматизированной системы мониторинга (АСМ) на основе указанных технологий и методики ее применения на примере региональных СЭ-данных. Для достижения поставленной цели необходимо решить следующие задачи:

  1. Анализ существующих методов мониторинга и поиск путей повышения качества мониторинга; анализ применимости процесса KDD к задаче мониторинга СЭ-сферы региона.

  2. Анализ существующих алгоритмов интеллектуального анализа данных (ИАД) и возможности их применения к СЭ-данным. Разработка методов ИАД, специфичных для СЭ-сферы, в частности, метода конструирования интегральных показателей (ИП) на множестве СЭ-показателей.

  3. Проектирование АСМ на базе технологий KDD, определение ее структуры и функций . входящих в нее модулей;' разработка программного и информационного обеспечения АСМ.

  4. Апробация разработанной системы. Экспериментальное исследование всех этапов мониторинга в рамках процесса KDD. Составление рекомендаций по проведению мониторинга СЭ-сферы региона с использованием разработанной АСМ.

Методы исследования. При решении поставленных задач использовались принципы и методы системного анализа, теории принятия решений, модульного и объектно-ориентированного проектирования и программирования, теории баз данных, математической статистики, факторного анализа, геоинформационного пространственного анализа.

Научная новизна. Основные результаты диссертационной работы, выносимые на защиту, состоят в следующем:

1. Впервые предлагается использовать технологии KDD (в том числе,

методы Data Mining) для мониторинга СЭ-сферы региона, что позволит

устранить недостатки, присущие традиционным методам мониторинга,

и повысить качество мониторинга.

  1. Предложена структура ACM, поддерживающей все этапы процесса KDD: сбор данных, их очистку, консолидацию в МБД, интеллектуальный анализ данных, вывод и интерпретацию результатов, — с учетом специфики предметной области.

  2. Предложен новый алгоритм Data Mining, специфичный для СЭ-исследований, - алгоритм конструирования ИП, позволяющий выявлять латентные признаки в исследуемых системах, ранжировать объекты, выявлять признаки, обуславливающие социальное или экономическое развитие отдельных регионов (или, наоборот, их депрессию) и др.

  3. Разработана методика проведения анализа СЭ-информации с использованием алгоритмов ИАД. Отличительной особенностью предлагаемого подхода является разработанный механизм генерирования рекомендаций для лица, принимающего решения (ЛПР), на основе результатов ИАД.

Практическая ценность. Предлагаемый новый подход к мониторингу СЭ-систем на основе технологий KDD позволяет: эффективно аккумулировать СЭ-информацию из различных источников; выполнять анализ больших групп СЭ-показателей в их системном единстве; повысить оперативность анализа; обнаруживать скрытые закономерности в данных; более выразительно представлять результаты анализа; снизить трудоемкость процесса мониторинга. Все это способствует принятию более обоснованных управленческих решений.

Разработано программное и информационное обеспечение АСМ, имеющей в своем составе подсистемы очистки данных, формирования структуры МБД, ввода и редактирования данных, интеллектуального анализа информации и др. Разработанное программное обеспечение (ПО) функционирует на платформе Win32 (Windows 2000/ХР/2003). В рамках подсистемы интеллектуального анализа информации разработано ПО, реализующее алгоритм конструирования ИП и позволяющее оперативно

вычислять ИП на заданном множестве показателей.

Результаты анализа, описывающие выявленные закономерности в данных, представляются в виде наглядных графиков, диаграмм, сетей и т. п., а также в виде конкретных рекомендаций относительно значений входных переменных, удовлетворяющих заданному значению целевой переменной. Кроме того, имеется возможность отображения данных на электронных географических картах. Все это значительно упрощает работу ЛПР при управлении СЭ-системой.

Даны практические рекомендации по использованию разработанной АСМ, предложена последовательность и описано содержание этапов мониторинга СЭ-информации.

Внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использовались при выполнении темы «Разработка и апробация методики оценки состояния и оптимизации региональной сети профессионального образования с учетом решения задач формирования общенациональных университетов и системообразующих вузов. Создание регионального модуля системы информационно-аналитического обеспечения» (договор от 18 сентября 2007 г. №3/П637 в рамках ГК № 63/М-Н-З874 р от 17.09.07).

Кроме того, результаты работы использовались при выполнении НИР «Разработка методики информационной поддержки подготовки и переподготовки государственных и муниципальных служащих в области информационных технологий» по заказу Тамбовского государственного технического университета (договор № 05/07 от 1 февраля 2007 г.), о чем имеется акт внедрения.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: X, XI, XII Международные научно-методические конференции «Университетское образование» (Пенза, 2006—2008 гг.), конференция «Технологии Microsoft в теории и практике программирования»

(Нижний Новгород, 2006 г.), Всероссийская научно-практическая
конференция «Развитие университетского комплекса как фактор повышения
инновационного и образовательного потенциала региона» (Оренбург,
2007 г.), XXXIV Международная конференция «Информационные
технологии в науке, социологии, экономике и бизнесе IT+SE'07» (Ялта-
Гурзуф, 2007 г.), XIV, XV Всероссийские научно-методические конференции
«Телематика'2007, '2008» (Санкт-Петербург, 2007-2008 гг.), I Всероссийская
научно-практическая конференция «Информационные технологии в
образовании, науке и производстве» (Серпухов, 2007 г.), II Международная
конференция «Аналитические и численные методы моделирования
естественнонаучных и социальных проблем» (Пенза, 2007 г.), XIII
Всероссийская научно-техническая конференция «Новые информационные
технологии в научных исследованиях и образовании» (Рязань, 2008 г.),
научно-практическая конференция «Перспективные технологии

искусственного интеллекта» (Пенза, 2008 г.), научно-технические конференции профессорско-преподавательского состава Пензенского государственного университета (2006-2008 гг.).

Публикации. По материалам диссертации опубликовано 16 печатных работ, в том числе 1 в журнале, рекомендованном ВАК РФ. В работах, выполненных в соавторстве, лично соискателю принадлежит: в [11,12,15,16,17] - применение технологий KDD и методов ИАД для анализа СЭ-данных; в [14] - описание методологии ИАД и аспектов его использования при принятии управленческих решений; в [19] - разработка информационно-аналитического обеспечения процесса подготовки и переподготовки государственных и муниципальных служащих на основе методов ИАД; в [20] - методика построения ИП для анализа индикаторов деятельности высших учебных заведений; в [29] — описание аспектов автоматизированного анализа данных с использованием методов Data Mining.

Структура и объем работы. Диссертация состоит из введения,

четырех глав, заключения, списка литературы, включающего 141 наименование, приложения, содержащего акт внедрения. Основная часть работы изложена на 174 машинописных страницах, содержит 45 рисунков и 16 таблиц.

Основное содержание работы

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи исследования, отражена научная новизна и приведены основные практические результаты работы.

В первой главе рассматриваются существующие методы и системы мониторинга СЭ-сферы региона, а также процесс KDD. Понятие мониторинга включает в себя два ключевых аспекта: сбор информации об объекте управления и анализ полученной информации. Также немаловажным является этап представления результатов анализа. Для решения проблем, возникающих при проведении мониторинга СЭ-систем традиционными методами с помощью существующих систем, предлагается использовать информационно-аналитический комплекс, построенный на базе технологий KDD, сочетающий в себе передовые технологии ХД, МБД, оперативного и интеллектуального анализа, геоинформационные технологии.

Во второй главе рассматриваются модели и методы интеллектуального анализа данных, являющегося основой процесса KDD. В частности, исследуется возможность применения широко известных алгоритмов Data Mining к региональным СЭ-данным. Предлагается новый' алгоритм Data Mining, специфичный для СЭ-исследований, - алгоритм конструирования интегральных показателей, которые можно использовать для выявления латентных признаков, ранжирования объектов, их сравнения, выявления признаков, обуславливающих социальное или экономическое развитие отдельных регионов и др.

Третья глава посвящена разработке специального информационного и программного обеспечения автоматизированной системы мониторинга.

Система реализована в виде клиент-серверного приложения, позволяющего клиентам подключаться к серверу по протоколу TCP/IP. В качестве сервера используется компонент Microsoft SQL Server 2005 Analysis Services. Основным преимуществом компонента Analysis Services является то, что он включает в себя две основные и дополняющие друг друга функциональные части - OLAP и Data Mining, которые являются основой для создания аналитических приложений, следующих технологиям KDD.

В четвертой главе рассматриваются вопросы, посвященные методическим и практическим аспектам применения разработанной системы; описывается последовательность и содержание этапов мониторинга с использованием АСМ. Приводятся результаты анализа показателей СЭ-развития регионов РФ, а также данных образовательной статистики по Пензенской и Тамбовской областям с использованием методов Data Mining. В частности, исследуются на практике такие методы ИАД, как кластеризация, деревья решений, ассоциативные правила, байесовский алгоритм, нейронные сети и др. Также в главе рассматривается предлагаемый алгоритм конструирования ИП на примере составления рейтинга регионов РФ по множеству показателей, описывающих качество жизни населения. Показано, каким образом построенный ИП можно использовать для выявления проблемных областей в СЭ-развитии территорий.

Системы поддержки принятия решений и технологии KDD

Современный уровень, развития аппаратных и программных средств сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

Однако для эффективного применения этих данных необходимо использовать специальные системы поддержки принятия решений (СПГТР), функционирующие на основе современных технологий извлечения знаний.

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются в литературе информационными системами руководителя (Executive Information Systems) [55]. Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, не способны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая.серия вопросов.

Однако каждый новый запрос, не предусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических СППР оборачивается существенной потерей гибкости.

Поэтому при разработке ИАС, ориентированных на всесторонний анализ данных, целесообразно использовать определенный комплекс универсальных средств хранения и обработки информации, включающий: Систему централизованного хранения информации. Она должна обеспечивать предоставление в стандартизованном виде всей необходимой информации и накопление данных. Наиболее приемлемым вариантом является использование технологии хранилищ данных. Процедуры сбора данных из внешних источников и контроля их корректности. Они необходимы для оперативного получения актуальной достоверной информации. Средства консолидации собранной информации и расчета на ее основе различных производных показателей. Их назначение - обеспечить получение набора данных в необходимых разрезах и с нужной степенью обобщения. Средства быстрой аналитической обработки информации. (On-Line Analytical Processing, OLAP) для использования в процессе принятия решений. Задачами систем, основанных на технологии OLAP, также являются: получение комплексного взгляда на собранную в.хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ. Средства интеллектуального анализа данных. Подсистему вывода результатов анализа, включающую ГИС-компоненту.

Кроме того, при проведении анализа рекомендуется придерживаться определенной последовательности действий, определенных технологией обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD), которая будет рассмотрена ниже. Это позволит наиболее эффективно провести анализ, а также получить максимальную выгоду от использования перечисленных выше методов и средств [4].

Типовая структура информационно-аналитической системы, построенной на базе перечисленных технологий, показана на рис. 1.1 [27,101]. Данная архитектура является общепринятой в понимании места и роли различных технологий обработки данных. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.

Методы ИАД в социально-экономической сфере

Для решения перечисленных в п. 2.1 задач Data Mining используются различные методы и алгоритмы. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как системы баз данных, статистика, искусственный интеллект, большинство алгоритмов и методов Data Mining были разработаны на основе методов из этих дисциплин. Наиболее популярными и часто используемыми из них являются: кластеризация; ассоциативные правила; деревья решений; искусственные нейронные сети; регрессионные методы; нечеткая логика; генетические алгоритмы; эволюционное программирование и др. [69,132,141]

Методы кластерного анализа позволяют разделить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами, разнести записи в различные группы, или сегменты [1,5,125]. Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную целевую переменную. Ее удобно использовать на начальных этапах исследования, когда о данных мало что известно. Для этапа кластеризации характерно отсутствие каких-либо различий как между переменными, так и между записями. Напротив, ищутся группы наиболее близких, похожих записей.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков.

Методы автоматического разбиения на кластеры редко используются сами по себе, просто для получения групп схожих объектов. Анализ только начинается с разбиения на кластеры. После того как кластеры обнаружены, используются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение на кластеры, чем оно вызвано.

Существует большое число методов кластеризации. В Data Mining наиболее популярны дивизивные методы, или методы расщепления, непосредственно разбивающие всю совокупность записей на несколько кластеров. Из них наибольшее распространение получили различные модификации метода -средних. Его суть заключается в том, что весь исходный набор примеров разбивается на к классов таким образом, что минимизируется евклидово расстояние между объектами внутри классов и максимизируется евклидово расстояние между классами. Этот метод хорошо работает, если данные по своей естественной природе делятся на компактные, примерно сферические группы.

Другие методы кластеризации - агломеративные, или объединительные, начинаются с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один. Момент остановки этого процесса объединения может задаваться исследователем путем указания требуемого числа кластеров или максимального расстояния, при котором допустимо объединение. За расстояние между кластерами можно принять, например, минимальное расстояние между отдельными записями (точками) этих кластеров.

К недостаткам кластеризации следует отнести зависимость результатов от выбранного метода кластеризации и от исходного преобразования данных, зависимость результатов от выбора параметров алгоритма расщепления (объединения) и от выбора метрики. Поэтому результаты кластеризации часто могут быть дискуссионными. Кроме того, методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры, для проверки статистической гипотезы об адекватности разбиения.

В социально-экономических исследованиях методы кластеризации могут широко использоваться для сопоставления разного рода территориальных единиц по множеству показателей (например, сравнение регионов одновременно по таким показателям, как индекс промышленного производства, инвестиции в основной капитал, торговый оборот, денежные доходы на душу населения). Кроме того, кластеризация может использоваться для периодизации, агрегирования, нахождения репрезентативных объектов и др.

Данный метод представляет собой один из вариантов кластеризации, используемый для поиска групп характеристик, наблюдаемых, большей частью, одновременно [5,103]. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом. Построенные модели характеризуют близость различных одновременно наблюдаемых характеристик и могут быть выражены в виде простых правил. Метод был впервые предложен для анализа структуры покупок (market basket analysis) и широко используется в этой сфере бизнес-приложений.

Использование этого метода целесообразно в качестве одного из первых шагов исследования, когда известна (или существенна) только некоторая группа однородных характеристик. В качестве примера можно рассмотреть случай определения профессиональных навыков у людей, устраивающихся на работу. Об их профессиональной компетентности еще ничего неизвестно, кроме того, что они обладают некоторым набором навыков, которые можно выявить при собеседовании или анкетировании.

Формирование многомерного хранилища данных в Microsoft Analysis Services

Технологии OLAP и МБД, наряду с технологией ИАД, являются ключевыми в информационно-аналитических системах, ориентированных на поддержку принятия решений. Технология OLAP дает возможность пользователям МБД в реальном времени генерировать описательные и сравнительные сводки данных и получать ответы на простые аналитические запросы [39]. Концепция OLAP была описана в 1993 г. Э. Ф. Коддом, который сформулировал 12 определяющих принципов OLAP [84,106]: многомерное концептуальное представление; прозрачность; доступность; согласованная производительность; поддержка архитектуры «клиент-сервер»; равноправность всех измерений; динамическая обработка разреженных матриц; поддержка множества пользователей; поддержка операций между различными измерениями; интуитивное управление данными; гибкое формирование отчетов; неограниченные измерения и уровни агрегации.

В 1995 г. определение Е. Ф. Кодда было переработано в так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information, быстрый анализ разделяемой многомерной информации), требующий, чтобы OLAP-приложение предоставляло возможности оперативного анализа разделяемой многомерной информации. Его суть заключается в следующем.

Fast («быстрый») — означает, что система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд. При этом самые простые запросы обрабатываются менее одной секунды и очень немногие — более 20-ти секунд. Конечные пользователи способны прервать выполнение программы, если система не предупредит их, что обработка данных требует значительных временных затрат. Даже если система предупредит, что процесс займет существенный временной интервал, пользователи могут отвлечься и потерять мысль, при этом качество анализа страдает.

Analysis («анализ») - должна быть возможность осуществления основных типов числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем.

Shared («разделяемой») - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.

Multidimensional («многомерной») - это основная, наиболее существенная характеристика OLAP. Система должна обеспечивать многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий.

Information («информации») - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.

Существует множество OLAP-серверов, удовлетворяющих в той или иной степени перечисленным выше требованиям [58]. Однако в [37] показано, что оптимальным решением при выборе OLAP-сервера является использование компонента SSAS. Одним из важнейших его преимуществ (по сравнению, например, с решениями, предлагаемыми фирмой Oracle [10,98,130]) является открытость и унифицированный программный интерфейс, характерный для всех программных продуктов Microsoft.

Использование компонента SSAS позволяет существенно минимизировать затраты при построении аналитических приложений. Он состоит из двух основных и дополняющих друг друга функциональных частей: OLAP и Data Mining, являющихся краеугольными камнями аналитических приложений. Важным преимуществом данного компонента является то, что он поддерживает множество СУБД посредством интерфейса OLE DB, в число которых, помимо SQL Server, входит также и большое количество настольных СУБД (Microsoft Access, Microsoft FoxPro, Oracle, Sybase, Informix и др.). Любой источник баз данных, обеспечивающий интерфейс ODBC (Open Database Connectivity), также доступен через средства OLE DB, которые выступают в качестве надстройки над ODBC-драйвером и позволяют работать с ним, используя интерфейс OLE DB. Эти источники данных могут также находиться на платформах, отличных от используемых операционной системой Windows, например, БД, подобные IBM DB2 или Teradata, расположенные на мэйнфреймах. Используя мультиплатформенные возможности интерфейса OLE DB, к данным можно обращаться из различных систем так, как будто они расположены на одной машине с Analysis Services. Кроме того, SQL Server 2005 обладает рядом других преимуществ [38,65,83,135].

Компонент SSAS включает в себя как серверные, так и клиентские объекты для поддержки функциональности OLAP и Data Mining в аналитических приложениях.

Серверная часть Analysis Services реализована в виде службы Windows (файл msmdsrv.exe). Имеется возможность работы нескольких экземпляров сервера на одной и той же машине, при этом каждый экземпляр Analysis Services запускается как отдельный экземпляр службы Windows. Серверная часть SSAS включает в себя систему безопасности, компонент, отвечающий за взаимодействие по протоколу XML/A, компонент обработки запросов и ряд других внутренних компонентов, которые выполняют следующие функции: синтаксический анализ инструкций, полученных от клиентов; управление метаданными; обработка транзакций; выполнение вычислений; сохранение данных измерений и ячеек; выполнение агрегирования; управление запросами; кэширование объектов; управление ресурсами сервера.

Клиентские приложения взаимодействуют с Analysis Services, используя открытый стандарт XML for Analysis (XML/A) - протокол на основе SOAP (Simple Object Access Protocol, простой протокол доступа к объектам) для отсылки команд и получения ответов, реализованный в виде службы web. Клиентские объектные модели также предоставляются через XML/A и могут быть доступны либо через провайдера .NET (managed), типа ADOMD.NET, либо встроенного (native) OLE DB провайдера. SSAS поддерживает архитектуру «тонкого» клиента. Механизм вычислений Analysis Services является целиком серверным, так что все запросы обрабатываются на сервере. В результате, требуется только одно обращение между клиентом и сервером для каждого запроса, что обеспечивает возможность масштабирования системы.

Команды запросов могут быть заданы, используя следующие языки: SQL; многомерные выражения (Multidimensional Expressions, MDX) — стандартизированный язык аналитических запросов; расширения Data Mining (Data Mining Extensions, DMX) - стандартизированный язык запросов, ориентированный на ИАД. Язык сценариев Analysis Services (Analysis Services Scripting Language, ASSL) можно также использовать для управления объектами баз данных Analysis Services.

Анализ социально-экономических данных с использованием методов Data Mining

Процесс анализа удобно начинать с кластеризации объектов. Одно из преимуществ кластерного анализа состоит в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Это позволяет не только выявлять группы схожих объектов, но и создает предпосылки для установления, что означает такое разбиение на кластеры, чем оно вызвано.

Для анализа будем использовать данные за 2003 г. из статистического сборника «Регионы России. Социально-экономические показатели. 2004» [77]. В сборнике представлена СЭ-информация по 80 регионам России (не считая автономных округов, входящих в состав некоторых субъектов РФ). Однако для выявления закономерностей исходные данные предварительно требуется отфильтровать, чтобы все анализируемые объекты были сопоставимы между собой. В связи с этим, число анализируемых записей было уменьшено до 53 по двум критериям. Во-первых, были исключены регионы с численностью населения менее 600 тыс. чел. и более 4500 тыс. чел. Во-вторых, были исключены субъекты РФ, в которых плотность населения менее 3 чел./км и более 80 чел./км". Таким образом, при анализе использовались средние по численности населения и площади регионы России.

При кластеризации будем использовать показатели, характеризующие уровень образования занятого и безработного населения, а также ряд других СЭ-показателей. Число кластеров зададим равным трем. Результаты кластеризации приведены в табл. 4.4 [12].

В 1-й кластер вошли следующие регионы: Алтайский край, Ивановская область, Иркутская область, Калужская область, Кировская область, Ленинградская область, Нижегородская область, Пермская область, Приморский край, Псковская область, Республика Карелия, Республика Марий Эл, Свердловская область, Удмуртская Республика, Вологодская область, Кемеровская область, Омская область, Оренбургская область, Республика Башкортостан, Чувашская Республика, Тверская область, Орловская область, Костромская область.

Для данного кластера характерно: высокий процент населения с начальным профессиональным образованием; высокий процент безработных с начальным общим, основным общим и без начального общего образования; высокий процент городского населения; большие удельные значения числа заболеваний и числа преступлений.

Также для кластера характерно: низкий процент населения со средним (полным) общим и средним профессиональным образованием; низкий процент безработных с высшим профессиональным образованием; низкий процент занятых с начальным общим и без начального общего образования; низкий средний возраст безработного и занятого населения.

Во 2-й кластер вошли следующие регионы: Астраханская область, Брянская область, Кабардино-Балкарская Республика, Калининградская область, Мурманская область, Пензенская область, Республика Дагестан, Республика Мордовия, Рязанская область, Самарская область, Ставропольский край, Томская область, Саратовская область, Новосибирская область, Ростовская область, Белгородская область.

Для данного кластера характерно: высокий процент населения с высшим профессиональным, неполным высшим профессиональным и средним профессиональным образованием; высокий процент занятых с начальным общим и без начального общего образования; высокий процент безработных; высокий процент населения в трудоспособном возрасте; высокий процент населения с доходами ниже прожиточного минимума; высокий средний возраст безработных.

Также для кластера характерно: низкий процент населения с начальным профессиональным и основным общим образованием; низкий процент безработных с начальным общим и без начального общего образования; низкий процент городского населения; низкий процент занятых в экономике; низкие удельные значения числа заболеваний и числа преступлений.

В 3-й кластер вошли следующие регионы: Воронежская область, Курганская область, Курская область, Липецкая область, Новгородская область, Смоленская область, Тамбовская область, Тульская область, Ульяновская область, Челябинская область, Ярославская область, Волгоградская область, Владимирская область, Республика Татарстан.

Для данного кластера характерно: высокий процент населения со средним (полным) общим образованием; высокий процент занятых с основным общим образованием; высокий процент занятых в экономике; высокий средний возраст занятого населения.

Также для кластера характерно: низкий процент населения с неполным высшим профессиональным образованием; низкий процент занятых с высшим профессиональным образованием; низкий процент безработных; низкий процент населения в трудоспособном возрасте; низкий процент населения с доходами ниже прожиточного минимума.

Похожие диссертации на Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных