Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Нейский, Иван Михайлович

Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних
<
Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нейский, Иван Михайлович. Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних : диссертация ... кандидата технических наук : 05.13.17 / Нейский Иван Михайлович; [Место защиты: Моск. гос. ун-т печати].- Москва, 2010.- 185 с.: ил. РГБ ОД, 61 10-5/3329

Содержание к диссертации

Введение

ГЛАВА 1. Анализ методов и систем кластеризации фактографических данных 12

1.1. Основные определения 12

1.2. Методы кластеризации 12

1.2.1. Классификация методов кластерного анализа 12

1.2.3. Сравнение методов кластеризации 14

1.3. Сравнение аналитических программных комплексов 17

1.4. Предметная область исследования 19

1.4.1. Структура рынка ценных бумаг 20

1.4.2. Виды ценных бумаг г. 22

1.4.3. Участники рынка ценных бумаг 23

1.4.4. Брокерская деятельность профессионального участника рынка ценных бумаг 26

1.4.5. Основные характеристики предметной области исследования 28

1.5. Постановка задачи адаптивной кластеризации 29

1.6. Выводы 34

ГЛАВА 2. Исследование и адаптация существующих методик кластеризации фактографических данных 35

2.1. Формализованная модель предметной области 35

2.2. Методика адаптивной кластеризации 40

2.3. Выбор метода кластеризации 42

2.3.1. Выбор метода на основе рекомендаций 44

2.3.2. Выбор метода на основе критериев 45

2.3.3. Выбор метода по общему алгоритму 50

2.4. Адаптация методов кластеризации 50'

2.4.1. Параметрическая настройка методов кластеризации 50

2.4.2. Адаптация методов кластеризации к предметной области 52

2.5. Оценка кластеризации 56

2.6. Выводы 59

ГЛАВА 3. Адаптивная кластеризация фактографических данных смешанного типа. 60

3:1. Базовые принципы метода AD АКБ 60

3.2. Входные данные метода ADAKL 61

3.3. Описание метода ADAKL 63

3.4. Способы построения минимальных остовных деревьев 68

3.5. Адаптация метода к предметной области 69

3.6. Аналитическая оценка сложности метода 70

3.7. Докластеризация исходных данных в процессе исследования 73

3.8. Аналитическая оценка сложности докластеризации 76

3.9. Достоинства и недостатки адаптивной кластеризации 77

3.10. Обоснование локального критерия оценки качества разбиения 78

3.11. Выводы 81

ГЛАВА 4. Программный комплекс адаптивной кластеризации 84

4.1. Общее описание 84

4.1.1. Цель, назначение и область применения разработки 84

4.1.2. Функциональные возможности программного решения 84

4.1.3. Описание сущностей и их атрибутов 86

4.2. Основные алгоритмы. 97

4.2.1. Алгоритмы построения минимальных остовных деревьев 97

4.2.2. Алгоритм вычисления среднего значения атрибута символьного типа- 99

4.3. Форматы выходных данных 99L

4.4. Интерфейс взаимодействия с пользователем .102

4.4.1. Граф диалога пользовательского интерфейса 102

4.5. Описание эксперимента 102

4.5.1. Описание сравнительных исследований 102

4.5.2. Анализ результатов сравнительных исследований 107

4.5.3. Описание оценочных исследований 108

4.6. Выводы 115

Заключение 116

Список литературы 118

Введение к работе

Актуальность

Большинство крупных компаний используют в своей деятельности автоматизированные системы для сбора, обработки и хранения информации, ведущие к росту объемов,информации с каждым днем. Существует оценка, согласно которой объём данных в мире удваивается каждые два месяца [12]. Когда объем операций и, соответственно, информации небольшой, то исследование этой информации с помощью человеческих ресурсов еще возможно. При значительном росте объемов информации компании переходят к применению аналитических программных комплексов, которые позволяют проводить анализ собранных данных и выявлять в них скрытые факты и закономерности.

Изучением проблем и созданием решений в этой области активно занимаются направления Business Intelligence (Интеллектуальный анализ данных) и Knowledge Management (Управление знаниями), в рамках которых выделяются поднаправления Knowledge Discovery in Databases (Выявление знаний в базах данных), Data Mining (Анализ фактографических данных), Text Mining (Анализ неструктурированных данных) и др. В интеллектуальном анализе данных выделены шесть различных классов задач (рис. 1), такие как: классификация, регрессия, кластеризация, выявление ассоциаций, выявление последовательностей, прогнозирование.

Интеллектуальный анализ данных

Классификация

Кластеризация

Регрессия

Прогнозирование

Ассоциации

Последовательности

Рис. 1. Классы задач ИАД. Классификация позволяет выявить признаки, характеризующие однотипные группы объектов (классы), для того, чтобы по известным-значениям,ЭТИХ' характеристик можно было отнести новый объект к тому или иному классу [33]:

Регрессия устанавливает зависимости непрерывных выходных переменных от входных переменных [33].

Кластеризация, используя свободный поиск, выделяет в данных признаки, по которым данные можно поделить на группы [33]. Кластеризация неоднозначна, поскольку группировка данных целиком зависит от способа, по* которому измеряется информационное расстояние между записями набора данных. Это задача более сложная, чем классификация, так как классы объектов изначально не предопределены [129]. Еще одним ключевым отличием классификации является то, что каждый объект однозначно относится к соответствующему классу, а при кластеризации объект может относиться к одному, двум и более кластерам (спорный объект). Сложностью кластеризации является необходимость ее оценки.

Ассогщация, в отличие от двух предыдущих задач, определяется не на основе значений свойств одного объекта или события, а имеет место между двумя или несколькими одновременно наступающими событиями [33]. Создаваемые при этом правила указывают на то, что при наступлении одного события с той или иной степенью вероятности наступает другое.

Последовательности, подобно ассоциациям, имеют место между событиями, но наступающими не одновременно, а с некоторым определенным разрывом во времени [33].

Прогнозирование — это особая форма предсказания, которая на основе особенностей поведения текущих и исторических данных оценивает будущие значения определенных численных показателей [33].

В связи с ростом динамики изменений в социально-экономической и научно-производственной среде задача кластеризации актуальна в различных сферах и предметных областях, например: вьщелёние групп клиентов брокерского обслуживания для формирования перечня предлагаемых сервисов; формирование потребительской корзины; принятие решения о выдаче потребительского кредита; сегментирование сферы деятельности с целью повышения эффективности производительности; обработка изображений; тематический анализ биб- лиотеки документов; оптимизация использования' складских помещений; выявление транзакций, проведенных по поддельным кредитным картам; выявление потенциальных болезней пациентов; построение показательной (репрезентативной) выборки и т.д.

Актуальность.данного направления подтверждается появлением и постоянным увеличением количества прикладного программного обеспечениях (ППО), которое предназначено для решения задач анализа-различных видов и типов данных: в начале 90-х годов рынок ППО насчитывал около десяти поставщиков, а к середине 90-х годов - более пятидесяти компаний малого, среднего и большого размера [92, 129]. Инструменты Интеллектуального Анализа Данных (ИАД)1 могут быть представлены как самостоятельный продукт, а также как составная часть основного программного продукта. Примерами таких программных продуктов являются SPSS (Statistical Package for the Social Sciences, в переводе с англ. - статистический пакет для социальных наук), Statistica (в переводе с англ. - статистика), SAS (Statistical Analysis Software, в переводе с англ. -программное обеспечение для статистического анализа) [46].

Четкое разбиение объектов на кластеры возможно только в идеальных условиях на; хорошо разделимых данных, поэтому все чаще используются нечеткие методы. Важной предпосылкой применения нечетких методик кластеризации в реальных условиях является то, что характеристики объектов не всегда являются измеримыми и поэтому в ряде случаев присутствуют экспертные оценки характеристик объектов, которые являются субъективными и могут быть противоречивыми.

Под методами адаптивной кластеризации в работе понимаются методы, входной параметр «Количество кластеров» которых определяется в результате предварительного исследования, включающего, например, оптимизацию ло-

Интеллектуальный анализ данных - извлечение информации из данных, добыча данных, технология анализа хранилищ данных, базирующиеся на методах искусственного интеллекта и инструментах поддержки принятия решений. кальных критериев оценки качества разбиения, стабилизацию получаемых центров кластеров1 и др.

На сегодняшний день в области кластерного анализа актуально решение следующих проблем: обоснованный выбор наиболее подходящего метода исследования-, так как он осуществляется из более 100 методов; сложность оценки получаемых разбиений в целях определения качества проведенного исследования, так как существующие критерии позволяют оценить четкость, компактность, эффективность разбиения, но не решают вопрос выбора оптимального решения для исследуемой предметной области; отсутствие рекомендаций по применению существующих методов для использования в исследуемой предметной области - брокерского обслуживания клиентов; выбор значения «Количество кластеров», так как данный параметр является входным для большого количества методов.

Прикладной областью диссертационной работы выбрана сфера брокерского обслуживания клиентов, для которой в настоящее время отсутствует достаточное количество практических рекомендаций по использованию существующих методов кластеризации, которые позволяют проводить регулярные исследования интервальной информации об операциях клиентов. Необходимость решения описанных проблем для данного класса задач обуславливает актуальность разработки методики адаптивной кластеризации.

Целью диссертационной работы является разработка методики адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних.

Для реализации поставленной цели в работе решаются следующие задачи:

Исследование методов и систем интеллектуального анализа данных, используемых для кластеризации фактографических данных.

Разработка методики адаптивной кластеризации фактографических данных.

Разработка рекомендаций по выбору существующих алгоритмов кластеризации.

Разработка метода кластеризации.

Разработка метода докластеризации.

Разработка программного комплекса для автоматизации предложенного метода кластеризации.

7. Оценка эффективности предложенной методики. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Общий объем текста диссертации составляет 185 страниц, содержит 30 таблиц, 21 схему, 137 источников, из них 43 зарубежных.

В первой главе исследуются методы кластерного анализа и аналитические программные комплексы. В результате исследования получены сравнительные таблицы методов и систем, а также приведена общая классификация исследованных методов. Для выделения класса задач проводится исследование предметной области, на основе которой делается постановка задачи адаптивной кластеризации.

Во второй главе разрабатывается формализованная модель предметной области и методика адаптивной кластеризации. Предлагаемая методика состоит из пяти шагов: выборка исходных данных для проведения анализа, исследование полученной выборки с целью выявления значимых объектов/характеристик объектов, разработка контрольного примера, выбор метода кластеризации, кластеризация полного объема данных. Выбор метода кластеризации осуществляется итерационным путем на основе существующих рекомендаций, разработанных критериев и полного перебора методов. Для адаптации исследуемых методов проведен анализ их входных параметров и приведены способы^ оценки получаемых разбиений.

В'третьей, главе описывается метод адаптивной кластеризации (ADAKL). Для разработанного метода приводится его описание, способы построения минимального остовного дерева, способы адаптации его к предметной области, выполнена аналитическая оценка метода, выделены его достоинства и недостатки. Для снижения временных затрат на проведение исследования предлагается метод докластеризации, для которого приводится описание, аналитическая оценка сложности.

В.четвертой главе описывается программный комплекс, основные его алгоритмы. Целью реализации метода является автоматизация процесса обработки исходных данных по разработанным алгоритмам для проведения практических исследований. Во второй части главы приводятся данные по экспериментальным исследованиям для оценки эффективности и проверки аналитических оценок исследуемого метода.

В приложениях приведены описания методов кластеризации, аналитических программных комплексов, формализованной предметной области, примеров практических исследований, сущностей, используемых для проведения серий экспериментов, и подготовки эмпирических данных.

Методы исследования. Результаты проведенных и представленных в диссертации исследований получены с использованием теорий классификации, алгоритмов, нечетких множеств, графов, реляционных баз данных.

Научная новизна. В диссертации обоснованы и выносятся на защиту следующие основные положения, полученные по результатам проведения исследований: методика адаптивной кластеризации фактографических данных, включающая этап по выбору метода кластеризации; метод адаптивной кластеризации фактографических данных смешанного типа на основе интеграции методов минимального остовного дерева и нечетких К-средних (ADAKL), позволяющий проводить исследования в выбранной прикладной области, определяя количество и состав кластеров; метод докластеризации, позволяющий сократить время кластеризации новых объектов;, локальный критерий оценки разбиения множества на кластеры, который учитывает требования прикладной предметной области: выделение кластеров, с наименьшими взаимными^ расстояниями и наибольшим количеством элементов? в кластере, минимизация5 количества; кластеров;, минимизация взаимных рас стояний, между получаемыми центрами кластеров,и.распределяемыми объекта ми;. ' , .,...

Практическая; ценность работы. Научное: w народнохозяйственное значение работы состоит в разработке методики выполнения кластерного'анализа фактографических данных и рекомендациях по использованию существующих и созданного методов кластерного анализа. Практическая ценность разработанного метода состоит в том, что он сокращает время проведения исследования. Предложенный в работе метод докластеризации позволяет проводить дополнительные исследования новых объектов без проведения общего анализа всех объектов, что приводит к сокращению временных затрат. Кроме этого, практическое применение результатов работы для исследуемой предметной области — брокерского обслуживания клиентов кредитной организацией, позволило решить задачу выделения существующих групп клиентов, находящихся на обслуживании.

Апробация работы. Основные положения диссертационной работы док ладывались и обсуждались в 2006-2010 гг. на заседаниях комиссий по аттеста ции аспирантов и научных семинарах аспирантов и студентов МГТУ им. Н.Э. Баумана. Апробация работы проводилась на всероссийских и международных конференциях «Телематика 2009», «ИТ в образовании, науке и производстве 2009», «Бизнес-аналитика. Вопросы теории и практики. Использование анали тической платформы Deductor в деятельности учебных заведений 2010»; в рам ках научной^ школы «Компьютерная, графика и математическое моделирова ние»; на семинарах научно-образовательного кластера GLAIM. Материалы ра боты представлены,для ознакомлениями?обсуждения-с 2008 года на web-сайте и в форуме (электронный адрес).

Участники рынка ценных бумаг

Рынок ценных бумаг — это часть финансового рынка, где осуществляется эмиссия и купля-продажа ценных бумаг [99]. Он является одновременно и индикатором рыночной экономики и одним из основных ее финансовых рычагов.

По характеру обращаемых ценных бумаг эту часть финансового рынка можно разделить на первичный и вторичный рынки. На первичном рынке осуществляется первичное размещение выпущенных ценных бумаг среди инвесторов. На вторичном рынке осуществляется купля-продажа ранее выпущенных ценных бумаг.

На момент написания данной работы выделено два рынка ценных бумаг [79]: фондовый (биржевой) и внебиржевой (договорный) рынки. Внебиржевой рынок обращения ценных бумаг представляет собой важный элемент кредитно - финансовой надстройки, так как охватывает новые выпуски ценных бумаг и, в основном, осуществляет финансирование воспроизводственного процесса [79]. Фондовый рынок ценных бумаг занимается обращением старых выпусков ценных бумаг, при котором происходит перераспределение контроля над предприятиями [79].

Биржевой рынок требует, чтобы предлагаемые для продажи акции и облигации проходили специальную регистрацию и удовлетворяли набору дополнительных условий, предоставляющих, максимум деловой информации о том бизнесе, для; финансового обеспечения которого выпускаются именно эти бумаги [79]. Покупка/продажа финансовых инструментов осуществляется с использованием; специального программного: обеспечения по регламентированным правилам торгов [65].

Свободный рынок не предъявляет жестких требований к продавцам и покупателям [79]. На внебиржевом рынке действуют законодательные нормы, обеспечивающие полный- контроль над юридической- составляющей процесса; оформления сделок. В той же мере, чтои на организованном рынке, компании, выпускающие ценные бумаги, несут административную и- уголовную ответстг венность«заюбман-или дезинформацию покупателя [79]. Посредники, обеспечивающие заключение, расчеты по сделкам, действуют в соответствии; с законодательными нормами и правилами обслуживания клиентов; а сама куплят продажа ценных бумаг подлежит юридическому оформлению и имеет полностью правовой характер. Организованный рынок ценных бумаг - система фондовых бирж - обладает четырьмя неотъемлемыми чертами [99]: — сделки совершаются часто; — между ценой спроса и ценой предложения почти никогда нет большого разрыва; — сделки проводятся за короткое время, как правило, не бывает значительного колебания цен. Организованный рынок обладает способностью к самоускорению и самозамедлению [99]. Активный рынок создает впечатление легкой ликвидности ценных бумаг, чем стимулирует их покупку [99]. Кроме того, он привлекает многообразием возможностей, что увеличивает число операций на кредитной основе [99]. Свободный рынок ценных бумаг можно охарактеризовать как рынок, не имеющий определенного местонахождения, сделки на котором осуществляют-ся вне биржи, и представляет собой вторую не.менее важную сферу распространения и оборота инвестиционных ресурсов [99]. Основными участниками свободного рынка являются брокерско-дилерские-. компании, для которых характерна сравнительно узкая специализация по видам бумаг и сделок, а-также банки и инвестиционные компании [79]. В свою? очередь банки подразделяются на. инвестиционные; главным предметом; деятельности которых является подписка на распространение акций и облигаций раз? личных корпораций, и коммерческие, занимающиеся на свободном рынке-глав-ным.образом распродажей федеральных и местных облигаций [79]. Структура рынка ценных бумаг имеет достаточно разветвленный характер и возможности профессионального участника финансового рынка в,части осуществления брокерской деятельности базируются нефинансовых, юридических и технических ресурсах компании, обеспечивающих на должном уровне процесс заключения, расчетов и исполнения сделок в интересах клиентов. Под ценными бумагами понимаются специальным образом оформленные финансовые документы, предъявление которых необходимо для реализации выраженного в них права [99]. Специфика и закономерности процессов первичного и вторичного обращения ценных бумаг определяются в зависимости от их вида. Виды ценных бумаг в мире разнообразны, однако их принято подразделять на группы по тому или иному признаку. Ценные бумаги классифицируют по эмитентам, времени обращения, способу выплаты дохода, экономической природе, уровню риска, территориям [79].

Долевые ценные бумаги (акции) удостоверяют право владельца на долю в капитале предприятия [79]. В федеральном законе акция определена как «эмиссионная ценная бумага, закрепляющая права ее владельца (акционера) на получение части прибыли акционерного общества в виде дивидендов, на участие в управлении акционерным обществом и на часть его имущества, остающегося после ликвидации этого общества» [99].

Исходя из различий в способе выплаты дивидендов, можно выделить акции простые и привилегированные, предоставляющие какие — либо преимущества их держателям. Содержание и конкретные формы реализации преимуществ определяются в учредительных документах. Как правило, эти особые льготы заключаются в преимущественном по сравнению с владельцами, простых акций праве на получение дивидендов [99].

Выбор метода на основе критериев

Как правило, при выполнении кластеризации необходимо настраивать методы кластеризации для исследуемой предметной области в зависимости от исходных данных. Кустомизирующие параметры можно разделить на три группы: — Характеристические; — Итерационные; — Экспертные. Характеристические параметры используются для общей охарактеризации входного набора, такие как, количество записей, количество атрибутов данных, тип атрибутов данных, используемость атрибутов в проведении исследования и др. Итерационные параметры характеризуются тем, что точное значение параметра заведомо неизвестно и подбирается итерационным перебором в выделенном интервале значений. Экспертные параметры используются для более точной настройки- алгоритмов, в состав данного вида параметров входят такие параметры, как количество кластеров, коэффициент отталкивания и др. Величину параметра можно получать эмпирическим путем или итерационным, оценивая результаты- кла-стеризации. Данный вид параметров, как и итерационные параметры, требуют от аналитика наличия определенного1 опыта и знания- специфики предметной области в довольно значительном объеме. При работе над диссертацией было исследовано девять алгоритмов (п. 1.2) и выявлены следующие параметры: — Характеристические параметры: объем обучающего множества, объем валидационного множества, объем тестового множества, количество, тип, используемость атрибутов входного набора данных. — Итерационные параметры: количество кластеров, алгоритм выполнения дополнительной кластеризации, пороговое значение остановки работы алгоритма, способ выбора начальных центров, максимальное количество итераций, количество одновременно обрабатываемых данных, количество предварительных разделов, коэффициент удаленности. — Экспертные параметры: способ определения расстояния между кластерами, метод оценки качества кластеризации, пороговое значение для метода оценки качества кластеризации, начальное пороговое значение алгоритма, процент аномалий (выбросов) в полном объеме, разделяющая функция, скорость обучения сети.

На основании классификации параметров отметим, что наибольшее количество параметров требуют наличия значительного опыта аналитика в предметной области и знания специфики исходных данных, используемых в аналитическом исследовании. Использование значений «по умолчанию» может привести к низкому качеству кластеризации и получению неадекватных результатов даже при правильном выборе метода кластеризации. Отсутствие и недостаточность опыта в предметной области можно компенсировать оценкой проводимой кластеризации, а также тратой.значительно большего времени на проведение исследования. Настроечные параметры методов кластеризации играют решающую роль в проводимых аналитических исследованиях. Проведенный анализ методов кластеризации выявил значительное количество параметров,методов кластеризации. Среди выявленных параметров-можно выделить ключевые параметры, такие как, количество кластеров, способ вычисления1 расстояния между элементами, кластерами, пороговое значение остановки алгоритма, метод оценки качества кластеризации и др., и уточняющие параметры, такие как, скорость обучения сети, процент аномалий, максимальное количество итераций, количество одновременно обрабатываемых данных, количество предварительных разделов и др. Уточняющие параметры позволяют повысить эффективность временной составляющей аналитического исследования, а ключевые параметры определяют характер и качество получаемого результата.

При анализе полностью разделимого набора данных выбор значений настраиваемых параметров позволяет указывать значения части параметров с небольшой погрешностью, так как результирующая погрешность будет сравнительно небольшой величины. При анализе нечетко разделимых наборов данных требуется наибольшая точность, так как она является определяющей в получаемом результате.

В силу направленности методов кластеризации на решение задач в различных предметных областях [15], то они имеют адаптационные настройки и параметры, которые позволяют их адаптировать к той или иной предметной области. В результате анализа выбранных методик кластеризации выявлены следующие параметры методик кластеризации:

Докластеризация исходных данных в процессе исследования

Целью реализации разработанного метода в виде программного решения»! является автоматизация процесса обработки исходных данных и проведения-практических исследований в процессе опытной эксплуатации, а затем и для реального использования данного программного обеспечения в компании.

Основное назначение программного решения - выявление скрытых знаний в исходных данных с применением кластерного анализа исходных данных на базе метода ADAKL, а также формирование результатов обработки в приемлемом для последующей обработки: автоматизированной и аналитической, виде.

Области применения разработки: — Профессиональные участники фондового рынка, оказывающие брокерские услуги на рынке эмиссионных ценных бумаг, для анализа клиентской базы и финансовых инструментов; — Кредитные организации для анализа клиентской базы; — Кластерный анализ смешанных типов данных с целью получения кластеров произвольной формы. В соответствии с существующей классификацией программных решений [71], основой для. которой служит объем конечных функций, реализованных в программном решении, и метод их объединения, на данный момент имеется три группы моделей: — Модель, состоящая из одного компонента и отражающая одну функцию; — Модель, состоящая из одного компонента и отражающая несколько функций; — Модель, состоящая из-нескольких компонентов объединенных в еди ную систему. Существуют следующие- типы организации информационных моделей [71]: — Программный продукт (1JLLI); — Интегрированное решение (ИР); — Информационная система (ИС). Программный продукт (1111) — модель, где решение поставленной задачи организовано в рамках единого компонента, ориентированного на выполнение единственной функции. Не смотря на то, что набор отдельных ПП, может решать и сложные задачи, отсутствие механизмов по их организации позволяет отнести такую информационную модель к простым программным решениям. Интегрированное решение (ИР) — модель, где решение поставленной задачи организовано в рамках одного компонента, ориентированного на выполнение нескольких функции. В моделях данного типа все функции объединены под общей оболочкой осуществляющей управление их работой. Отсутствие механизмов по организации работы функций и их отношений, позволяет отнести данную информационную модель к систематизированным программным решениям. Информационная система (ИС) — модель, где решение поставленной задачи организовано из нескольких компонентов, использующих единый информационный источник, и объеденных в технологическую цепочку. Правила работы данного объединения могут быть выражены как в логике работы отдельных, так и группы приложений. В рамках ИС могут быть использованы приложения, функционирующие на разных программных платформах, и ориентированные на решения узкоспециализированных задач. При этом возможно применение ПП и ИР, еслихсть доступ к их информационным ресурсам или функциям. Наличие механизмов организации взаимодействия компонентов, в процессе выполнения, и их влияние на правила работы друг друга, позволяет отнести такую модель к сложным системам. Данное программное решение можно отнести к типу интегрированных решений [71] ввиду его функциональных возможностей: — Импорт данных из внешних СУБД, поддерживающих стандарт SQL 92: MS SQL, Sybase, Oracle, и т.п., с использованием аутентификации пользователя и указания пароля с применением механизма доступа к данным ODBC6; — Формирование входных параметров для работы метода ADAKL; — Кластерный анализ импортированных данных с использованием метода ADAKL; — Формирование итоговых результатов в виде: таблиц представления, файлов (форматы: текстовый, гипертекстовый (HTML), расширяемый язык гипертекстовой разметки (XML), MS Excel 2003), таблиц используемой СУБД. Сущность «Объект предметной области» представляет собой обобщенный объект предметной области, который имеет набор атрибутов, идентифицирующих объект предметной области, и совокупность атрибутов, определяющих характеристики объекта предметной области.

Описание сравнительных исследований

Данная графическая информация отражает зависимость времени выполнения третьего этапа кластеризации в зависимости от количества записей во входном наборе данных. Характер графика - нелинейный, что подтверждает полученную ранее аналитическую оценку метода (п. 3.6).

Данная графическая информация отражает зависимость времени выполнения четвертого этапа кластеризации в зависимости от количества записей во входном наборе данных. Характер графика - близок к линейному, что вносит коррективы в полученную ранее аналитическую оценку метода: зависимость данного этапа от количества объектов на основе экспериментальных данных -линейная с редкими участками нелинейности, а на основе аналитической оценки - нелинейная (п. 3.6), поэтому из проведенных экспериментов следует, что этап 4 - линейно зависит от количества разделяемых объектов.

Время выполнения пятого этапа анализа в зависимости от количества записей во входном наборе данных. Данная графическая информация отражает зависимость времени выполнения пятого этапа кластеризации в зависимости от количества записей входного набора данных. Характер графика - синусоидальный, что свидетельствует о наличии факторов, влияющих на равномерность проведения экспериментов, например, загрузка среды, в которой проводится эксперимент - рабочая станция, т.к. наличие дополнительных решаемых задач в процессе исследования увеличивает время исследования вне зависимости от проводимых наблюдений.

На данном графике (рис. 28) представлено общее средневзвешенное время выполнения метода в разрезе этапов. Из графика видно, что самым трудоемким этапом из всех является этап 3. Разработанный программный комплекс позволил провести серии экспериментальных исследований с целью получения научного и практического результата. Совокупность сформулированных и обоснованных в диссертации методов и положений, а также её практические результаты представляют собой решение актуальной научно-технической задачи извлечения закономерностей из фактографических данных смешанного типа. Сформулированные положения и разработанный метод адаптивной кластеризации позволяют автоматизировать процесс выбора метода выполнения кластерного анализа данных в выбранной предметной области, а также повысить эффективность и качество кластеризации за счет интеграции методов кластерного анализа. Основные результаты диссертационной работы: 1. Проведено исследование существующих методов и подходов интеллектуального анализа данных, используемых для кластеризации фактографических данных. 2. Проведен анализ аналитических программных комплексов с выделением назначения программного комплекса и основных функциональных возможностей. 3. Разработана общая методика адаптивной кластеризации, которая состоит из пяти этапов: выборка исходных данных, исследование полученной выборки с целью выявления значимых для разбиения характеристик, разработка контрольного примера, выбор метода кластеризации, кластеризация полного объема данных. 4. Для выбора метода кластеризации на основе литературных источников выделено восемь критериев. 5. Разработан критерий для оценки качества разбиения, который позволяет проводить оценку и сравнение результатов исследований на основе сравнения итоговых и ожидаемых количественных показателей разбиения. 6. Разработан метод адаптивной кластеризации (ADAKL) на основе интеграции методов MST и Fuzzy С - Means, определяющий количество кластеров на основе локального критерия, обладающий двухэтапностью, восемью входными параметрами настройки, нечеткостью при распределении объектов по кластерам, возможностью использования объектов с разными типами атрибутов, приемлемым временем работы и конечностью результата. 7. Разработан локальный критерий оценки разбиения множества на кластеры, который учитывает характеристики практической задачи, лежащей в основе научного исследования: выделение кластеров с наименьшими взаимными расстояниями и наибольшим количеством элементов в кластере, минимизация количества кластеров, минимизация взаимных расстояний между получаемыми центрами кластеров и распределяемыми объектами. 8. Разработан метод докластеризации, позволяющий расширять исследованные массивы фактографических данных и уменьшающий затраты времени на проведение исследования за счет выявления взаимных связей между исследованными объектами и добавляемыми объектами. 9. Разработанный метод ADAKL реализован в виде программного решения, который подтверждает аналитическую оценку. 10. На основе программного решения проведены экспериментальные исследования и оценка состоятельности разработанного метода в сравнении с имеющимися методами (к - средние, карты Кохонена).

Похожие диссертации на Методика адаптивной кластеризации фактографических данных на основе интеграции методов минимального остовного дерева и нечетких К-средних