Содержание к диссертации
Введение
ГЛАВА 1 Интеллектуальный анализ данных 14
1.1 Основные определения и этапы ИАД 14
1.2 Процесс обнаружения знаний
1.2.1 Основные этапы процесса обнаружения знаний 18
1.2.2 Подготовка исходных данных
1.3 Задачи ИАД 21
1.4 Методы ИАД 25
1.5 Программные средств, обеспечивающие ИАД
1.5.1 Технология OLAP и многомерные модели данных 36
1.5.2 Обзор программных средств ИАД для СУБД
1.6 Программные средства CBR 57
1.7 Выводы по Главе 1 60
ГЛАВА 2 Интеллектуальных анализ данных на основе прецедентов 62
2.1 Цикл рассуждения (обучения) на основе прецедентов 62
2.2 Модифицированный CBR цикл 64
2.3 Способы представления прецедентов 65
2.4 Извлечение прецедентов 70
2.4.1 Извлечение прецедентов методом ближайшего соседа (ближайших соседей) с использованием различных метрик 75
2.4.2 Модификация алгоритма извлечения прецедентов на основе k-ближайших соседей (k-NN) 81
2.5 Повторное использование прецедентов 83
2.6 Адаптация и применение прецедентов 84
2.7 Сохранение прецедентов 85
2.8 Применение прецедентного подхода для решения задач ИАД 86
2.9 Этапы разработки CBR систем 89
2.10 Выводы по Главе 2 90
ГЛАВА 3 Повышение быстродействия cbr систем 92
3.1 Сокращение количества прецедентов в БП 92
3.1.1 Индексирование БП 93
3.1.2 Сокращение прецедентов в БП с использованием методов классификации 94
3.1.3 Сокращение количества прецедентов в БП на основе кластерных методов 95
3.2 Обобщение накопленного опыта (прецедентов) с использованием индуктивных методов 105
3.2.1 Алгоритм ID3 106
3.2.2 Алгоритм C4.5 108
3.3 Обучение искусственной нейронной сети на основе БП для решения задачи классификации 109
3.3.1 Многослойный персептрон 109
3.3.2 Алгоритмы обучения ИНС 111
3.4 Выводы по Главе 3 116
ГЛАВА 4 Реализация прототипа подсистемы ИАД на основе прецедентов 117
4.1 Архитектура прототипа CBR системы 117
4.2 Особенности реализации прототипа CBR системы
4.2.1 Windows Forms 120
4.2.2 ADO.NET Entity Framework 122
4.2.3 Аналитическая платформа Deductor 123
4.2.4 SQL Server Analysis Services
4.3 Пример использования прототипа CBR системы 129
4.4 Результаты вычислительных экспериментов для сравнения алгоритмов извлечения прецедентов 133
4.4.1 Результаты работы алгоритма k-NN с использованием различных метрик 133
4.4.2 Результаты работы модифицированного алгоритма k-NN 135
4.5 Результаты по оценке качества классификации CBR системой с использованием модифицированного CBR цикла 137
4.6 Результаты сравнения алгоритмов сокращения количества прецедентов в БП 141
4.7 Выводы по Главе 4 144
Заключение 146
Список литературы 148
- Программные средств, обеспечивающие ИАД
- Модифицированный CBR цикл
- Сокращение прецедентов в БП с использованием методов классификации
- Результаты работы модифицированного алгоритма k-NN
Введение к работе
Актуальность темы исследования. В настоящее время в области искусственного интеллекта (ИИ) актуальной задачей является исследование и разработка методов интеллектуального анализа данных (ИАД) и соответствующих программных средств. Методы ИАД активно применяются в интеллектуальных системах (ИС), системах управления базами данных (СУБД) и знаний (СУБЗ), бизнес-приложениях, системах машинного обучения, системах электронного документооборота и др.
В ИАД для извлечения новых знаний из имеющихся данных применяются различные методы: статистические и индуктивные процедуры, генетические алгоритмы, искусственные нейронные сети (ИНС), кластерный анализ, прецедентные методы и др. Для выполнения ИАД в работе предлагается использовать методы ИИ и, в частности, методы правдоподобных рассуждений на основе прецедентов (CBR – Case-Based Reasoning).
Выполненные исследования опираются на результаты работ в области конструирования ИС и моделирования правдоподобных рассуждений в области ИИ Д.А. Поспелова, В.К. Финна, В.Н. Вагина, А.П. Еремеева, О.П. Кузнецова, Г.С. Осипова, А.Б. Петровского, В.Б. Тарасова, И.Б. Фоминых, В.Ф. Хорошевского, Т.А. Гавриловой, Н.Г. Загоруйко, М.М. Бонгарда и др., а также зарубежных ученых Р. Шенка (R. Schank), Р. Абельсона (R. Abelson), Г. Пятецкий-Шапиро (G. Piatetsky-Shapiro), А. Аамодта (A. Aamodt), Е. Плаза (E. Plaza) и др.
Целью работы является исследование и разработка методов и программных средств ИАД на основе прецедентов для СУБД и СУБЗ.
Для достижения указанной цели необходимо решить следующие задачи:
исследование различных технологий, методов и программных средств ИАД для современных СУБД и СУБЗ;
анализ проблем, связанных с разработкой методов и программных средств ИАД для ИС и современных СУБД;
разработка методов ИАД на основе прецедентов для ИС и СУБД, а также методов сокращения количества прецедентов в базе прецедентов (БП);
разработка соответствующих алгоритмов для ИАД на основе прецедентов и алгоритмов сокращения количества прецедентов в БП с использованием классификационных и кластерных методов;
программная реализация прототипа подсистемы ИАД на основе прецедентов.
Объектом исследования являются методы и средства ИАД в СУБД.
Предметом исследования являются методы ИАД на основе прецедентов.
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.11 – «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»: 4. Системы управления базами данных и знаний.
Методы исследования. Поставленные задачи решаются с
использованием методов дискретной математики, математической логики, методов ИИ, методов ИАД, методов правдоподобных рассуждений на основе прецедентов, теории программирования.
Научная новизна исследования состоит в следующем:
-
разработана модификация алгоритма извлечения прецедентов на основе k ближайших соседей (k-NN) для ИАД, заключающаяся в изменении значения k в зависимости от размера БП. Данная модификация позволяет повысить качество решения задач ИАД, в частности, повысить качество классификации данных с использованием CBR метода при увеличении размера БП;
-
предложен модифицированный CBR метод (CBR цикл), использующий экспертную информацию (тестовые наборы данных) для извлечения прецедентов. Данный метод повышает качество решения задач ИАД на основе прецедентов за счет формирования базы удачных (подходящих) и неудачных (неподходящих) прецедентов в процессе выполнения CBR цикла;
-
для повышения быстродействия CBR систем разработаны алгоритмы сокращения количества прецедентов в БП на основе классификационных и кластерных методов. Предложенные алгоритмы позволяют значительно повысить быстродействие CBR систем за счет сокращения количества прецедентов в БП без существенной потери качества решения задач ИАД (например, задачи классификация данных).
Практическая значимость работы заключается в создании
программных средств для реализации ИАД на основе прецедентов в современных ИС (ИСППР) и СУБД с целью повышения эффективности и расширения интеллектуальных возможностей компьютерных систем на примере СУБД.
Практическая значимость работы подтверждается использованием
разработанных в диссертации программных модулей, в том числе модуля для
оптимизации базы прецедентов CBR систем, зарегистрированного в
государственном реестре программ для ЭВМ (свидетельство № 2016617638
от 13 июля 2016 г.), в НИР кафедры ПМ, выполняемой по гранту РФФИ
№15-07-04574 и государственному заданию Минобрнауки РФ
№2.737.2014/К, а также в учебно-научном процессе кафедры ПМ ФГБОУ ВО «НИУ «МЭИ», о чем имеется акт о внедрении.
Достоверность научных результатов подтверждена теоретическими выкладками, данными компьютерного моделирования, а также сравнением полученных результатов с результатами, приведенными в научной литературе.
Апробация работы. Основные положения и результаты диссертации прошли апробацию на ряде научных конференций в том числе с международным участием. На XX международной научно-технической конференции «Информационные средства и технологии», г. Москва, 2012 г., на 19-ой и 20-ой международных научно-технических конференциях студентов и аспирантов «Радиоэлектроника, электротехника и энергетика», г. Москва, 2013, 2014 г.г. и на международном академическом форуме AMO–SPITSE–NESEFF (Москва–Смоленск, 20-25 июня 2016 г.).
Публикации. Основные результаты, полученные при выполнении диссертационной работы, опубликованы в 6 печатных работах и из них две в журнале, включенном в перечень ВАК ведущих рецензируемых научных журналов и изданий.
Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения, списка использованной литературы (117 наименований) и 3 приложений. Диссертация содержит 159 страниц машинописного текста (без приложений), 32 рисунка и 7 таблиц.
Программные средств, обеспечивающие ИАД
После этапа 7 также может осуществляться проверка построенных моделей. Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, которые необходимо анализировать, разбиваются на две группы. Одна из них большего размера, другая – меньшего. На большей группе, применяя те или иные методы DM, получают модели, а на меньшей – проверяют их. По разнице в точности между тестовой и обучающей группами можно судить об адекватности построенной модели.
Окончательная оценка ценности добытого нового знания выходит за рамки анализа, автоматизированного или традиционного, и может быть проведена только после претворения в жизнь решения, принятого на основе добытого знания. Исследование достигнутых практических результатов завершает оценку ценности добытого средствами DM нового знания.
Как уже отмечалось ранее, для применения того или иного метода DM к данным их необходимо подготовить к этому [10]. На начальном этапе необходимо выработать некий четкий набор числовых и нечисловых параметров, характеризующих рассматриваемую проблемную область. Эта задача наименее автоматизирована в том смысле, что выбор системы данных параметров производится человеком, хотя, конечно, их значения могут вычисляться автоматически. После выбора описывающих параметров изучаемые данные могут быть представлены в виде прямоугольной таблицы, в которой каждая строка представляет собой отдельный случай, объект или состояние изучаемого объекта, а каждая колонка – параметры, свойства или признаки исследуемых объектов. Большинство методов DM работают только с подобными прямоугольными таблицами. Подобная прямоугольная таблица является слишком сырым материалом для применения методов DM и входящие в нее данные необходимо предварительно обработать. Во-первых, таблица может содержать параметры, имеющие одинаковые значения для всей колонки (т.е. такие признаки никак не индивидуализируют исследуемые объекты), следовательно, их надо исключить из анализа. Во-вторых, таблица может содержать некоторый категориальный признак, значения которого во всех записях таблицы различны (т.е. нельзя использовать это поле для анализа данных), и его надо исключить. Наконец, просто этих полей может быть очень много, и если все их включить в исследование, то это существенно увеличит время вычислений, поскольку практически для всех методов DM характерна сильная зависимость времени работы от количества параметров (квадратичная, а нередко и экспоненциальная). В то же время зависимость времени от количества исследуемых объектов линейна или близка к линейной. Поэтому в качестве предварительной обработки данных необходимо, во-первых, выделить то множество признаков, которые наиболее важны в контексте данного исследования, отбросить явно неприменимые из-за постоянства или чрезмерной вариабельности и выделить те, которые с наибольшей вероятностью войдут в искомую зависимость. Для этого, как правило, используются статистические методы, основанные на применении корреляционного анализа, линейных регрессий и др. Такие методы позволяют быстро, хотя и приближенно оценить влияние одного параметра на другой.
Помимо «очистки» данных по столбцам таблицы (признакам), иногда бывает необходимо провести предварительную «очистку» данных по строкам таблицы (записям). Любая реальная БД обычно содержит ошибки, очень приблизительно определенные значения, записи, соответствующие каким-то редким, исключительным ситуациям, и другие дефекты, которые могут резко понизить эффективность методов DM, применяемых на следующих этапах анализа. Такие записи необходимо отбросить. Даже если подобные «выбросы» не являются ошибками, а представляют собой редкие исключительные ситуации, они все равно вряд ли могут быть использованы, поскольку по нескольким точкам статистически значимо судить об искомой зависимости невозможно.
ИАД помогает решать многие задачи, с которыми сталкивается аналитик. Среди них основными на данный момент являются задачи классификации, регрессии, кластеризации и поиска ассоциативных правил [10].
По назначению данные задачи можно разделить на описательные (descriptive) и задачи прогнозирования (predictive) [11].
Задачи первого класса уделяют внимание улучшению понимания анализируемых данных. Ключевой момент при этом – легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно для аналитика. К такому виду задач относятся кластеризация и поиск ассоциативных правил.
Решение задач прогнозирования разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии, а также поиск ассоциативных правил, если полученные правила могут быть использованы для предсказания появления некоторых событий.
Модифицированный CBR цикл
В соответствии с прецедентом может включать следующие компоненты [57, 58]: - описание задачи (проблемы или проблемной ситуации); - решение задачи (диагноз по проблемной ситуации и рекомендации ЛПР); - результат применения решения. Описание результата может включать список выполненных действий, дополнительные комментарии и ссылки на другие прецеденты. Прецедент может иметь как положительный, так и отрицательный исход применения решения, а также в некоторых случаях может приводиться обоснование выбора данного решения и возможные альтернативы.
Прецеденты могут быть представлены в виде записей в БД, концептуальных графов, семантической сети, древовидных структур, предикатов, фреймов, рисунков и мультимедийной информации. Основные способы представления прецедентов можно разделить на следующие группы: - параметрические; - объектно-ориентированные; - специальные (в виде деревьев, графов, логических формул и т.д.). Параметрическое представление прецедентов
В большинстве случаев для представления прецедентов достаточно простого параметрического представления, т.е. представления прецедента в виде набора параметров с конкретными значениями и решения (диагноза по проблемной ситуации и рекомендации ЛПР) [1]: CASE= (x1, x2, …, xn, R), где x1…xn – параметры ситуации, описывающей данный прецедент (x1X1, x2X2, …, xnXn), R – диагноз и рекомендации ЛПР, n – количество параметров прецедента, а X1, … , Xn – области допустимых значений соответствующих параметров прецедента.
Дополнительно может присутствовать описание результата применения найденного решения и дополнительные комментарии. Представление прецедентов в виде экспертных правил продукционного типа Такой способ является наиболее понятным и популярным методом представления прецедентов. Правила обеспечивают формальный способ представления рекомендаций, знаний или стратегий. Они чаще подходят в тех случаях, когда предметная область возникает из эмпирических ассоциаций, накопленных за годы работы по решению задач в данной области. В системах, основанных на правилах, предметные знания представляются набором правил, которые проверяются на группе фактов и знаний о текущей ситуации (входной информации). Когда часть правила ЕСЛИ удовлетворяет фактам, то действия, указанные в части ТО, выполняется. Когда это происходит, то говорят, что правило срабатывает.
Интерпретатор правил сопоставляет части правил ЕСЛИ с фактами и выполняет, то правило, часть ЕСЛИ которого соответствует фактам, т.е. интерпретатор правил работает в цикле «сопоставить – выполнить», формируя последовательность действий. Представление прецедентов в структурированной форме
К такому представлению можно отнести деревья, графы, семантические сети [58]. Более подробно данное представление рассмотрим на примере концептуальных графов.
Концептуальный граф (conceptual graph) – это конечный, связанный, двудольный, ориентированный мультиграф. Узлы графа представляют понятия, или концептуальные отношения. В концептуальных графах метки дуг не используются. Отношения между понятиями представляются узлами концептуальных отношений. На рис. 8 узлы b1h, a2a (метки правил) и 19, 56, 47, 9 (номера диагнозов) представляют понятия, а After, DiagnosisThisLable – концептуальные отношения.
В концептуальных графах узлы понятий представляют либо конкретные, либо абстрактные объекты предметной области. Узлы же концептуальных отношений описывают отношения, включающие одно или несколько понятий. Одним из преимуществ концептуальных графов без использования помеченных дуг является простота представления отношений любой арности. N-арное отношение представляется узлом концептуального отношения, имеющего N дуг [59].
Каждый концептуальный граф представляет одно высказывание. Типовая БЗ будет состоять из ряда таких графов. Графы могут быть произвольной сложности, но они должны быть конечными.
В качестве хранения такой информации может быть использован текстовый файл, каждая строчка которого описывает конкретный концептуальный граф, где первым словом является концептуальное отношение, вторым – концептуальное понятие, имеющее исходящую дугу в это отношение, остальные – концептуальные дуги, имеющие входящие дуги из этого отношения.
Гибридные методы представление прецедентов
Для описания проблемной ситуации удобно использовать перечень диагностических признаков, позволяющих однозначно идентифицировать текущее состояние объекта исследования. Например, признаки можно разделить на группы (классы), соответствующие возможным состояниям: поврежденность, разрушение, отказ. Совокупность действий, предпринимаемых для решения (устранения) данного инцидента, в свою очередь, содержит перечень мероприятий по предотвращению и снижению последствий отказов, которые были рекомендованы и приняты.
В большинстве случаев удобно использовать количественные параметры (диагностические признаки) для определения сходства прецедентов и текущей ситуации в соответствии с алгоритмами извлечения прецедентов, а иллюстрации и мультимедиа информацию для визуального восприятия прецедента экспертом. Поэтому гибридный способ представления позволяет объединить положительные стороны различных методов представления прецедентов.
Сокращение прецедентов в БП с использованием методов классификации
Использование прецедентного подхода для решения задач ИАД дает определенные преимущества по сравнению с другими методами ИАД, так как не требует большого объема начальных данных для выполнения анализа и обеспечивает возможность осуществлять анализ базируясь на единичных примерах (прецедентах). Кроме того, CBR метод предоставляет удобный инструмент для накопления опыта (прецедентов), который может быть использован в других методах ИАД.
Рассмотрим применение CBR метода на примере решения одной из основных задач ИАД - задачи классификации данных. Задача классификации данных формулируется следующим образом. Для описания объекта будем использовать признаки Х±, Х2, ..., Хп. Каждый объект (прецедент) с Є СВ (БП) характеризуется набором конкретных значений этих признаков (атрибутов или параметров) с = {х1; х2, ..., хп}, где xt - значение /-ого признака. Такое описание объекта называют признаковым описанием [58].
Рассмотрим отдельные виды признаков. Входной вектор X содержит компоненты X;, называемые далее признаками, или атрибутами объекта. Значения, которые могут принимать признаки объекта, относятся к трем основным типам: количественные или числовые, качественные и шкалированные. То, какие значения принимают признаки, может оказать большое влияние на процесс решения задачи.
В случае числовых признаков на множестве значений признаков может быть введена метрика, позволяющая дать количественную оценку значения признака. Это значит, что различные значения признаков можно сравнивать между собой в количественном плане. Часто такие значения являются результатом измерений физических величин.
В случае, если признаки могут иметь качественный характер, но при этом их значения можно упорядочить друг относительно друга, говорят, что такие значения образуют ранговую или порядковую шкалу. С помощью таких шкал порядка можно судить, какой из двух объектов является наилучшим, но нельзя оценить, сколь близки или далеки эти объекты по некоторому критерию.
Третий случай заключается в том, что значения признаков имеют качественный характер, связать эти значения между собой не удается. Рассмотрим пример задания обучающей выборки (начальный набор прецедентов) с разными типами признаков и результатам классификации по рейтингу студентов.
Каждая строка в таблице соответствует одному объекту классификации. Любой объект характеризуется признаками, среди которых есть количественные (например, возраст, средняя оценка по экзаменам), качественные (например, пол) и шкалированные (например, объем самостоятельной работы по дисциплине). Выборки такого типа являются исходными данными для алгоритмов классификации (табл. 2).
Сидоров А.С. М 21 маленький 3,3 низкий Поскольку задача классификации состоит в отнесении объекта к одному из классов признаков (параметров), одним из способов сравнения объектов является их сравнение на основе мер близости (сходства). Если известны объекты (прецеденты) некоторого класса, то можно оценить меру близости объекта (новой ситуации) классу на основании значений меры близости (или сходства) данного объекта и объектов, принадлежащих классу. Объект следует отнести к тому классу, для которого мера близости максимальна.
Для числовых объектов мерой близости является расстояние. Расстояние (,) между двумя объектами c и T может быть определено по одной из метрик, приведенных в разделе 2.4.1.
Рассмотрим подробнее различные подходы к решению задачи об отнесении объекта к некоторому классу. Самым простым вариантом системы, решающей задачу классификации, являются системы без обучения. В таких системах заранее известны классы, к которым могут относиться предъявляемые объекты, а также критерии отнесения объекта к классу. Таким образом, известны как сами классы, так и критерии отнесения предъявленной детали к каждому из классов.
Более сложными являются системы с обучением. В системах с обучением не задан алгоритм разделения предъявляемых объектов на классы. Процесс создания такого алгоритма и называется обучением. Для обучения используется определенный набор объектов, называемый далее обучающим множеством или обучающей выборкой. Далее остановимся на рассмотрении систем с обучением более подробно.
В системах с обучением структура алгоритмов, классифицирующих объекты, тесно связана с видом информации, представленной в обучающей выборке. Исходная информация представлена в виде множества объектов (БП), для каждого из которых известно, к какому из классов он отнесен. При этом неизвестны критерии отнесения объектов к какому-либо классу. В случае, если в выборку вошли не все примеры классов, можно считать, что число классов также неизвестно. Здесь задача обучения состоит в построении алгоритма, позволяющего отнести предъявленный объект к одному из известных классов. Процесс построения такого алгоритма назовем управляемым обучением или обучением «с учителем». Будем считать, что алгоритм классификации построен правильно, если для любого объекта из обучающей выборки он дает правильный р е зул ьт ат.
CBR метод можно отнести к системам обучения с учителем. В качестве обучающие выборки используется накопленная БП. Для каждого прецедента из БП известен класс, к которому он принадлежит, но при этом могут быть неизвестны критерии отнесения объектов к какому-либо классу. При поступлении новой ситуации, которая еще не классифицирована, CBR метод позволяет определить ее принадлежность к определенному классу за счет определения близости текущей ситуации к прецедентам из БП на основе метода NN или k-NN. В р е з ул ьт а т е , новая ситуация относится к классу, кото р ый соответствует ближайшему прецеденту или прецедентам.
Результаты работы модифицированного алгоритма k-NN
Microsoft SQL Server Analysis Services (SSAS) обеспечивают интерактивную аналитическую обработку (OLAP) и функции ИАД для приложений бизнес-аналитики [111]. Службы Analysis Services поддерживают OLAP, позволяя разрабатывать и создавать многомерные структуры, которые содержат данные, собранные из других источников, таких как реляционные БД, а также управлять этими структурами. Для приложений ИАД службы Analysis Services позволяют разрабатывать, создавать и наглядно представлять модели ИАД, построенные на основе других источников данных, используя с этой целью широкий спектр стандартных алгоритмов ИАД.
В службах SSAS предусмотрены функции интерактивной аналитической обработки и ИАД для решений в области бизнес-аналитики. Прежде чем приступить к разработке решения бизнес-аналитики при помощи служб Analysis Services, следует ознакомиться с основными понятиями OLAP и ИАД, которые необходимо знать для разработки эффективного решения.
Службы Analysis Services сочетают в себе лучшие аспекты традиционного анализа на основе OLAP и реляционной отчетности, позволяя разработчикам определять одну модель данных, именуемую унифицированной многомерной моделью (UDM) [112], для одного или нескольких физических источников данных. Все запросы конечного пользователя из OLAP, из отчетов и из пользовательских приложений бизнес-аналитики получают доступ к данным в базовых источниках данных посредством унифицированной многомерной модели, обеспечивающей единое бизнес-представление таких реляционных данных.
Службы Analysis Services предоставляют большой набор алгоритмов ИАД, которые позволяют бизнес-пользователям выполнять ИАД с целью выявления определенных закономерностей и трендов. Такие алгоритмы ИАД могут использоваться для анализа данных посредством унифицированной многомерной модели или непосредственно из физического хранилища данных.
SSAS используют как серверные, так и клиентские компоненты для предоставления приложениям бизнес-аналитики функций оперативной аналитической обработки и ИАД [111]:
Серверный компонент служб Analysis Services реализован в виде службы Microsoft Windows. С л у ж б ы SQL Server Analysis Services поддерживают работу нескольких экземпляров на одном компьютере, при этом каждый экземпляр служб Analysis Services реализован как отдельный экземпляр службы Windows.
Клиенты связываются со службами Analysis Services, которые рассматриваются как веб-службы, с помощью общедоступного стандарта XML для аналитики (XMLA) [113] – протокола, основанного на SOAP [114], для выполнения команд и принятия ответов. Модели клиентских объектов также предоставляются через XMLA, и получить доступ к ним можно с помощью управляемого поставщика, например, ADOMD.NET, или посредством собственных поставщиков данных OLE DB.
Команды запроса могут выполняться с помощью следующих языков: SQL; многомерных выражений – языка запросов отраслевого стандарта, ориентированного на анализ; расширений ИАД – языка запросов отраслевого стандарта, ориентированного на ИАД. Также язык сценариев служб Analysis Services (ASSL) можно использовать для управления объектами БД служб Analysis Services.
В экземпляре служб SSAS содержатся объекты БД и сборки для использования с интерактивной аналитической обработкой и ИАД:
В БД содержатся объекты OLAP и ИАД, такие как источники данных, представления источников данных, кубы, меры, группы мер, атрибуты, иерархии, структуры и модели ИАД, а также роли.
В сборках содержатся пользовательские функции, расширяющие функциональность внутренних функций, обеспечиваемых языками многомерных выражений и расширениями ИАД.
В роботе SSAS были использованы для классификации и кластеризации уже накопленных БП, а также для обучения ИНС и построения дерева решений на основе прецедентов из БП CBR системы.
Работа прототипа была рассмотрена на примере наборов данных из репозитория UCI Machine Learning Repository Калифорнийского университета [115]. БД с информацией об уровне знаний обучающихся (студентов) по дисциплине «Электрические машины постоянного тока» (прилож. 3). БД из репозитория включает 258 примеров, характеризующихся 5 атрибутами (параметрами) и принадлежащих одному из 4 решений (классов): 1 – очень низкий (very low), 2 – низкий (low), 3 – средний (middle) и 4 – высокий (high) (рис. 17).