Содержание к диссертации
Введение
Глава 1. Обзор и сравнительный анализ инструментальных средств, моделей и методов Data Mining 13
1.1. Постановка задачи 13
1.2 Классификация и сравнительный анализ инструментов DM 15
1.3. Выбор класса DM-инструментов для реализации аналитического проекта масштаба предприятия 23
Выводы по 1-й главе 25
Глава II. Разработка двухуровневого сценарного подхода к реализации DM-проектов на основе аналитических платформ 26
2.1. Постановка задачи 26
2.2 Разработка 2-уровневого сценарного подхода к организации аналитического процесса 28
2.4. Разработка сценариев II уровня 34
2.4.1. Сценарий построения модели численного предсказания на основе нейронной сети .34
2.4.2 Сценарий для построения классификационной модели на основе дерева решений 54
2.4.3 Построение кластерной модели на основе карты Кохонена 65
2.4.4. Построение ассоциативной классификационной модели на основе метода Apriori 80
2.5. Разработка интеллектуальной модели для оценки сложности аналитических проектов 90
Глава 3. Разработка интеллектуальной модели урожайности зерновых по данным агрохимического обследования почв 98
3.1. Постановка задачи 98
3.2. Исходные данные для моделирования 100
3.2. Построение нейросетевой модели урожайности 111
3.3. Моделирование урожайности с помощью деревьев решений 138
3.4.1. Постановка задачи 138
3.4.2. Построение карты Кохонена 139
3.4.2. Обучение карты Кохонена 147
3.4. Моделирование урожайности на основе ассоциативного анализа 151
3.4.1. Постановка задачи 151
3.6.1. Генерация ассоциативных правил 153
3.5.1. Актуальность ассоциативных правил 159
3.6.1. Ассоциативные модели 162
3.6.2. Практическая работа с ассоциативной моделью 165
3.5. Оценка обобщающей способности моделей урожайности 170
3.6. Построение ансамбля моделей 172
3.6.1 Выбор метода построения ансамбля 172
3.6.2. Построение ансамбля моделей на основе стекинга 175
Выводы по 3-й главе 180
Глава 4. Разработка бинарной классификационной модели для анализа клиентской базы кредитной организации 181
4.1. Постановка задачи 181
4.2. Описание источника данных 182
4.3. Снижение размерности исходных данных 184
4.3. Построение моделей отклика 188
Выводы по 4 главе 195
Заключение 196
Библиографический список 198
- Классификация и сравнительный анализ инструментов DM
- Построение кластерной модели на основе карты Кохонена
- Построение нейросетевой модели урожайности
- Практическая работа с ассоциативной моделью
Введение к работе
Актуальность работы. Ключевым фактором обеспечения качественного управления в социальных и экономических системах является организация непрерывного поиска новых, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для эффективной поддержки принятия управленческих решений (УР). Важнейшим инструментом поиска знаний является глубокий и всесторонний анализ данных, описывающих процессы и явления в социальных и экономических системах, с использованием современных информационных технологий.
Высокая динамика и сложность современной экономической и социальной сфер предъявляет особые требования к организации таких исследований. Смещение центров принятия УР от высших эшелонов управления на уровень специалистов, непосредственно интегрированных в социальные, экономические и бизнес процессы, требует разработки методов и моделей анализа данных, которые могут применяться на практике широким кругом специалистов, не имеющими специального образования. Результаты анализа должны быть обобщаемы и тиражируемы для возможности применения построенных моделей для решения аналогичных задач на новых данных.
Наиболее перспективным направлением информационных технологий, используемым для организации поддержки принятия решений в социальных и экономических системах, в настоящее время является интеллектуальный анализ данных, также известный как Data Mining (DM) - раскопка, разработка данных. Это междисциплинарное направление, включающее элементы искусственного интеллекта (ИИ), математической статистики и машинного обучения (МО), применяемых для решения задач классификации, кластеризации и ассоциативного анализа.
Вместе с тем DM не дает шаблонов готовых решений и не предписывает строгих алгоритмов для той или иной задачи анализа. Он представляет собой методологию организации аналитической обработки данных, приемы и методы которой позволит извлечь из них максимум полезных знаний. Ядром аналитических технологий DM являются методы МО, позволяющие в автоматическом режиме восстанавливать структуры, зависимости и закономерности в данных, интерпретация и осмысление которых экспертом или аналитиком, позволяет делать заключении и выводы об особенностях состояния и развития явлений и процессов, вырабатывать рекомендации по более эффективному управлению ими.
Процесс внедрения DM-технологий в практическую деятельность предприятий и организаций для решения конкретных задач повышения эффективности управления в большинстве случаев достаточно затратный и трудоемкий. Основными проблемами являются отсутствие формальной постановки задачи и стратегии поиска знаний, эвристический характер большинства интеллектуальных моделей, высокая размерность и низкое качество данных. Поэтому разработка новых подходов и методов по реализации DM-проектов при решении конкретных задач повышения эффективности управления в социальных и экономических системах, является актуальной научно-технической задачей.
Степень разработанности проблемы. Развитие методов МО, как направлении ИИ связано с работами зарубежных ученых Б. Уидроу, М. Мински, П. Дж. Вербоса, Дж. Хоп-филда, Д. Румельхарта, С. Пайперта, и отечественных: А.Б. Новикова, А. И. Галушкина, А.Н. Горбаня, СИ. Барцева, В.А. Охонина, В. Н. Вапника, А.Я. Червонескиса, Ю.И. Журавлева, К.В. Рудакова и др. В 70-80 г. XX в. в рамках МО были предложены деревья решений (Дж. Р. Куинлен, Л. Брейман), ассоциативные правила (Р. Агравал, Р. Шрикант), самоорганизующиеся карты признаков (Т. Кохонен) и др. Формирование DM как научного
направления связано с работами Г. Пятецкого-Шапиро, У. Файада, П. Смита и др. Значительный вклад в области моделирования социальных и экономических систем с целью анализа их функционирования и синтеза управленческих решений внесли В.Н. Бурков, Д.А. Новиков и др.
Предметом исследования в работе являются методы и алгоритмы DM, методология и проблемы их применения в задачах моделирования объектов и процессов в экономической, социальной и бизнес среде.
Объектом исследования избраны: аналитические технологии Data Mining, алгоритмы и методы МО: нейронные сети, деревья решений, карты Кохонена, ассоциативные правила, методы их применения для реализации практических задач анализа данных в социальных и экономических системах.
Цель работы. Разработка методов и моделей анализа данных в социальных и экономических системах с использованием интеллектуальных аналитических технологий Data Mining для повышения эффективности синтеза управленческих решений на основе знаний, обнаруженных в массивах данных.
Для реализации поставленной цели в диссертационной работе были поставлены и решены следующие задачи:
-
провести обзор и сравнительный анализ инструментальных средств DM и существующих подходов к организации процесса интеллектуальной аналитической обработки данных, разработать систему критериев и классификации аналитических инструментов;
-
определить основные факторы, влияющие на успешное внедрение аналитических DM-проектов на уровне специалистов, непосредственно интегрированных в процессы управления в социальных и экономических системах, разработана модель для оценки сложности аналитических DM-проектов;
-
разработать концепцию сценарного подхода к организации интеллектуальной среды аналитического DM-приложения на основе межотраслевого стандарта организации интеллектуального анализа данных CRISP-DM;
4) разработать сценарии построения базовых интеллектуальных моделей на основе
нейронных сетей, деревьев решений, карт Кохонена, и интерфейс пользователя для их реализа
ции;
-
разработать комплексную интеллектуальную модель урожайности зерновых по данным агрохимического обследования почв на основе нейронной сети, дерева решений, карт Кохонена и ассоциативной модели, агрегируемых в ансамбль на основе алгоритма стекинга;
-
разработать комплексную модель для анализа клиентской базы кредитной организации на основе ансамбля моделей, основанных на машинном обучении.
Соответствие паспорту специальности. Диссертационная работа выполнена в рамках п. 1.10 «Разработка методов и алгоритмов интеллектуальной поддержки принятия управленческих решений в экономических и социальных системах» и п. 1.12. «Разработка новых информационных технологий в решении задач управления и принятия решений в социальных и экономических системах», паспорта специальности 05.13.10 - «Управление в социальных и экономических системах». Теоретическую и методологическую основу исследования составили современная теория прикладной статистики, машинного обучения, искусственного интеллекта, теории информации, агротехнологий.
Информационно-эмпирическую базу исследований составили ведомости агрохимического обследования почв ОАО СПК «Рассвет» Тульской области и набор анкетных данных клиентов компании, специализирующейся в области потребительского кредитова-
ния. Обработка данных производилась на основе свободно распространяемой аналитической платформы Deductor Academic российской компании «ООО Аналитические технологии» ().
Положения, выносимые на защиту и их научная новизна
1. Система классификации программных средств Data Mining с целью выбора про
граммного обеспечения для реализации и внедрения проектов интеллектуального анализа
данных. Существенными отличиями являются:
максимально широкой охват инструментальных средств DM различных разработчиков и уровней сложности;
разработка критериев и рекомендаций для выбора DM-средств с точки зрения внедрения на уровне специалистов, непосредственно интегрированных в процессы в социальных и экономических системах.
2. Двухуровневый сценарный подход к организации и управлению аналитическими про
ектами DM в области моделирования социальных и экономических систем в соответствии со
стандартом CRISP-DM. Существенными отличиями от существующих подходов являются:
иерархически структурированная последовательность операций аналитической обработки данных, представляемая в виде дерева с возможностью управления процессом моделирования посредством модификации его узлов и ветвей;
сценарии построения интеллектуальных моделей, основанных на машинном обучении, с использованием декомпозиции процесса моделирования на этапы, реализуемые с помощью эвристических процедур;
интеллектуальный интерфейс пользователя для реализации разработанных сценариев.
3. Комплексная модель урожайности зерновых по данным агрохимического обследо
вания почв с помощью ансамбля интеллектуальных моделей, основанных на машинном
обучении, агрегируемых с использованием стекинга. Основными отличиями являются:
комплексное использование нескольких типов интеллектуальных моделей (нейронной сети, дерева решений, карты Кохонена и ассоциативной классификации) позволяет сопоставлять и сравнивать результаты, полученные с помощью различных моделей с целью оценки их согласованности и достоверности;
концепция интеллектуального моделирования урожайности, позволяющая перейти от использования ретроспективных данных, к пространственным, что, в частности, более удобно для организации точного земледелия;
усовершенствованный алгоритм построения дерева решений с автоматическим выбором наиболее значимого атрибута разбиения в условиях неопределенности критерия Gain-Ratio, на основе остаточной взаимной энтропии;
усовершенствованная модель ассоциативной классификации на основе алгоритма поиска ассоциативных правил Apriori с использованием нового показателя - актуальности правил.
4. Комплексная интеллектуальная модель для анализа клиентской базы кредитной
организации с целью совершенствования маркетинговой стратегии на основе исследова
ния зависимости свойств клиента и его отклика на коммерческие предложения. Основны
ми отличиями являются:
комплексное применение нескольких моделей с целью повышения достоверности результатов и объясняющей способности бинарной классификации;
методика сокращения размерности пространства входных признаков в условиях наличия большого количества числовых и категориальных факторов в исходных данных на основе применения дивергенции Кульбака-Лейблера.
Практическая значимость работы заключается в том, что сформулированные выводы и предложения, разработанные подходы и модели могут быть использованы широким кругом специалистов, занимающихся разработкой и внедрением DM-проектов на основе аналитических платформ и приложений. Модель оценки сложности аналитических проектов позволяет повысить эффективность планирования, разработки, реализации и внедрения проектов Data Mining. Модель урожайности на основе данных агрохимического обследования почв может быть использована предприятиями АПК, специализирующимися в области растениеводства, для повышения эффективности управления производством на основе оценивания урожайности с целью планирования севооборотов, оптимизации агро-технологических мероприятий и определения их экономического эффекта. Модель отклика клиентов на рекламную рассылку по анкетным данным может использоваться компаниями в области потребительского кредитования, для повышения эффективности маркетинговой стратегии и продвижения новых видов продуктов и услуг.
Апробация результатов работы. Основные результаты исследования докладывались и обсуждались на:
Международной научно-практической конференции «Дни науки» (Прага, 2011);
VII Международной научной конференции «Гуманитарные науки и современность» (Москва, 26 сентября 2012 г.);
Всероссийской научно-практической конференции «Актуальные проблемы и их инновационные решения в АПК» (Рязань, 2011);
Всероссийской-научно-практической конференции «Интеграция науки с сельскохозяйственным производством» (Рязань, 2011);
семинарах и научных сессиях учетно-экономического факультета Рязанского государственного агротехнологического университета;
- семинарах и научных сессиях Рязанского государственного радиотехнического
университета;
- результаты диссертационного исследования использовались в НИР "Разработка си
стемы поддержки принятия решений в структурах АПК на основе современных платформ
бизнес-аналитики", поддержанной субсидией Министерства сельского хозяйства и продо
вольствия Рязанской области на проведение работ по разработке приоритетных направле
ний научно-технического прогресса в агропромышленном комплексе.
Внедрение результатов исследования. Предложенные методы и модели аналитической обработки данных прошли успешную верификацию на реальных данных. Отдельные результаты диссертационного исследования нашли применение в практической деятельности компании ООО «НАНОАГРОТЕХ», ООО «Аналитические технологии». Результаты исследований применяются при чтении курсов лекций «Информационные технологии в экономике», в Рязанском государственном агротехнологическом университете, «Интеллектуальные подсистемы САПР» в Рязанском государственном радиотехническом университете, «Статистика» по специальности «Государственное и муниципальное управление» и «Управление персоналом» в Рязанском государственном университете им. С.А. Есенина.
Публикации. По теме диссертации опубликовано 18 работ, в том числе: 6 статей в изданиях, рекомендованных ВАК РФ, 1 монография (2 издания: 2009 и 2011 г.), 1 учебное пособие, 10 работ в изданиях, зарегистрированных в Госкомнадзоре РФ и сборниках трудов научных и научно-практических конференций.
Структура и объем работы. Диссертация состоит из введения, 4-х глав, заключения, списка литературы и 3 приложений, которые содержит документы о внедрении и практи-
ческом использовании полученных результатов, таблицы исходных данных и интерфейсы. Основной текст работы содержит 209 страниц, 76 рисунков, 31 таблицу. Список литературы включает 127 наименований.
Классификация и сравнительный анализ инструментов DM
К концу первого десятилетия XXI века рынок аналитического ПО достиг объема 7,8 млрд. долл. США (с ежегодным ростом 12,1%). Из них 1,6 млрд. долл. приходилось на средства «расширенной аналитики», представляющие собой интеграцию DM и статистики (например, STATISTICA Data Mining компании StatSoft). [91 ] Начали интегрировать элементы DM в свои программные продукты и компании, специализирующиеся в области бизнес-аналитики и баз данных (например, Oracle Data Mining). Крупнейшими игроками на рынке ПО для DM стали: SAS Institute (SAS Enterprise Miner - 33,2%), IBM (ЮМ SPSS Modeler -14,3%, до 2009 г. SPSS Clementine), Microsoft (SQL Server Analysis Services, 1.7%), Teradata (TeraMinerl .5%), and ТЮСО (ТШСО Spotfire, 1.4%) (рис. 1.1).
Начиная с середины 1990 г. популярными становятся библиотеки с открытым исходным кодом, например WEKA (Waikato Environment for Knowledge Analysis). Большую группу DM-инструментов образуют так называемые прототипы - системы компьютерной математики изначально не ориентированные на DM, но содержащие операторы и функции, поддерживающие реализацию алгоритмов и методов ИАД (тулбоксы MATLAB, библиотеки языка R и т.д.).
Параллельно с ростом числа доступных DM-инструментов росла их сложность для большинства потенциальных пользователей. Поэтому были предприняты попытки разработать единые подходы к реализации DM процессов, представлению данных и интерфейсов для моделирования. Результатом стала разработка Межотраслевого стандарта обработки данных для Data Mining.
Критерии для сравнения инструментов DM. Чтобы произвести обоснованный выбор класса программных средств для DM, необходимо сформулировать критерии для их сравнения и разработать систему классификации.
В качестве критериев для сравнения DM-приложений выберем следующие.
1. Целевые группы пользователей:
Бизнес-приложения - данная группа использует инструменты DM как средства для решения задач в сфере управления и бизнеса (например CRM, оптимизация складских запасов, обнаружение мошенничеств и т.д.), для нее характерны коммерческие DM-продукты, поддерживающие работу с большими объемами данных и глубокую интеграцию в бизнес-процессы.
Прикладные исследования — применение DM к исследовательским задачам в различных научных областях (медицине, биологии, генетике, технологии и т.д.) [70, 82, 84]. Здесь пользователей интересует хорошая обоснованность и корректность используемых методов и алгоритмов, дружественный и интуитивно понятный интерфейс пользователя, возможность работы с проблемно-ориентированными форматами и базами данных.
Разработка новых методов и алгоритмов анализа - средства для создания и интегрирования собственных алгоритмов и моделей, так и для сравнения их с существующими. Такие средства должны содержать большое количество альтернативных моделей и алгоритмов DM.
Образование - для обучения студентов вузов теории и практическому применению интеллектуальных технологий анализа желательно использовать «облегченные» DM-инструменты, с развитым и интуитивно-понятным интер 17 фейсом пользователя и высоким разнообразием интегрированных алгоритмов и методов анализа.
2. Структуры данных,
Структурированные данные — упорядоченные в строки (записи) и типизированные столбцы. Ранние инструменты DM были ориентированы на ручную обработку 2-мерных таблиц, где каждая запись представляла собой наблюдение, а каждый столбец - признак.
Неструктурированные данные — текст, анализ которого производится специальными методами, образующими отдельную группу Text Mining [6].
Одномерные данные - содержат один ряд значений. Типичный пример - временные ряды. Основной задачей анализа временных рядов является прогнозирование [60 .
Многомерные данные - число рядов данных два и более. Многие задачи DM могут потребовать работы с несколькими десятками и даже сотнями признаков. В этом случае необходимо использовать эффективные методы снижения размерности данных с целью выделения наиболее релевантных признаков. Перспективным направлением DM является разработка средств анализа изображений и видеоданных - Multimedia Data Mining [90]
3. Задачи и методы.
Обучение с учителем, при известных значениях целевой переменной:
- классификации - предсказание переменной класса;
- нечеткая классификация - плавное изменение принадлежности к классу, определяемое функцией заданного вида (трапециевидной, треугольной и т.д.);
- численное предсказание (регрессия) - предсказание значений выходной переменной вещественного типа;
Обучение без учителя, когда значения целевой переменной неизвестны:
- кластеризация - обнаружение и описание групп похожих наблюдений в данных на основе четких и нечетких алгоритмов:
- ассоциативное обучение - обнаружение групп объектов, которые часто появляются в наблюдениях совместно. - обучение с частичным использованием учителя - на основе примеров, когда значение целевой переменной задано только для некоторых из них.
Очистка и предобработка данных — комплекс задач, связанных с подготовкой данных к аналитической обработке (могут иметь и самостоятельное применение) [65]:
- очистка данных - исключение аномалий, дубликатов, противоречий;
- фильтрация - сглаживание, очистка от шума;
- трансформация - математические операции, включающие логарифмирование, квантование, сокращение размерности, факторный анализ и т.д.,
- оценка значимости и отбор признаков;
- проверка моделей (перекрестная проверка, бутстреп-проверка, тесты статистической значимости и т.д.);
- семплинг (формирование выборок);
- комбинирование моделей в ансамбли (бустинг, беггинг, стекинг);
Большинство данных задач может быть решено как с помощью статистических методов - классификаторов, использующих оценки на основе функций плотности вероятностей (ФПВ), метода наименьших квадратов, дискриминантого и факторного анализа, так и с помощью более современных методов машинного обучения (МО) - нейронных сетей (НС), нечетких моделей, деревьев решений (ДР), карт Кохонена (КК), ассоциативных правил, машин опорных векторов.
Не все из перечисленных методов и алгоритмов DM одинаково доступны в аналитическом ПО. В этой связи можно выделить:
- часто встречающиеся - корреляционный анализ, статистический отбор признаков и тесты значимости, классификаторы на основе оценок ФПВ;
- во многих средствах - нейронные сети, деревья решений, регрессия, очистка и фильтрация, регрессия, метод главных компонент, факторный анализ, отбор переменных, перекрестная проверка;
- в некоторых средствах - нечеткая классификация, ассоциативный анализ, ансамбли моделей, бутстрэппинг, машины опорных векторов, метод к-ближайших соседей, байесовские сети; - редко встречающиеся - случайные леса, обучение нечетких систем, эволюционные алгоритмы.
4. Интерактивность и визуализация.
Можно выделить три способа взаимодействия пользователя и DM-приложением:
- полностью текстовый интерфейс с использованием языка программирования - труден для работы, доступен только для специалистов высокого уровня;
- графический интерфейс с меню - более прост в использовании, но недостаточно для использования широким кругом пользователей, не имеющей специальной подготовки;
- графический интерфейс с выбором функциональных блоков, моделей и алгоритмов (операторов), каждый из которых обозначен уникальной пиктограммой, из тематических библиотек. Выбранные операторы помещаются в рабочую область, задаются их параметры и производится их соединение с помощью связей. В результате образуется полный DM-поток (data mining stream). Примеры такой организации представлен на рис. 1.2 .
Построение кластерной модели на основе карты Кохонена
Модели численного предсказания и классификации на основе МО, имеют важнейшее общее свойство - для их построения необходимо располагать множеством наблюдений, для которых заранее определено значение выходной переменной или метка класса. В то же время существует множество задач, где значения выходного признака неизвестны, их измерение сопряжено с большими временными и материальными затратами, или невозможно выделить сам целевой признак.
Выбор целевой переменной с точки зрения многих практических задач неоднозначен, поскольку отражает только субъективное представление человека о свойствах исследуемых процессов и объектов [36]. Например, система классификации - это всего лишь предположения об общих свойствах объектов.
Два разных аналитика на основе одного и того же набора данных в рамках одной и той же задачи могут построить различные системы классов. Это делает анализ данных с использованием предопределенных значений целевых переменных несколько искусственным. Отказ от использования целевой переменной, напротив, делает анализ более естественным, не связанным какими-либо предварительными условиями или ограничениями: гипотетическими зависимостями в численном предсказании или классами в классификации.
Для обнаружения закономерностей в данных, когда нельзя указать зависимую и независимую переменную модели, в DM используется кластеризация -группировка объектов по близости их признаков на основе обучения без учителя [59]. Кластеризацию можно рассматривать как своего рода «антипод» классификации, в которой предполагается, что группы наблюдений с близкими свойствами уже обнаружены и проинтерпретированы, а также известны критерии, по которым любое новое наблюдение должно быть отнесено к тому или иному классу. Поскольку свойства объектов внутри класса известны, они могут быть обобщены на любой новый объект, отнесенный к классу.
В кластеризации знание свойств единственного объекта в кластере также даст возможность обобщить их на остальные объекты. Но кластеры, в отличие от классов, формируются исключительно на основе свойств данных, а не представлений аналитика. Это дает возможность обнаруживать принципиально новые, внеконцептуальные, свойства объектов и процессов, относительно которых ранее отсутствовали какие либо представления и гипотезы.
Кластеры можно рассматривать как «сгустки» (собственно, cluster и переводится как сгусток, пучок, гроздь) векторов наблюдений в многомерном пространстве признаков (рис. 2.15). При этом расстояние между любыми двумя объектами внутри кластера намного меньше расстояния до объектов из других кластеров. Следовательно, вместо целевой переменной, для отнесения объекта к одному из кластеров, можно использовать расстояния между ними.
В рамках МО разработано большое количество различных итеративных алгоритмов кластеризации: k-средних (к-медиан), Expectation-Maximization, CLOPE семейства алгоритмов FOREL и CRAB, и др., имеющих различную точность и вычислительную трудоемкость. Главной проблемой большинства методов кластеризации является визуализация многомерной структуры кластеров, которая обеспечила бы возможность их эффективной интерпретации и понимания. Простейшим способом визуализации результатов кластеризации многомерных данных является табличное представление, когда каждый кластер представляется в отдельной таблице, или когда в общей таблице каждому наблюдению присваивается метка кластера. Среди графических способов наибольшей популярностью пользуются дендрограммы. Но при работе с большими массивами многомерных данных эти способы оказываются неэффективными. Поэтому в DM наиболее перспективным методом кластеризации и представления ее результатов являются карты Кохонена или самоорганизующиеся карты признаков (Self-Organizing map) [81]. В основе метода лежит кластеризация с помощью нейронной сети Кохонена с последующей визуализацией на основе двумерных карт, строящихся по методу топологического подобия.
Сеть Кохонена. Нейронная сеть Кохонена (СК) - специальный тип НС, который содержат 2 слоя - входной и выходной (рис. 2.16). Каждый нейрон имеет вектор весов, размерность которого равна размерности пространства признаков. Следовательно, соответствующая настройка векторов весов нейронов СК позволяет ассоциировать их с наблюдениями из обучающего набора данных. Именно такая настройка весов и лежит в основе обучения СК.
Входной слой СК одержит число нейронов, равное числу признаков исходного набора данных. Количество нейронов в выходном слое равно числу кластеров, формируемых моделью. Каждый нейрон входного слоя связан со всеми нейронами выходного.
Каждый выходной нейрон ассоциирован с кластером и, следовательно, в зависимости от того, какой из них возбуждается при подаче на вход СК определенного наблюдения, оно относится к соответствующему кластеру.
Обучение сетей Кохонена (конкурентное обучение). Для обучения СК используется конкурентное обучение или алгоритм Кохонена [81]. Оно представляет собой итеративную процедуру, в которой нейроны выходного слоя «конкурируют» между собой за право оказаться «ближе» (в смысле расстояния в векторном пространстве) к векторам обучающих примеров, подаваемых на вход модели. Перед началом процесса обучения веса выходных нейронов инициализируются небольшими случайными значениями. Каждая итерация конкурентного обучения содержит следующие шаги:
1. Конкуренция (competition). На вход сети подается вектор признаков обучающего наблюдения \-(х{,х1,...хп) и для него определяется выходной нейрон, вектор весов которого наиболее близок к X. Такой нейрон объявляется «победителем».
2. Объединение (cooperation). Для нейрона-победителя определяется группа нейронов выходного слоя, евклидово расстояние до которых не превышает заданной величины, называемой радиусом обучения. Все нейроны, оказавшиеся в пределах радиуса обучения нейрона-победителя должны подстраивать свои веса в направлении его вектора, т.е. участвовать в процессе обучения. В результате нейрон-победитель становится центром некоторого соседства нейронов с близкими векторами весов.
3. Подстройка (adaptation). Подстройка весов нейронов, оказавшихся в пределах радиуса обучения нейрона-победителя. Пусть на вход сети Кохо-нена поступает к -й пример, случайно выбираемый из обучающего множества хк=(х1к,х2к,...х„к). Для него определяется наиболее «близкий» нейрон выходного слоя WI = {wx ,w2 ,...wni). Тогда для всех нейронов, оказавшихся в радиусе обучения у-го нейрона, производится подстройка весов по правилу
Функция скорости обучения является невозрастающей функцией числа итераций. На начальных итерациях скорость обучения высока и веса нейронов корректируются значительно. По мере увеличения числа итераций скорость обучения падает, что приводит к уменьшению величин коррекций. Поэтому процесс обучения СК делят на две фазы - начальную, грубой подстройки и конечную, точной подстройки. Начальное значение функции и ее вид (линейный, экспоненциальный, ступенчатый) задаются перед запуском процесса обучения.
Радиус обучения также не является постоянной величиной, а линейно убывает с возрастанием номера итерации. Начальное и конечное значения радиуса обучения являются входными параметрами алгоритма.
Алгоритм обучения СК содержит следующие шаги:
1. Инициализация. Для нейронов сети устанавливаются начальные веса, а также задаются начальное значение и вид функции обучения r\(t), а также начальное и конечное значение радиуса обучения R.
2. Возбуждение. На вход сети подается вектор обучающего примера хл, случайным образом выбранный из обучающего множества.
3. Конкуренция. Для каждого выходного нейрона вычисляется расстояние D\yv,,х„)= /XAW« хт) Нейрон, для которого это расстояние окажется наименьшим, будет нейроном-победителем.
4. Объединение. Определяются все нейроны, векторы весов которых расположены в пределах радиуса обучения относительно нейрона-победителя.
5. Подстройка. Производится подстройка весов нейронов в пределах радиуса обучения в соответствии с формулой (1.11).
6. Коррекция. Изменяются радиус и параметр скорости обучения.
По окончании 6-го шага, если не выполнены условия остановки обучения, производится переход к п.2 и начинается следующая итерация. Условием остановки обучения является максимальное число итераций.
Таким образом, в результате обучения СК, с каждым выходным нейроном будет связана некоторая область многомерного пространства признаков, расположение и размеры которой будут определяться распределением векторов примеров обучающего множества. Любое новое наблюдение, предъявленное модели, вектор которого попадает в сферу «притяжения» данного нейрона (т.е. расстояние до которого будет наименьшим), будет «захватываться» нейроном и распределяться в ассоциированный с ним кластер. Сигнал о том, что входное наблюдение было захвачено определенным нейроном, подается путем установки его выходного значения в 1.
Построение нейросетевой модели урожайности
НСМ являются одним из наиболее мощных методов моделирования в DM, позволяющих решать задачи численного предсказания в том числе и нелинейные. Для того, чтобы НСМ достигла достаточной точности и обобщающей способности, необходимо правильно подобрать ее конфигурацию и параметры обучения.
Определение конфигурации НС. Наиболее распространенной архитектурной НС, используемой в DM-приложениях для решения задач численного предсказания, является многослойный персептрон с сигмоидальной ак-тивационной функцией нейронов (персептрон Румельхарта) [113]. При использовании данной архитектуры важно правильно выбрать число нейронов сети. На основе эвристического правила, рассмотренного в гл. 2, можно определить число нейронов таким образом, чтобы число связей (т.е. настраиваемых параметров модели), было в 2 - 3 раза меньше, чем число примеров в обучающем наборе данных. Данное правило отражает компромисс между информационной емкостью модели, которая определяет способность модели реализовывать сложные зависимости и ее склонности к переобучению.
В соответствии с условием задачи, входной слой НС будет содержать 4 нейрона (по одному для каждого входного признака), а выходной - один нейрон (для единственной выходной переменной). Поскольку обучающий набор данных состоит из 56 наблюдений, сеть должна содержать 15-20 связей. Для плоскослоистой НС с единственным скрытым слоем число связей составит
Следовательно, при добавлении нового нейрона в скрытый слой НС, число связей увеличивается на 5. Таким образом, потенциально интересными являются конфигурации с 3, 4 и 5 нейронами скрытого слоя.
Проведем эксперимент в котором для каждого числа нейронов выполняется обучение НС и определяются её выходные ошибки и процент распознанных примеров на обучающем и тестовом множествах. Лучшей будет конфигурация, которая обеспечит наименьшую ошибку и наибольшее число распознанных примеров. По мере увеличения числа нейронов L эти показатели должны улучшаться, но, начиная с некоторого Lmm, ожидается снижение процента распознанных примеров и увеличения выходной ошибки сети на тестовом множестве, что свидетельствует о переобучении модели. Задача эксперимента - обнаружить Lmm и выбрать конфигурацию соответствующим образом. Результат эксперимента будет иллюстрироваться графиками выходной ошибки сети на обучающем и тестовом множествах, которая вычисляется на каждой итерации / по формуле
В таблице 3.4 для каждого числа нейронов в скрытом слое L представлены выходная ошибка ENLT на обучающем и тестовом множествах, процент распознанных примеров по уровню ошибки 0,005 и номер итерации на которой прекращает уменьшаться ошибка. Последний показатель интересен тем, что, во-первых, позволяет определить, когда дальнейшее обучение модели бессмысленно с точки зрения повышения ее точности и как обобщающая способность модели соотносится с ее точностью.
На основании анализа графиков на рис. 3.3 и таблицы 3.4 можно сделать вывод о том, что с увеличением числа нейронов в скрытом слое ошибка сети уменьшается, а соответственно и число распознанных примеров, увеличивается. Для 1=4 и 1=5 число распознанных примеров приближается к 100%, что делает соответствующие конфигурации потенциально наилучшими. Для L = 6 ошибка обучения (на обучающем множестве) продолжает снижаться, но ошибка обобщения (на тестовом множестве), начиная с 3000 итерации (см. рис. 3.3, е) резко возрастает, что указывает на ухудшение обобщающей способности модели. Процент распознанных примеров на тестовом множестве уменьшается со 100% для L = 5 до 67% для 1 = 6. Это означает, что потенциально, сеть, содержащая 6 нейронов в скрытом слое будет работать с новыми данными хуже, чем с пятью нейронами.
Таким образом, увеличение числа нейронов более 5, хотя и будет уменьшать ошибку на обучающем множестве, на практике не имеет смысла, поскольку при этом будет ухудшаться точность модели на новых данных, что делает бессмысленным ее практическое использование. Следовательно, на основе проведенного анализа, можно сделать вывод, что наилучшей конфигурацией НС-модели урожайности будет персептрон Румельхарта с одним скрытом слоем, содержащим 5 нейронов. Соответствующий граф сети представлен на рис. 3.4.
Выбор крутизны активационной функции. В НС, использующих градиентные методы обучения, где веса на каждой итерации корректируются на основе производной функции ошибки, применяются сигмоидальные АФ, непрерывные и имеющие производную на всей числовой оси - логистическую или гепорболический тангенс. При этом предусматривают возможность коррекции параметра крутизны этих функций. Необходимость коррекции вызвана возможностью паралича сети [27]. Увеличение крутизны приводит к приближению областей насыщения к 0 и повышает вероятность возникновения паралича сети и, наоборот.
Паралич сети проявляется в резком прекращении снижения уровня ошибки в процессе обучения, после чего ошибка не изменяется на протяжении большого числа итераций. Возможно, спустя некоторое число итераций сеть выйдет из состояния паралича, но результат обучения при ограниченном числе итераций, окажется хуже, чем мог бы. Поэтому правильный выбор крутизны АФ является важнейшим фактором успешного обучения НС. Поскольку априорных сведений о характере фадиентного рельефа нет, оптимальное значение параметра крутизны АФ приходится определять экспериментально.
Для исследования влияния крутизны АФ для конфигурации НС, представленной на рис. 3.4, проведем обучение модели изменяя значение крутизны в диапазоне от 0 до 4 с интервалом 0,25 для двух типов функций - логистической и гиперболического тангенса. В каждом случае будем фиксировать ошибку сети Еж1 и процент распознанных примеров (по уровню 0,005) для обучающего и тестового множеств. Результаты экспериментов представлены в таблице 3.5 и на рис. 3.5, где графики по обучающему множеству показаны сплошной линией, а по тестовому - пунктирной.
На рис. 3.5 а) легко увидеть, что диапазон изменения крутизны логистической АФ, в котором ошибка сети достаточно мала как на обучающем, так и на тестовом множестве, лежит примерно от 1 до 1,75 и составляет порядка 10 3. Для более высоких значений крутизны логистической АФ наблюдается увеличение ошибки на тестевом множестве, что может привести к ухудшению работы модели с новыми данными и поэтому делает выбор значения крутизны из этого диапазона потенциально нежелательным. Данное предположение подтверждается и графиком количества распознанных примеров на тестовом множестве (рис. 3.5, в), где, начиная примерно с 2-х, данный показатель начинает снижаться. Таким образом, для логистической АФ предпочтительное значение крутизны лежит в диапазоне 1 - 1,75. Для гиперболического тангенса диапазон крутизны, в котором выходная ошибка сети мала, составляет от 0,01 до 1.75, но ошибка имеет порядок 10"2, что значительно выше, чем для логистической АФ. Поэтому для обучения модели будем использовать логистическую АФ с параметром крутизны а = 1,5.
Выбор коэффициента скорости обучения. Для выбора его оптимального значения проведем эксперимент, в котором будем обучать модель, изменяя коэффициент в диапазоне от 0 до 1 с шагом 0,1. Предпочтительным будет значение, при котором ошибка на обучающем и тестовом множестве будет наименьшей, а процент распознанных примеров - наибольшим. Результаты представлены на рис. 3.6. При ] = 0, выходная ошибка и процент распознанных примеров определяются начальным состоянием сети, заданным в процессе инициализации случайными значениями.
По таблице и графикам легко увидеть, ошибка практически не меняется при изменении коэффициента скорости обучения от 0,1 до 0,8. При дальнейшем увеличении наблюдается постепенное увеличение ошибки как на обучающем, так и на тестовом множестве и, соответственно, уменьшение числа распознанных примеров. Минимальная ошибка наблюдается при 77 = 0,5 , поэтому выберем данное значение как наилучшее.
Практическая работа с ассоциативной моделью
Задача ассоциативной модели заключается в том, чтобы для каждого условия, состоящего из подмножества значений входных признаков заданного наблюдения A(aua2,...,cin), сформировать следствие из набора доступных переменных класса в(ь1,Ь2,...,Ьт), такое, что результирующее правило л в имеет максимальную поддержку S(A - в) или достоверность С(А - в). Тогда можно записать
При реализации AM необходимо обеспечить возможность работы модели в двух режимах: пакетном режиме и режиме эксперта. В пакетном режиме модель обрабатывает сразу множество наблюдений, автоматически загружаемых их заданного источника данных. При работе в режиме эксперта аналитик сам формирует условия из заданного набора значений признаков, а модель генерирует классифицирующее ассоциативное правило, рассчитывая поддержку и достоверность. Режим эксперта позволяет не только предсказывать переменную класса, но и исследовать влияние входных признаков на класс наблюдения, а также разбирать спорные ситуации, когда, например, два правила, делающие различные предсказания, имеют одинаковую поддержку или достоверность, или когда они различаются незначительно. Результаты работы AM с множеством транзакций, сформированных на основе ведомости агрохимического обследования почв, представлен в приложении 2, а фрагмент - в таблице 3.18.
В таблице для каждого поля указывается значения агрохимических параметров и урожайность. Затем производится формирование правил-кандидатов, для каждого из которых вычисляется поддержка и достоверность. Необходимо выбрать, какой из данных параметров позволяет получить более точные результаты на исходном наборе данных. Для этого рассмотрим таблицы сопряженности, построенные на основе результатов работы AM
Визуальный анализ таблиц сопряженности показывает, что при использовании в качестве параметра поддержки из 8 полей с высокой урожайностью ни одного не распознано, из 18 полей со средней урожайностью правильно распознана половина, и из 30 полей с низкой урожайностью распознано 21. Общая ошибка модели по поддержке составила
Использование критерия достоверности для выбора правила повышает точность модели более чем в два раза, по сравнению с поддержкой.
Если рассмотреть ошибки по каждому классу в отдельности: Вьс = 5/8 = 0,625, ЕСрей =4/18 = 0,22 И ЕНтк =7/30 = 0,23 , нетрудно увидеть, что для редких классов (высокая) доля распознанных примеров несколько меньше, чем для более часто встречающихся классов (средняя и низкая). Это ожидаемое явление объясняется дисбалансом классов в обучающих данных. В результате будет наблюдаться переклассификация модели в сторону классов с наибольшей частотой появления (низкая урожайность). В то же время, положительным исходом классификации, как правило, считается наиболее редкий класс (высокая урожайность). Поэтому в условиях дисбаланса классов, наблюдения с положительными исходами могут вообще не обнаруживаться.
Для балансировки модели предлагается использовать коэффициент, с помощью которого можно увеличивать значение критерия (поддержку или достоверность) для редких классов или вводить штраф для частых классов. В качестве такого коэффициента удобно использовать ранее введенный показатель значимости правил, который обратно пропорционален частоте появления класса. Действительно, если R = 1, это указывает на то, что следствие всегда появляется только в правиле, т.е. всегда совместно с условием и, следовательно, имеет наибольшую связь с ним. При увеличении S(B) , т.е. увеличении числа появлений следствия вне правила, R асимптотически стремится к нулю и достоверность зависимости следствия от условия снижается.
Очевидно, что при а = 0, коэффициент равен 1 и критерием служит поддержка или достоверность правила. Если а = 1, то корректирующий коэффициент равен актуальности. Тогда, варьируя а , можно искать состояние корректирующего коэффициента, которое обеспечивает минимальную ошибку модели при компенсации дисбаланса. Для этого построим балансировочные графики зависимостей ошибок модели в целом, а также по каждому классу для критериев поддержки и достоверности от параметра а. Визуальный анализ балансировочного графика по поддержке показывает, что ошибка модели в целом во всем диапазоне изменения а почти постоянная, поэтому выбор параметра можно осуществлять только на основе графиков по отдельным классам.
Ошибка классификации для средней урожайности снижается в диапазоне изменения ее = 0..0,5 примерно на 30% (от =0,5 до 0,2). В то же время, при а = 0,5...0,9 значительно (с 1 до 0,6, т.е. на 40%) снижается ошибка для класса «Высокая» и одновременно увеличивается ошибка для класса «Низкая». Поэтому, если издержки ошибочной классификации для высокой урожайности больше, чем для низкой, то целесообразно выбрать а = 0,9...0,1. В противном случае компромиссное значение а = 0,6...0,7 .
При балансировке модели по достоверности снижение ошибки классификации для высокой урожайности наблюдается только для ее = 0,9... 1 примерно на 70 10%. В то же время, общая ошибка модели в диапазоне а = 0,5...0,9 возрастает на 20%, ошибка классификации для класса «Низкая» увеличивается на 30%. Таким образом, для минимизации ошибки для класса «Высокая» целесообразно выбрать а = 1, а для минимизации ошибки модели в целом а = 0,5...0,6 .
В соответствии с рассмотренной выше методикой практического применения AM, применим ее для предсказания уровней урожайности для новых полей 57-65, для которых фактическая урожайность неизвестна. Результаты представлены в таблице.