Содержание к диссертации
Введение
Глава 1. Классификация клиентской базы юридических лиц и отнесение предприятий к группам клиентов банка 12
1.1. Состояние организации работы по обслуживанию юридических лиц и привлечению финансовых ресурсов на примере Санкт-Петербургского банка Сбербанка России 12
1.2. Обоснование целесообразности применения методов многомерной классификации в банковском анализе для подготовки решений по организации обслуживания юридических л*щ 18
1.3. Методика классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка 20
Глава 2. Применение кластерного анализа для классификации клиентской базы юридических лиц на группы по финансово-экономическим показателям их деятельности 36
2.1. Характеристика методов кластерного анализа 36
2.2. Описание финансово-экономических показателей для классификации клиентской базы на группы и индивидуальных показателей по обслуживанию в банке и состоянию клиентских средств 41
2.3. Процедура классификации клиентской базы юридических лиц 45
2.4. Описание групп при классификации клиентской базы 61
2.5. Юіассификация юридических лиц при помощи кластерного анализа методом k-средних 64
2.6. Влияние «выбросов» в данных на процедуры классификации 67
2.7. Решение проблемы классификация юридических лиц при помощи кластерного анализа методом k-средних на основе качественных переменных 73
2.8. Применение методов, определяющих форму кластеров 74
2.9. Определение оптимального количества кластеров при классификации юридических лиц - клиентов банка 75
2.10. Определение оптимальной исходной конфигурации данных финансово-хозяйственной деятельности предприятий для применения процедуры классификации методом k-средних 77
2.11. Применение методов построения деревьев классификации при анализе данных о юридических лицах - клиентах банка 79
2.12.Дополнительные вопросы, рассматриваемые при классификации 82
2.13. Пример применения кластерного анализа для исследования финансово-хозяйственной деятельности группы предприятий региона - клиентов банка 84
2.14. Дополнительные вопросы к анализу полученных групп клиентов банка 93
2.15. Получение дополнительных данных и характеристика нормативно-справочной информации 102
Глава 3. Применение методов дискриминантного анализа для отнесения потенциальных клиентов банка к существующим группам в клиентской базе 111
3.1. Прикладная задача отнесения потенциальных клиентов к существующим группам в клиентской базе 111
3.2. Классификация потенциального клиента, основанная на методе BIRCH Ill
3.3. Отнесение потенциальных клиентов банка к существующим группам в клиентской базе при помощи линейного дискриминантного анализа Фишера 115
3.4. Отнесение потенциальных клиентов банка к существующим группам в клиентской базе при помощи метода ближайшего соседа 117
Глава 4. Анализ финансовых потоков клиентов банка и их контрагентов методами кластерного анализа 123
4.1. Применение кластерного анализа для анализа взаимных платежей клиентов 123
4.2. Исследования качества выявления групп при различных плотностях связей 125
Заключение 133
Библиографический список использованной литературы 136
Приложения 153
- Состояние организации работы по обслуживанию юридических лиц и привлечению финансовых ресурсов на примере Санкт-Петербургского банка Сбербанка России
- Описание финансово-экономических показателей для классификации клиентской базы на группы и индивидуальных показателей по обслуживанию в банке и состоянию клиентских средств
- Прикладная задача отнесения потенциальных клиентов к существующим группам в клиентской базе
- Применение кластерного анализа для анализа взаимных платежей клиентов
Введение к работе
Диссертация основана на научно-исследовательских работах, выполненных в период 1998-2002гг., по применению методов многомерной классификации в экономическом анализе для подготовки решений по организации обслуживания юридических лиц в головной конторе банка.
Актуальность темы исследования. Привлечение финансовых ресурсов субъектов экономической системы представляет собой актуальную задачу для банков. Особенно, сегодня, когда государственная политика создает условия для развития конкуренции на рынке банковских услуг. За подразделением банка по организации обслуживания юридических лиц закрепляется значительное число функций, которые опираются на экономический анализ. Исходными данными служат огромные объемы информации статистического характера, которые образуются в результате ежедневных банковских операций в правлении банка и его территориальных отделениях. Экономические исследования призваны обеспечивать формирование оптимального портфеля привлечения, отвечающего определенным требованиям.
Подготовка решений по привлечению финансовых средств предприятий должна уточнять принятую в банке стратегию обслуживания юридических лиц. Ее главной целевой функцией является получение максимальных доходов банка. Существующие методики анализа позволяют дать оценку экономической эффективности обслуживания отдельных клиентов -юридических лиц и их значимости для банка. В современных взглядах на ведение банковского бизнеса потребности в информационной поддержке организации обслуживания юридических лиц видятся в стремлении разработать характеристики и правила, действующие для групп клиентов банка. Создав описание групп клиентов банка, можно планировать привлечение юридических лиц путем отнесения потенциальных клиентов к предпочтительным группам. Поскольку изучаемые с этой целью явления и процессы относятся к стохастическим, то в качестве научного метода для этих исследований целесообразно использовать многомерный статистический анализ. Входящим в него методам многомерной классификации отводится существенная роль как инструмента для анализа информации о клиентах банка - юридических лицах. Это вызывает необходимость совершенствования их применения в банковской практике и, тем самым, определяет актуальность темы настоящей диссертационной работы.
Теория методов многомерной классификации изложена в работах Елисеевой И.И., Мхитаряна B.C., Миркина Б.Г., Дуброва A.M., Трошина Л.И., Андерберга М., Кауфмана Л., Маклахлана Г., Харта П. и других авторов. Применение этих методов в банковской деятельности пока что не получило распространения.
Целью диссертационного исследования является разработка направлений использования и адаптация методов многомерной классификации для решения проблемы формирования оптимального портфеля привлечения финансовых средств юридических лиц. Достижение данной цели потребовало решения следующих задач:
-обоснование целесообразности применения методов многомерной классификации для формирования оптимального портфеля привлечения;
-разработка методики классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка;
-разработка рекомендаций по применению методики классификации для формирования портфеля привлечения, отвечающего заданным критериям;
-разработка рекомендаций по анализу платежей клиентов банка и их контрагентов методами кластерного анализа;
-исследование особенностей применения алгоритмов многомерной классификации при исследовании данных о юридических лицах в банке;
-выявление границ, условий и особенностей применения методов многомерной классификации для выработки стратегии работы с клиентами;
-выявление практической значимости исследований по обеспечению формирования оптимального портфеля привлечения финансовых средств юридических лиц на основе анализа состояния организации работы по обслуживанию юридических лиц на примере Санкт-Петербургского банка Сбербанка России.
Предметом исследования является существующая практика экономических исследований для подготовки решений по организации обслуживания юридических лиц и вопросы совершенствования применения методов многомерной классификации в банковском деле.
Теоретическую и методологическую основу исследования составляют труды российских и зарубежных ученых. При разработке и решении поставленных задач применялись методы наблюдения, группировки, анализа, моделирования данных и иные методы научного исследования, а также используемые на практике методики: методика определения общей доходности по операциям клиента Сбербанка России, методика комплексной оценки экономической эффективности обслуживания клиентов банка -юридических лиц и др.
Научная новизна диссертационного исследования заключается в постановке, теоретическом обосновании и решении задач, связанных с применением методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке. В процессе исследования получены следующие наиболее существенные научные результаты:
-обоснована целесообразность применения методов многомерной классификации для формирования оптимального портфеля привлечения финансовых средств предприятий;
-предложен подход к классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка;
-разработаны рекомендации по применению методики классификации для задачи формирования портфеля привлечения, отвечающего заданным критериям, а именно:
-в части оптимизации величины средневных остатков на счетах привлекаемых предприятий;
-в части стабильности остатков на счетах привлекаемых предприятий;
-в части минимизации затрат на расчетно-кассовое
обслуживание; -предложена комплексная оценка групп предприятий при классификации клиентской базы юридических лиц;
-даны предложения по анализу платежей клиентов банка и их контрагентов методами кластерного анализа;
-для характеристики интенсивности взаимных платежей между клиентами предложен показатель плотности связей d;
-исследовано применение алгоритмов многомерной классификации при исследовании данных о юридических лицах в банке, а именно:
-выявлена возможность применения иерархического агломеративного алгоритма кластерного анализа, проанализировано использование различных метрик;
-решена проблема получения гомогенных групп на основе количественных и качественных показателей;
-проанализировано влияние выбросов в данных на процедуры кластерного анализа в задачах классификации клиентов банка;
-исследована эффективность построения бинарных деревьев классификации с целью обнаружения структуры и закономерностей в данных о клиентах;
-исследовано применение методов дискриминантного анализа для отнесения потенциальных клиентов к существующим группам в клиентской базе юридических лиц, проанализирована возможность добавления нового клиента в модель без необходимости последующего повторения кластер-процедур с учетом нового предприятия; -на основе анализа состояния организации работы по обслуживанию юридических лиц на примере Санкт-Петербургского банка Сбербанка России показана практическая значимость исследований по обеспечению формирования оптимального портфеля привлечения финансовых средств юридических лиц.
Практическая значимость результатов диссертационного исследования определяется его направленностью на эффективное применение методов многомерной классификации в банковской деятельности для подготовки решений по организации обслуживания клиентов - юридических лиц. В работе дается анализ конкурентной банковской среды, состояния организации работы по обслуживанию юридических лиц, динамики привлечения финансовых ресурсов, сложившейся клиентуры и эффективности обслуживания клиентов на примере Санкт-Петербургского банка Сбербанка России. Этот фактический материал показывает важную роль в банковской деятельности задачи привлечения юридических лиц и, таким образом, определяет практическую значимость диссертационной работы как исследований по статистическим способам ее решения.
Апробация результатов исследования. Результаты диссертационного исследования рассматривались и получили одобрение на научно практической конференции профессорско-преподавательского состава, научных сотрудников и аспирантов Санкт-Петербургского государственного университета экономики и финансов (2000 г.).
Положения диссертационной работы использованы в порядке апробации в Санкт-Петербургском учебном центре вычислительной техники Госкомстата России (УЦВТ) (1998-2001 гг.), в том числе в системах дистанционного образования экономистов (2000 г.). На основе результатов исследования разработаны учебные курсы для обучения экономистов применению методов многомерной классификации на практике (1999-2001 гг.). Описание применения методов многомерной классификации для подготовки решений по организации обслуживания юридических лиц в банке, разработанное в диссертационной работе, использовано при создании методического обеспечения и алгоритмов обучающей системы в УЦВТ для Северо-западного банка Сберегательного банка России (2000-2001 гг.). Результаты исследования докладывались на четырех семинарах в УЦВТ (1998-2000 гг.). Результаты диссертационной работы составили методическую основу для обучающей системы по практическому применению методов статистики, разработанной в автономной некоммерческой образовательной организации "Учебный центр вычислительной техники" (2001 г).
Факты апробации результатов исследования подтверждаются соответствующими документами.
Публикации. Основные положения и результаты диссертационного исследования отражены в 17 публикациях.
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы и приложений.
Первая глава "Классификация клиентской базы юридических лиц и отнесение предприятий к группам клиентов банка" содержит исследование формирования оптимального портфеля привлечения юридических лиц с
точки зрения качества клиентских средств посредством использования методов кластерного и дискриминантного анализа. Центральное место в этой главе занимает методика классификации клиентской базы юридических лиц и отнесения предприятий к группам клиентов банка.
Во второй главе «Применение кластерного анализа для классификации клиентской базы юридических лиц на группы по финансово-экономическим показателям их деятельности» дается обоснование целесообразности классификации клиентской базы юридических лиц, приводится характеристика алгоритмов многомерной классификации, рассматриваются варианты описания и идентификации групп предприятий.
В третьей главе «Применение методов дискриминантного анализа для отнесения потенциальных клиентов банка к существующим группам в клиентской базе» исследуется применение методов дискриминантного анализа для расширенной задачи отнесения юридических лиц к существующим группам в клиентской базе. Данная задача дополнена оценкой будущих доходов от обслуживания предприятий с целью проведения адресной политики привлечения в банк новых клиентов -юридических лиц.
В четвертой главе «Анализ финансовых потоков клиентов банка и их контрагентов методами кластерного анализа» исследуется применение кластер-процедур для решения задач изучения финансовых потоков между предприятиями.
Заключение содержит изложение полученных итоговых результатов диссертационного исследования и их соответствие общей цели и поставленным задачам в работе. Также указывается следующая из конечных результатов научная новизна, теоретическая значимость и практическая ценность диссертационного исследования.
Состояние организации работы по обслуживанию юридических лиц и привлечению финансовых ресурсов на примере Санкт-Петербургского банка Сбербанка России
Сейчас банковский сектор развивается при положительных изменениях в макроэкономической ситуации [40]. В течение апреля 2002 года остатки на корреспондентских счетах коммерческих банков в Банке России составляли от 60 до 86 млрд. руб. [45]. Наблюдается тенденция увеличения ресурсной базы банков за счет средств предприятий.
Санкт-Петербургский рынок банковских услуг является вторым по величине локальным рынком в России по концентрации финансовых ресурсов. Этим объясняется высокая доля присутствия банков в Санкт-Петербурге и их активная борьба в распределении средств клиентов -предприятий региона. В 2001 году петербургские банки проводили свою деятельность в условиях экономического подъема [41]. К декабрю 2001 года капитал ПСБ составлял 2,85 млрд руб., активы - 29,12 млрд, кредитный портфель - 18,17 млрд руб. К концу года в БАЛТОНЭКСИМбанке валюта баланса составила 6 млрд руб., собственный капитал 657 млн. руб., кредитный портфель вырос до 3,12 млрд руб. "Инкасбанк" по итогам года заработал 60,5 млн руб. прибыли, увеличив валюту баланса до 9,5 млрд руб., а собственный капитал - до 965 млн руб.
Доля Санкт-Петербургского банка Сбербанка России в привлеченных средствах (расчетные, текущие, депозитные счета в рублях и валюте) юридических лиц на 1.10.00. составляла 9,4% в средствах банков города. Среднедневной остаток на счетах юридических лицах на 1.01.01. составил 8020,1 млн.руб., по рублевым счетам - 7642,5 млн.руб. На один расчетный, текущий счет приходилось 88,8 тыс.руб., на один текущий счет в инвалюте -14,3 тыс.руб. На 1.01.00. доля счетов со среднедневным остатком "свыше 1 млн.руб." составляла 0,8%, на 1.01.01. - 1,1%.
Доля доходов по операциям в рублях от общего объема полученных доходов от обслуживания юридических лиц на 1.01.01. составляла 94,7%, доля доходов по операциям в валюте - 5,3%.
После завершения в 2001 году объединения региональных Сбербанков в единый Северо-Западный Сбербанк активы составили более 60 млрд руб., а чистая прибыль - более 1,9 млрд.руб. Ее размер стал сопоставим с совокупной прибылью всех остальных банков региона.
На сегодняшний день банк располагает специализированной филиальной сетью для обслуживания юридических лиц. Сбербанк, выбрав ориентиром модель универсального кредитного учреждения, развивает систему обслуживания корпоративной клиентуры. На 1 января 2001 года в Санкт-Петербургском Сбербанке обслуживалось 60381 корпоративных клиентов. Сбербанк предоставляет корпоративным клиентам весь спектр современных банковских услуг. Санкт-Петербургский банк Сбербанка России производит работу по концентрации крупных клиентов в операционном управлении, в котором созданы наилучшие условия для получения всего комплекса услуг банка. Преимущество Сбербанка заключается в наличии собственной системы межфилиальных расчетов, в рамках которой осуществляется электронный документооборот между всеми территориальными банками Сбербанка.
В банке развивается направление "комплексное обслуживание" (4 и более услуг). Этот факт отражает устойчивость отношений между клиентом и банком, а также уровень широкого сотрудничества с клиентом. На 01.01.2001г. количество клиентов, пользующихся комплексом услуг, составило 495 единиц. Рост реализуемых услуг банка показывается на количестве услуг на одного клиента: на 1 января 2000 года количество услуг, предоставляемых клиенту, в целом по банку составляло 1.35, на 1 января 2001 года - 1.45 услуги.
Услуги расчетной системы Сбербанка особенно удобны для крупных "сетевых" предприятий, имеющих разветвленную сеть филиалов по стране. Например, единая комплексная система обслуживания организована для ОАО "Пивоваренная компания "Балтика", имеющего 10 региональных подразделений.
Санкт-Петербургский Сбербанка России ведет работу по кредитованию предприятий, предлагая широкий выбор режимов кредитования - от овердрафтного кредитования счета клиента до кредитования инвестиционных и лизинговых проектов. В 2000 году отделения банка получили право самостоятельного кредитования клиентов в рамках установленного лимита, что упростило процедуру выдачи кредита и значительно пополнило число кредитуемых клиентов.
Привлечение денежных средств юридических лиц, за счет привлечения клиентуры на комплексное обслуживание в банк осуществляется по ежемесячным Планам банка. За период с 01.01.2000г. по 01.01.2001г. было проведено 5113 переговоров с 3270 юридическими лицами по их комплексному обслуживанию, в результате которых заключено 2411 договоров на различные банковские услуги, в том числе 771 рублевых и 197 валютных договоров банковского счета. Основным направлением в работе по привлечению новых клиентов в 2000 году был выбран сегмент потенциальных ссудозаемщиков - предприятий пивоваренной промышленности и судостроения. В течение года велась работа с предприятиями пищевой, мукомольной, лесной отрасли, с предприятиями торговли.
В Северо-Западном банке Сбербанка работа с юридическими лицами координируется специальным комитетом по работе с юридическими лицами. Перед комитетом поставлены следующие цели: -обеспечение выполнения концепций, планов, программ и других документов, определяющих задачи банка при работе с юридическими лицами;
-сохранение и возможное увеличение доли на рынке банковского обслуживания корпоративных клиентов, формирование у клиентов долгосрочных предпочтений в использовании услуг банка;
-расширение клиентской базы и повышение общей эффективности работы банка с юридическими лицами.
Комитету поручен широкий состав функций:
-рассматривает и утверждает планы мероприятий по развитию операций с юридическими лицами;
-определяет критерии для выделения из всего числа юридических лиц определенных групп клиентов, а также потенциальных клиентов, для которых необходимо установить индивидуальный подход;
-заслушивает структурные управления о результатах работы и положении банка на рынке обслуживания юридических лиц в целом и по видам услуг, готовит методические рекомендации по выявленным резервам;
-обеспечивает координацию и оперативность действий всех профильных подразделений банка;
-формирует и принимает решения по проведению гибкой тарифной политики и снижении трудоемкости операций для клиента и банка;
-принимает решения по запросам (предложениям) клиентов или профильных подразделений банка по реализации нестандартных схем обслуживания;
-определяет стратегию банка по привлечению клиентов и поручает профильным подразделениям банка проведение встреч/переговоров.
Головным подразделением банка по организации обслуживания юридических лиц является управление корпоративных клиентов и бюджетов
Северо-Западного банка Сбербанка России. В его компетенцию входит разрешение слудующих задач:
-организует, координирует и контролирует работу отделений Сберегательного банка (ОСБ) и операционного управления (ОПЕРУ) с клиентами - юридическими лицами;
-оказывает методическую и практическую помощь ОСБ и ОПЕРУ в организации обслуживания юридических лиц и бюджетов всех уровней;
-взаимодействует с местными органами государственного управления, распорядителями бюджетов всех уровней и внебюджетными фондами для привлечения их на обслуживание в банк, а также с целью выполнения банком федеральных и региональных программ;
-организует деятельность банка в области работы с крупными корпоративными клиентами, а именно привлекает в банк новых клиентов, осуществляет разработку и координацию индивидуальных схем их комплексного обслуживания; -участвует в составлении и выполнении бизнес-плана банка по привлечению средств юридических лиц и бюджетов; -проводит анализ ресурсной базы банка в рамках своей компетенции для подготовки рекомендаций по развитию и оптимизации; -осуществляет сбор и анализ информации по условиям обслуживания клиентов в банках-конкурентах, ведет анализ конъюнктуры региональных рынков и конкурентной среды; -формирует и ведет клиентскую базу данных, изучает потребности клиентов в продуктах и услугах, оценивает эффективность их сотрудничества с банком; -участвует в подготовке и разработке тарифной политики банка в части юридических лиц; -участвует в разработке критериев для отбора VIP - клиентов; -ведет деятельность по привлечению на обслуживание крупных клиентов региона, обладающих высоким кредитным и ресурсным потенциалом; -участвует в подготовке информации о клиенте, в пределах своей компетенции, на стадии подготовки заключения о возможности предоставления кредита; -проводит работу по повышению объемов продаж банковских продуктов на основе проводимого анализа результатов обслуживания клиентов -юридических лиц; -готовит предложения по внедрению новых банковских продуктов для юридических лиц, исходя из потребности клиентов; -организует работу банка по оценке рентабельности обслуживания юридических лиц, проведение расчетов эффективности финансового результата обслуживания клиента (группы клиентов) по услугам и затратам; -производит сбор, упорядочивание и анализ маркетинговой информации, и проведение маркетинговых исследований рынка услуг по банковскому обслуживанию юридических лиц; -выявляет маркетинговые возможности на основе сопоставления рыночных возможностей, внутренних ресурсов и целей банка на рынке банковских услуг;
Описание финансово-экономических показателей для классификации клиентской базы на группы и индивидуальных показателей по обслуживанию в банке и состоянию клиентских средств
Проблема исследования структуры и закономерностей в больших объемах информации часто возникает как в экономике, так и в других областях науки. Широкий спектр методов разработан для решения такого рода задач. Некоторые стандартные приемы работы с данными реализованы в пакетах статистических программ. Большое число статей в современной научной литературе посвящено данной теме, число таких работ увеличивается более чем на 1000 в год [84].
Процедуры классификации делят набор объектов (предприятий) на классы. Методы кластерного анализа не определяют эти классы заранее, а получают их в качестве результата работы алгоритма. Объекты в одном классе должны быть схожи, а объекты из разных классов существенно отличаться. Различные методы используют, тем не менее, отличающиеся друг от друга алгоритмы кластерного анализа и, следовательно, дают неидентичные результаты. Толчок к росту числа исследований в области классификации и кластерного анализа дало бурное развитие технологий добычи данных [85].
Одним из начальных условий алгоритмов кластерного анализа является выбор метрики, способа измерения расстояний между объектами. Именно, используемая метрика наряду с выбранным типом алгоритма оказывают наибольшее влияние на конечный результат. Способ представления исходных данных алгоритма также может существенно повлиять на точность классификации.
При решении некоторых задач производится кластерный анализ самих переменных. Такая группировка позволяет понизить размерность модели. Расстояние в этом случае определяется ковариацией переменных. Таким образом, группа близких переменных описывается только одной переменной [85].
Диссертационная работа в основном использует варианты методов иерархического агломеративного анализа, методов -средних и методов деревьев классификации. Алгоритмы разбиения делят исходный набор данных на некоторое число групп (кластеров).
Как правило, к решению задачи кластерного анализа многомерных данных походят двумя путями, основываясь либо на вероятностном подходе, либо на измерении расстояний между объектами. В первом случае большинство методов базируется на предположении о статистической независимости переменных модели. В большинстве реальных задач это выполняется редко. К тому же, наличие и характер корреляции между переменными представляет собой интерес. Вероятностный подход также характеризуется значительным объемом вычислений.
Самый очевидным из методов, алгоритмы которых основываются на измерении расстояний между элементами, является метод полного перебора. Для разбиения N объектов на К кластеров существует порядка t /Kl вариантов [61]. Поэтому при помощи этого метода можно найти решение только для очень малых NnK.
При классификации методами -средних выбирается исходное разбиение и по результатам вычисления расстояния от отдельных наблюдений до их средних значений для каждого из кластеров переносятся элементы в ближайший к каждому из элементов кластер. Для получившегося разбиения процедура повторяется, пока не прекратятся переходы элементов из одного кластера в другой. Отличительной особенностью этих методов является чувствительность к выбору начального разбиения на кластеры или исходных центров кластеров. Применяются методы предварительной оптимизации положения центров кластеров при инициализации метода к-средних [66, 62]. Другие варианты метода -средних описаны в том числе в [62, 67,68].
Методы иерархического агломеративного анализа представляют набор данных в виде древовидной структуры. Элементы сами по себе рассматриваются как кластеры и на каждом шаге алгоритма сливаются два наиболее близких из них. Используются различные критерии остановки процедуры классификации. К примеру, по достижению заранее определенного количества кластеров [69]. Методы иерархического агломеративного анализа необязательно подразумевают минимизацию суммы квадратов внутригрупповых расстояний и поэтому могут давать в качестве результата кластеры произвольной формы. Для решения различных задач применяются особые метрики и способы представления переменных [69].
Алгоритм метода классификации вокруг медоидов начинает работу с выбора метрики и К исходных объектов (медоидов). Затем каждый объект относится к кластеру Сед, соответствующему медоиду наиболее близкому к объекту:
Используются методы, которые определяют кластеры как участки пространства, густо населенные элементами и разделенные между собой разреженными участками. Такие алгоритмы увеличивают размеры кластеров до тех пор, пока плотность элементов внутри них не опустится ниже некоторого порогового значения. Примеры таких методов: DBSCAN [70], OPTICS [71], DENCLUE [72].
Такие алгоритмы как STING [73], OPTIGRID [74], CLIQUE [75], Wave-Cluster [76] подразумевают разделение пространства на фиксированное число ячеек, которые формируют структуру, представляющую собой сеть. Границами кластеров являются гиперплоскости, параллельные осям координат (диагональные разбиения не допускаются).
Деревья классификации являются структурами, которые представляют собой набор ключей или точек выбора. Конечный результат применения этого метода - это набор правил, по которым производится классификация данных. Наиболее известными методами являются CART (Classification and regression trees) и CHAID (Chi square automatic interaction detection) [80].
Так называемые «генетические» алгоритмы используют некоторые идеи теории эволюции Дарвина. Набор правил, каждое из которых дает возможное решение проблемы, создается на случайной основе на первом шаге этого алгоритма. Затем пары таких правил объединяют и генерируют дочерние правила. Также производится процесс «мутации» - случайного изменения некоторых элементов (правил) в каждом из «поколений». Алгоритм как правило производит вычисления для многих сотен «поколений» и прекращает свою работу, когда найдено некое оптимальное решение или по истечении временного интервала. Применение таких методов связано со значительными вычислительными затратами [80]. Методы визуальной классификации данных подразумевают участие эксперта-исследователя в работе алгоритма. Существует большое число методов визуальной классификации, которые используют различные приемы анализа данных: графики рассеяния, параллельные координаты, проекционные матрицы, графориентированные методы, различные проекционные методы [80].
Прикладная задача отнесения потенциальных клиентов к существующим группам в клиентской базе
Для каждого кластера определим характеристику CF, представляющую собой набор: Преимуществом такого подхода является отсутствие необходимости знать на промежуточных шагах алгоритма о положении каждого предприятия в пространстве признаков, так как каждый кластер характеризуется набором всего из трех величин [77].
Классификация предприятий представляется в виде дерева, характеризуемого двумя параметрами: показателем ветвления В и пороговой величиной Т. Каждый узел, кроме конечного (дочерние ветви которого являются предприятиями), содержит не более В исходящих ветвей вида: [CFU с J, где і=1,2,..,В, СІ — i-ый дочерний узел, CFt - характеристика кластера образующего этот узел. Таким образом, каждый такой узел представляет собой кластер, состоящий из кластеров, образующих дочерние узлы. Конечные узлы (ветви которых - отдельные предприятия) характеризуются показателем L - максимальным числом дочерних элементов: [CFJ, где i=l,2,..,L. Радиус конечных узлов R не должен превышать пороговое значение Т, где
N
V; _ j l о д, _ центроид кластера, соответствующего узлу [77].
Величина Т характеризует размеры дерева - с ее ростом дерево уменьшается.
Процедура добавления нового предприятия в существующую модель (дерево) происходит следующим образом:
1. Определение подходящего конечного узла. С вершины дерева алгоритм определяет ближайший к новому предприятию конечный узел, спускаясь по узлам дерева. Определение такого узла основывается на выбранном способе измерения расстояний.
2. Модификация конечного узла. Ближайший к новому предприятию конечный узел проверяется на допустимость включения в него нового элемента без нарушения порогового условия. Если радиус не превысил Т, то пересчитывается значение CF для этого конечного узла. Если условие нарушается, то добавляется новый конечный узел. При этом, если для него нет места из-за ограничения по количеству элементов в узле, то этот узел разбивается на два. Разделение происходит так: выбираются два наиболее удаленных предприятия узла как первые элементы двух новых узлов и затем по критерию близости к ним добавляются элементы из бывшего узла.
3. Модификация ветви дерева, ведущей к конечному узлу. После добавления нового предприятия в конечный узел необходимо обновить информацию о характеристиках CF кластеров, образующих узлы дерева на пути от нового предприятия к вершине. Если на шаге 2 не производилось разделения конечного узла на два, то для такого пересчета необходимо всего лишь добавить характеристику CF, учитывающую появление нового предприятия. В противном случае возникнет необходимость добавления новой ветви для появившегося дополнительного конечного узла. Если есть место для новой ветви, то для всех последующих узлов потребуется только корректировка характеристик CF для учета изменения. Однако, опять может возникнуть необходимость разделения узла на два и эта ситуация может сохраняться до самой вершины дерева. Тогда производится увеличение высоты дерева на один узел.
4. Промежуточная оптимизация при добавлении предприятий. Описанные в пунктах 2 и 3 процедуры разбиения узлов могут негативно влиять на качество классификации. Особенно, в случае коррелированности переменных, что особенно часто имеет место при анализе финансово-экономических показателей юридических лиц. Такие разбиения могут не иметь под собой реальной основы в самих данных. Поэтому применяется процедура перестроения данных в дереве. Когда после добавления нового предприятия произошло разделение конечного узла и оно продолжилось до некоторого узла Nt, тогда определяются две наиболее взаимно близкие ветви. Если это не ветви ведущие к разделенным узлам, то производится их слияние. Если в дочерних узлах число элементов превысит пороговое, то они разделяются. Такая процедура оптимизации либо уменьшает число элементов в узле Nt, либо более приводит к более точному описанию данных для двух наиболее близких дочерних узлов.
Узлы дерева в методе BIRCH могут иметь только ограниченное число дочерних узлов. Поэтому кластеры могут не отражать полностью реальную структуру данных. К примеру, два кластера, которые должны входить в один более высокого уровня, могут оказаться в разных. Также при определенном порядке ввода новых элементов в дерево может сложиться обратная ситуация, когда кластеры принадлежат одному общему узлу, хотя должны принадлежать разным [77].
Алгоритм метода BIRCH начинает работу с построения дерева и подсчета характеристик кластеров CF. Полученное дерево группирует тесно расположенные в пространстве признаков предприятия в кластеры и убирает из рассмотрения выбросы в данных. По завершении построения дерева решается задача уже существенно упрощенная по сравнению с исходной. Кластерный анализ исходных данных о предприятиях сводится к анализу конечных узлов дерева. Из модели уже удалены выбросы в данных, что делает ее более точной. Узлы дерева содержат число элементов не более заранее определенного и предприятия в конечных узлах уже являются отсортированными. При этом определение и удаление выбросов в данных не увеличивает время работы алгоритма [77].
Применение кластерного анализа для анализа взаимных платежей клиентов
Сосредоточив платежи клиентов в рамках собственной сети, банк обеспечивает им скорость исполнения платежа, единство технологических условий и тарифов. В этом случае, обслуживая финансовые потоки и межрегиональные торговые связи клиентов, банк не ограничивается функцией оператора по платежам, а выступает в качестве финансового агента. Замыкая финансовые потоки внутри своей системы, банк выдает гарантии платежа, осуществляет финансирование сделок, предоставляет услуги по "овердрафту", выдает вексельные кредиты. Используя собственную региональную сеть, банк оказывает услуги клиентам в поиске и установлении связей с контрагентами. Эти факторы определяют актуальность проведения исследований по разработке методов выделения групп клиентов, интенсивно осуществляющих платежи друг с другом, и дальнейшим поиском потенциальных клиентов наиболее часто осуществляющих значительные по величине расчеты с предприятиями из этих групп.
Анализируются количество и величина взаимных платежей клиентов банка и их контрагентов. Группы клиентов с наиболее сильными взаимными финансово-хозяйственными связями могут быть установлены при помощи кластерного анализа. В этом случае объектом классификации является заранее определенная совокупность юридических лиц - клиентов банка. Исходная информация о предприятиях представляется в виде матрицы где rtj определяет степень интенсивности экономических связей между предприятиями / и j и представляет собой линейную комбинацию суммы и количества платежей между ними, так что г у = г,,. Для решения задач анализа финансовых потоков могут использоваться различные значения коэффициентов этой линейной комбинации, в зависимости от того какой фактор является первостепенным по важности — сумма платежей между клиентами или их интенсивность. Вычисляемые при этом расстояния между объектами, как правило, не удовлетворяют условию треугольника (Р(Ыз & (Ш+П( 2. з», то есть не являются метрическими. Поэтому при исследовании финансовых потоков объекты могут быть представлены только парными показателями близости с другими объектами. Ниже приводятся результаты классификации платежей клиентов банка при различных интенсивностях их взаимодействия, которая определяется количеством связей между клиентами D и плотностью связей d, которая определяется как: N(N-1) где N - количество предприятий в модели. Сравнивается качество классификации (посредством измерения контурных значений) при использовании различных алгоритмов, а также структура получаемых кластеров (посредством измерения состава самого малочисленного кластера).
Значение плотности связей d 0,02 соответствует низкой интенсивности финансовых потоков. В этом случае предприятия имеют максимум несколько партнеров. Как правило, только одного. И, наоборот, значения плотности связей d 0,05 соответствуют высокой интенсивности финансовых расчетов. Анализируется применимость нескольких алгоритмов объединения кластеров для данной задачи: по принципу ближайшего соседа, «средней связи» и по относительному принципу. Последний заключается в том, что он учитывает не только близость двух кластеров друг к другу, но и их удаленность от остальных: max{/v,r,J _ keC,k j ij С1-2 где С - число кластеров, R - мера близости двух кластеров при использовании относительного алгоритма объединения.
Анализ платежей позволяет также выявить те предприятия, которые являются центральными в расчетах различных групп клиентов - уход из банка каждого из таких клиентов мог привести к уходу остальных юридических лиц из этих групп.
Было исследовано качество разбиения при использовании различных алгоритмов объединения объектов иерархического агломеративного кластерного анализа: по принципу ближайшего соседа, «средней связи» и по относительному принципу. Исследования проводились для совокупностей клиентов с различными плотностями взаимных связей d.
Контурные характеристики разбиений совокупности 100 клиентов на различное число кластеров при высокой (d=0.0433) плотности связей
показана на рис. 4.1. Для числа кластеров более 8 качество разбиения оказалось существенно выше при использовании алгоритма объединения по принципу "средней связи". Прирост значения средней контурной характеристики по сравнению с другими алгоритмами объединения достигал 0,3- В случае, когда число кластеров не превышало 7, преимущество имел алгоритм объединения по принципу ближайшего соседа. Использование относительного алгоритма объединения кластеров не дало какого-либо прироста качества классификации. Однако, это усложнило процедуру расчетов из-за более сложной метрики. Для числа кластеров более 10 качество классификации при использовании алгоритма объединения по принципу ближайшего соседа и относительному принципу существенно не отличалось.
На рис.4.2 приведены контурные характеристики разбиений на различное число кластеров при средней (d=0.0433) плотности связей. В этом случае преимущество алгоритма объединения по принципу "средней связи" также проявилось, начиная с определенного числа кластеров. Прирост средней контурной характеристики составлял до 0,12. При этом общее качество классификации повысилось благодаря меньшей плотности связей. При малом числе кластеров преимущество относительного алгоритма и алгоритма объединения по принципу "средней связи" выражалось в большей на величину до 0,2 средней контурной характеристике.
Контурные характеристики разбиений совокупности клиентов на различное число кластеров при низкой (d=0.0188) плотности связей показана на рис. 4.3. Все три рассмотренных алгоритма дают классификации приблизительно одинакового качества при числе кластеров менее 20. При большем их числе небольшой прирост средней контурной характеристики дает использование алгоритма объединения по принципу "средней связи".
D=291; d=0.0594. Контурные значения для различного числа кластеров при высокой интенсивности платежей в модели.