Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Шунина Юлия Сергеевна

Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам
<
Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шунина Юлия Сергеевна. Разработка математических моделей, алгоритмов и программ прогнозирования платежеспособности по кредитам: диссертация ... кандидата Технических наук: 05.13.18 / Шунина Юлия Сергеевна;[Место защиты: Ульяновский государственный университет], 2016

Содержание к диссертации

Введение

Глава 1. Обзор методов прогнозирования возврата кредитов 11

1.1. Прогнозирование платежеспособности клиентов как основная задача для обеспечения возврата кредитов 11

1.2. Предварительная обработка данных по клиентам 15

1.3. Модели и методы прогнозирования возврата кредитов при решении вопроса о выдаче кредита

1.3.1. Регрессионные модели 19

1.3.2. Модели дискриминантного анализа 22

1.3.3. Метод нейронных сетей 23

1.3.4. Дерево принятия решений 25

1.3.5. Метод опорных векторов 26

1.3.6. Метод ближайших соседей 27

1.3.7. Байесовский подход 27

1.3.8. Ансамбли моделей 30

1.3.9. Рейтинговые и балльные модели

1.4. Методы прогнозирования возврата кредитов при погашении кредита 34

1.5. Используемое программное обеспечение 35

1.6. Критерии качества методов прогнозирования 37

1.7. Постановка задач исследования 41

Глава 2. Разработка моделей и алгоритмов прогнозирования возврата кредитов на основе адаптивных агрегированных методов классификации и марковских цепей 43

2.1. Формальная постановка задачи 43

2.2. Моделирование и прогнозирование выдачи кредитов 45

2.2.1. Построение агрегированных методов классификации 45

2.2.2. Нахождение порога классификации клиентов на классы 54

2.2.3. Обновление агрегированных методов классификации на основе псевдоградиентной процедуры 55

2.3. Моделирование и прогнозирование погашения кредитов 60

2.3.1. Математические модели динамики погашения кредита на основе марковских цепей 60

2.3.2. Оценивание матриц переходных вероятностей 63

2.4. Выводы и рекомендации 72

Глава 3. Алгоритмы и программное обеспечение для прогнозирования возврата кредитов 74

3.1. Алгоритм прогнозирования возврата кредитов на основе адаптивных агрегированных методов классификации 74

3.2. Алгоритм прогнозирования возврата выданных кредитов на основе моделей динамики погашения кредита 78

3.3. Программный комплекс прогнозирования возврата кредитов

3.3.1. Назначение программного комплекса 84

3.3.2. Проектирование программного комплекса 85

3.3.3. Структура программного комплекса 88

3.3.4. Реализация программного комплекса 90

3.4. Выводы и рекомендации 99

Глава 4. Компьютерное моделирование и численное исследование эффективности прогнозирования возврата кредитов 100

4.1. Методика проведения экспериментальных исследований 100

4.2. Прогнозирование возврата кредитов при решении вопроса о выдаче кредита

4.2.1. Описание исходных данных 100

4.2.2. Предварительная обработка данных по клиентам 106

4.2.3. Анализ эффективности прогнозирования возврата кредитов при решении вопроса о выдаче кредита 110

4.3. Прогнозирование возврата кредитов при погашении кредита 122

4.3.1. Описание исходных данных 122

4.3.2. Предварительная обработка данных по заемщикам 126

4.3.3. Анализ эффективности прогнозирования возврата кредитов при погашении кредита 129

4.4. Выводы 134

Заключение 135

Список литературы

Введение к работе

Актуальность работы

Кредитование клиентов – основной вид деятельности любого кредитного учреждения. Доходы от обслуживания клиентов составляют значительную часть прибыли, при этом неизбежно появление различных видов рисков, приводящих к потерям и убыткам. Ключевой задачей при управлении кредитными рисками, как на этапе выдачи кредита, так и на этапе его погашения является прогнозирование платежеспособности клиентов для обеспечения возврата кредитов.

Согласно положению Центрального Банка Российской Федерации1 оценка финансовых характеристик заемщика основывается на методах, установленных внутренней политикой кредитной организации. При решении вопроса о выдаче кредита, когда требуется оценить кредитоспособность клиента, то есть степень соответствующего риска, распространены рейтинговые, балльные модели, а также методы машинного обучения, к которым относятся использование логистической модели, дискриминантного анализа, байесовского классификатора, нейронных сетей, деревьев решений, ансамбли моделей и другие2-5. Нет универсальной модели, с помощью которой можно было бы спрогнозировать возврат кредитов с явным преимуществом.

Обеспечение возврата выданных кредитов требует учета различных факторов, которые могут иметь влияние на изменение платежеспособности заемщиков и возникновение просроченной задолженности по кредиту. В ряде работ рекомендуется использование аппарата марковских цепей6,7.

Методы прогнозирования возврата кредитов, применяемые в банках в настоящее время, не всегда обеспечивают необходимую точность, особенно в изменяющихся экономических условиях, когда требуется оперативно корректировать используемую модель.

С появлением кредитных бюро и накоплением множества данных о кредитовании клиентов в различных кредитных организациях появилась база для разработки более совершенных методов прогнозирования возврата кредитов. Вместе с тем развитие информационных технологий предоставляет все более мощные средства для реализации сложных методов и алгоритмов.

Кроме того, рост задолженностей и невозврата по кредитам, а также конкуренция на рынке кредитных услуг требуют совершенствования имеющихся мето-

1 Положение Банка России от 26.03.2004 № 254-П «О порядке формирования кредитными организациями
резервов на возможные потери по ссудам, по ссудной и приравненной к ней задолженности» (в ред. от
04.12.2009)

2 Клячкин В. Н. Статистические методы в управлении качеством: компьютерные технологии / М.: Финансы
и статистика, ИНФРА-М, 2009. – 304 с.

3 Петров С. В., Груздев А. В. Разработка скоринговой модели с помощью логистической регрессии (на базе
пакета R) // Риск-менеджмент в кредитной организации. – 2012. – № 3 (07). – С. 26–41.

4 Черников К. С. Снижение уровня банковского риска посредством прецедентного моделирования кредит
ной ситуации: Дисс. канд. техн. наук. – Ульяновск, 2012. – 151 с.

5 Якупов А. И. Применение деревьев решений для моделирования кредитоспособности клиентов коммерче
ского банка // Искусственный интеллект. – 2008. – № 4. – С. 208–213.

6 Grimshaw S., Alexander W. Markov chain models for delinquency: Transition matrix estimation and forecasting //
Applied Stochastic Models in Business and Industry. – 2011. – № 27 (3). – P. 267–279.

7 Тимофеева Г. А., Тимофеев Н.А. Прогнозирование составляющих кредитного портфеля на основе модели
марковской цепи // Автоматика и телемеханика. – 2012. – № 4. – С. 47–65.

дик прогнозирования возврата кредитов с целью более точной оценки кредитного риска, что предопределило актуальность данной работы.

Объектом исследования в диссертационной работе являются модели информационных процессов при кредитовании клиентов банковских организаций.

Предмет исследования – математические модели, алгоритмы и соответствующие программы для прогнозирования возврата кредитов.

Цель работы

– повышение точности прогнозирования возврата кредитов в банковской сфере за счет использования программных средств на основе адаптивных агрегированных методов классификации и марковских цепей.

Для достижения поставленной цели решаются задачи:

разработка метода прогнозирования возврата кредитов на основе агрегированных методов классификации, обеспечивающего повышение точности прогнозирования при решении вопроса о выдаче кредита;

построение процедур обновления параметров моделей, используемых при классификации, для учета вновь поступающих данных о клиентах;

разработка модели динамики погашения кредита с учетом информации о заемщике, его кредитной истории, а также условий предоставления кредита;

разработка метода прогнозирования изменения платежеспособности заемщиков на основе модели динамики погашения кредита, разделяющего заемщиков на группы с целью определения мероприятий по работе с заемщиками, имеющими задолженность и обеспечения возврата кредитов;

разработка алгоритмов и программ для прогнозирования возврата кредитов при решении вопроса о выдаче кредита, а также при погашении кредита;

компьютерное моделирование и исследование эффективности предложенных подходов.

Научной новизной обладают впервые предложенные адаптивные агрегированные методы классификации клиентов на классы, использующие различные методы машинного обучения; новые модели динамики погашения кредита, интегрирующие марковские цепи 1-го и 2-го порядка для учета кредитной истории заемщика и методы машинного обучения; алгоритмы агрегации и интеграции указанных методов; а также разработанный на их основе программный комплекс для прогнозирования возврата кредитов.

Теоретическая значимость работы состоит в разработке новых адаптивных агрегированных методов классификации и модификации моделей динамики погашения кредита, а также новых алгоритмов агрегации и интеграции методов для прогнозирования возврата кредитов, обеспечивающих более высокую точность.

Практическая значимость работы заключается в том, что разработанный программный комплекс на основе предложенных алгоритмов повышает точность прогнозирования возврата кредитов, и может быть использован кредитными учреждениями для поддержки принятия решений в процессе кредитования клиентов с целью снижения уровня задолженности и обеспечения возврата средств по кредитам.

Методы исследования. Решение поставленных задач осуществлялось с использованием методов теории вероятностей и математической статистики, стати-4

стического моделирования, методов машинного обучения, марковских цепей и численных методов. В основу разработки программного комплекса легли методы объектно-ориентированного проектирования программных систем.

Основные научные положения, выносимые на защиту:

  1. Алгоритм прогнозирования возврата кредитов на основе адаптивных агрегированных методов классификации, обеспечивающий повышение точности прогнозирования.

  2. Способ численного обновления параметров моделей, используемых в агрегированных методах классификации, на основе псевдоградиентной процедуры.

  3. Модифицированные математические модели динамики погашения кредита на основе марковских цепей и методов классификации, учитывающие состояние кредитной истории, а также условия кредита и информацию о заемщике.

  4. Алгоритм прогнозирования изменения платежеспособности заемщиков, основанный на выборе наилучшей модели динамики погашения кредита для каждого перехода из одного состояния кредитного счета в другое.

  5. Программный комплекс, реализующий разработанные алгоритмы, для поддержки принятия решений в процессе кредитования клиентов.

Достоверность. Достоверность положений диссертации обеспечивается корректностью выбранных математических методов и подтверждается результатами статистических испытаний, а также эффективностью работы алгоритмов и программ при внедрении.

Реализация и внедрение результатов работы. Диссертационная работа выполнялась при поддержке гранта по Федеральной целевой программе "Научные и научно-педагогические кадры инновационной России" (соглашение 14.B37.21.672) и гранта Российского фонда фундаментальных исследований по проекту №15-48-02038. По результатам работы получено звание лауреата конкурса научно-технического творчества молодежи Приволжского федерального округа (2015 г.) и медаль «За успехи в научно-техническом творчестве и научно-исследовательской работе».

Результаты исследования внедрены для прогнозирования возврата кредитов при решении вопроса о выдаче кредитов, а также погашения по текущим платежам в практику деятельности ПАО Банк ВТБ 24 (филиал №6318 в г. Казани).

Результаты диссертационной работы также используются в учебном процессе Ульяновского государственного технического университета в дисциплинах «Финансовая и страховая математика», «Спецкурс по финансовой математике», «Статистическое моделирование» и «Математические модели в экономике», читаемых студентам, обучающимся в бакалавриате и магистратуре по направлению «Прикладная математика».

Апробация работы. Теоретические положения и практические результаты работы докладывались на ежегодных научно-технических конференциях Ульяновского государственного технического университета в 2013 – 2015 г.г., на ХII Всероссийском совещании по проблемам управления в Институте проблем управления им. В.А. Трапезникова Российской академии наук (Москва, 2014 г.), научно-практической internet-конференции «Междисциплинарные исследования в области математического моделирования и информатики» (Тольятти, 2014 г.), международной научно-практической конференции «Региональная экономика: актуальные вопросы и новые тенденции» (Ульяновск, 2014 г.), международной научно-

практической конференции «Молодёжный форум: технические и математические науки» (Воронеж, 2015 г.), Российской научно-технической конференции аспирантов, студентов и молодых ученых «Информатика и вычислительная техника» (Ульяновск, 2015 г.), Всероссийской школе-семинаре аспирантов, студентов и молодых ученых "Информатика, моделирование, автоматизация проектирования" (Ульяновск, 2015 г.) и других.

Публикация результатов работы. Результаты исследований по теме диссертации изложены в 20 научных работах (из них 8 статей без соавторов), в том числе в шести статьях в журналах из перечня рецензируемых научных изданий, рекомендованных ВАК Минобрнауки РФ. Получены два свидетельства о государственной регистрации программ для ЭВМ.

Личный вклад автора. Постановка задач исследования осуществлялась научным руководителем. Все основные теоретические и практические исследования проведены автором диссертационной работы самостоятельно.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных источников из 125 наименований. Объем диссертации составляет 149 страниц, включая 32 рисунка и 37 таблиц.

Модели и методы прогнозирования возврата кредитов при решении вопроса о выдаче кредита

Для прогнозирования возврата кредитов при решении вопроса о выдаче кредита обычно используют методы машинного обучения [60], к которым относятся использование логистической модели, дискриминантного анализа, байесовского классификатора, нейронных сетей, деревьев решений, ансамбли моделей и др.

Рассмотрим перечисленные классы моделей, а также модели, основанные на экспертном принятии решения (рейтинговые и балльные модели) и проанализируем преимущества и недостатки каждого из них.

Регрессионные модели предназначены для определения связи между множеством независимых факторов (регрессоров, признаков) и зависимой переменной [14]. В рамках кредитования данный класс моделей может быть использован для предсказания вероятности появления некоторого события, например, дефолта или возврата кредита клиентом, по значениям множества факторов, описывающих клиента. Для того чтобы определить возврат кредита клиентом вводится зависимая переменная Y, которая может принимать несколько значений: например, для двух классов в случае кредитоспособного клиента значение Y = 1, а в случае некредитоспособного – Y = 0. В качестве множества независимых факторов используются переменные X = x1,..., xn , которые представляют собой информацию о самом клиенте, находящуюся в анкете при подаче заявки на кредит. Множественная линейная регрессия, как правило, применяется для нахождения вероятности возврата кредита P клиентом на основе значений данных факторов: P = q0 + q1x1 + ...+ qn xn , (1.2) где q0 ,..., qn – параметры регрессии, которые можно найти методом наименьших квадратов [53].

Важно заметить, что левая часть имеет ограничение и должна изменяться от 0 до 1, тогда как правая часть может принимать любые значения, что является одним из недостатков данной модели. Также множественная линейная регрессия обычно строится на равной доле кредитоспособных и некредитоспособных клиентов, поэтому прежде необходимо подготовить исходную выборку.

В диссертационной работе С.А. Киблицкого [36] была определена кредитоспособность физического лица с помощью методики, разработанной с использованием эволюционно-симулятивных моделей на основе линейной регрессии. При этом находилась граница разделения кредитоспособных заемщиков от некредитоспособных. Однако нет доказательств того, что данный метод превосходит по результатам остальные методы и модели. Кроме того, известно, что линейные регрессии требуют слабой коррелированности входных данных, а также представление исходных данных в виде чисел, а не в шкале наименований. Логистическая регрессия преодолевает данный недостаток [68, 73], поскольку делается предположение о том, что вероятность кредитоспособного клиента Y = 1 равна: P{Y =1 X}= f (z), z = q0 + q1x1 +...+ qn xn , (1.3) где f(z) – логистическая функция: f (z) = -z . (1.4) 1+ e Поскольку переменная Y принимает одно из пары значений, то вероятность некредитоспособного клиента Y = 0 равна: P{Y = 0 X}=1- f (z). (1.5) Таким образом, логистическая регрессия находится на основе следующего выражения: P{Y=1Х} f(z) log = =q0 +q1x1 +...+qn xn . ( 1.6) P{Y =0 Х} 1- f(z) Для нахождения параметров q0 ,..., qn , как правило, применим метод максимального правдоподобия [115], который сводится к максимизации функции правдоподобия с помощью метода градиентного спуска [5], метода Ньютона-Рафсона [16] или других методов.

Задача классификации потенциального заемщика решается по следующему принципу: клиент считается кредитоспособным Y = 1, если модель спрогнозировала вероятность P{Y =1 X} 0,5, и некредитоспособным Y = 0 – в противном случае. При этом в качестве граничного значения может быть использовано число, отличное от 0,5.

Логистическая регрессия нашла свое применение при расчете скоринговых карт, представляющих собой набор факторов клиента и соответствующих баллов, на основе которых рассчитывается максимальное значение суммы кредита, которую банк может предоставить клиенту [80].

Недостатком логистической модели является чувствительность к корреляции между факторами, поэтому в модели недопустимо наличие сильно коррелированных входных переменных. К преимуществам модели можно отнести учет ограничения на значения вероятности, которые не могут выходить за рамки 0 и 1, возможность проведения исследования и взвешивания факторов, влияющих на результат, а также построение модели на основе неизмененной начальной выборки и реальной пропорции между количеством кредитоспособных и некредитоспособных клиентов.

Модели дискриминантного анализа удобны в использовании при наличии нескольких классов кредитоспособности заемщиков. Для определения принадлежности клиента к одному из m классов используют линейные скоринговые функции [30, 84, 113]: 01 (x) = q10 + q11x1 + ... + q1n xn , 02 (x) = q02 + q12 x1 + ... + qn2 xn , ... (1.7) om (x) = q0m + q1m x1 + ... + qnm xn , где o(x) – «счет», согласно которому определяется тот или иной класс. В итоге выбирается тот класс, которому соответствует больший счет. В случае двух классов кредитоспособности результат совпадает с результатом линейной регрессии. Данный класс моделей нашел свое применение преимущественно в оценке кредитоспособности предприятий. Известными представителями дискриминантного анализа являются модели Альтмана [57, 99] и Чессера [104], построенные на основе финансовых характеристик организаций и результатов их деятельности.

Построение агрегированных методов классификации

По прошествии некоторого времени класс кредитоспособности r-го клиента прояснится, то есть определится его апостериорная, истинная вероятность возврата кредита: 1, если клиент оказался кредитоспособным, P(Yr ) r (2.3) 0, если клиент оказался некредитоспособным. Качество модели будем определять дисперсией ошибок, то есть средним квадратом отклонений истинной вероятности возврата кредита от её прогнозируемого значения: а2= (P(Yr)-P(Xr))2, (2.4) l r=1 где l - количество клиентов.

Помимо определения вероятности возврата кредита новыми клиентами требуется также определить оптимальный порог классификации (точку отсечения) на кредитоспособных и некредитоспособных клиентов. Прогнозирование возврата кредитов при погашении кредита. Пусть имеется множество заемщиков банка, которым выдали кредит и которые погашают его в течение заданного срока T. Известна кредитная история c го заемщика I1,...,It, представляющая собой последовательность состояний кредитного счета, принимающих значение из конечного множества S1,...,Sw за определенный период времени t. Кредитная история заемщика, как правило, характеризует своевременность платежей, осуществляемых заемщиком, при невыполнении которых заемщику присваивается определенное состояние задолженности S1,...,Sw. Также известен Xc=(xc1,...,xch) - /2-мерный вектор признаков, предположительно влияющих на состояния кредитной истории ого заемщика. В момент времени t необходимо обеспечить по каждому заемщику прогноз состояния кредитного счета на следующем шаге It+1 на основе информации о прошлых состояниях счета /1,...,/ґ с учетом признаков Хс=(хс1,...,хск), то есть требуется определить функциональную зависимость следующего вида /:(/1,...,/f,Xc) -/f+1. (2.5) Зависимость (2.5) представляет собой модель динамики погашения кредита или модель прогнозирования изменения платежеспособности заемщика. Качество работы модели будем определять долей верных прогнозов є, усредненных по всем имеющимся состояниям W: 1» а" , (2.6) є = 1«-Ч1+ ... + « » где daa - количество верных прогнозов для кредитных счетов, находящихся в состоянии Sa, причем a = 1,...,w,; da1+... + daw- общее количество прогнозов для кредитных счетов, находящихся в состоянии Sa.

Как следует из обзора моделей и методов прогнозирования возврата кредитов, хорошей альтернативой одной модели является использование наборов (ансамбля) моделей или другими словами нескольких методов классификации.

В рассмотренных подходах (бэггинг и бустинг) для построения ансамбля используется один и тот же метод классификации, построенный на разных частях обучающей выборки. Однако представляет интерес совместное использование различных методов классификации, построенных на обучающей выборке [89]. При этом для достижения наилучшего результата прогнозирования возникают следующие вопросы: - Какие методы машинного обучения использовать совместно? - Как соединить выбранные методы? - Как принять единое решение о возврате кредита клиентом на основе решений отдельных методов?

В соответствии с проведенным в главе 1 анализом методов и моделей прогнозирования возврата кредитов можно отметить наличие моделей, имеющих достаточно серьезные недостатки по сравнению с остальными. К таким моделям относятся: линейная регрессия, не учитывающая ограничения на значения вероятности, которые не могут выходить за рамки 0 и 1, метод ближайших соседей, в котором отсутствуют какие-либо модели или правила, обобщающие предыдущий опыт и сложно сказать, на каком основании получаются ответы, а также рейтинговые модели и методы комплексного анализа, которые основываются на субъективном мнении экспертов. Опираясь на успешную деятельность ведущих мировых компаний по разработке программных продуктов (SAS, Scorto), клиентами которых являются крупнейшие российские банки, выберем в качестве базовых методов классификации следующие семь методов машинного обучения, являющихся основой математического аппарата данных компаний:

Алгоритм прогнозирования возврата выданных кредитов на основе моделей динамики погашения кредита

Диаграмма классов представляет собой диаграмму, на которой изображено множество классов, интерфейсов и отношений между ними, и является логической моделью статического представления комплекса. В качестве классов используются функциональные блоки программ. Информация с диаграмм напрямую отражается в программном коде.

Программы, входящие в сосав комплекса состоят из нескольких модулей, схема которых представлена на рис. 3.7. Рассмотрим подробнее основные модули программного комплекса возврата кредитов. База данных «старых» клиентов содержит информацию о клиентах банка, которым выдали кредит, с известными сведениями о возврате кредита: анкетные данные и соответствующий класс кредитоспособности.

База данных «новых» клиентов содержит информацию о новых вновь поступающих клиентах и включает в себя только анкетные данные.

База данных заемщиков содержит информацию о клиентах банка, которым выдали кредит и которые погашают его в течении некоторого периода: анкетные данные, кредитная история, а также условия по кредитной сделке.

Модуль загрузки и обработки данных клиентов (заемщиков) служит для ввода и обработки исходной информации о клиентах, включающей кодирование нечисловых данных, а также восстановление пропусков кредитной истории.

Модуль построения, обновления и оценки качества методов классификации обеспечивает выполнение следующих операций: - построение базовых и агрегированных методов классификации на обучающей выборке с использованием готовых функций программы Matlab: patternnet(), ClassificationDiscriminant.fit(), NaiveBayes.fit(), fitcsvm(), classregtree(), GeneralizedLinearModel.fit(), fitensemble(); - нахождение порога классификации клиентов на классы кредитоспособности; - обновление параметров моделей, используемых в агрегированных методах классификации, на основе псевдоградиентной процедуры; - расчет дисперсии ошибок и суммы рисков кредитования при различных методах классификации на данных тестовой выборки; - графический вывод результатов методов классификации с использованием готовых функций программы Matlab: perfcurve(), bar(Auc), comparisonPlot().

Модуль прогнозирования возврата кредитов «новыми» клиентами служит для осуществления прогнозирования и вывода на экран вероятности возврата кредитов новыми вновь поступившими клиентами на основе наилучшего метода классификации по выбранному критерию качества с заданным порогом классификации.

Модуль построения и оценки качества моделей динамики погашения кредитов и прогнозирования платежеспособности заемщиков обеспечивает выполнение следующих операций: - построение моделей динамики погашения кредитов на основе марковских цепей и методов классификации на обучающей выборке; - подсчет для каждой модели доли верных прогнозов в процентах, усредненных по всем состояниям кредитного счета, на тестовой выборке; - прогнозирование состояний кредитных счетов заемщиков в следующем месяце с помощью наилучших моделей; - вывод распределения вероятностей переходов из одного состояния кредитного счета в другие и определение платежеспособности в следующем месяце по каждому заемщику. Отчеты о результатах прогнозирования содержат выходную информацию о результатах прогнозирования возврата кредитов (вероятность возврата кредита новыми клиентами, платежеспособность заемщиков в следующем месяце), в виде файла Excel. Справка содержит инструкцию для пользователя.

Разработанный программный комплекс прогнозирования возврата кредитов имеет следующие характеристики: тип операционной системы – Windows XP и выше; среда разработки – Matlab R2014a; общий размер программ – 4,85 Мбайт.

При запуске программ «Анкетный скоринг» и «Поведенческий скоринг» на экране появляются соответствующие окна (рис. 3.8 - 3.9).

После загрузки файла с исходными данными (файл Excel) пользователю предлагается произвести обработку информации по клиентам: закодировать текстовые данные, а также восстановить пропуски кредитной истории.

Анализ эффективности прогнозирования возврата кредитов при решении вопроса о выдаче кредита

На этапе погашения кредитов кроме анкетных данных заемщиков анализировались условия взятия кредита, а также ежемесячные данные кредитных счетов. Поскольку для немецких заемщиков информация по кредитным счетам не была опубликована, использовались выборки американских и российских заемщиков, описание которых приведены в табл. 4.19 - 4.22.

Для прогнозирования возврата кредитов при погашении кредита предполагалось использование марковских цепей разного порядка совместно с базовыми методами классификации. Основная задача – описать динамику погашения кредита заемщика с учетом условий кредита, информации о самом заемщике, а также кредитной истории заемщика и определить состояние кредитного счета для каждого заемщика в следующем периоде с достаточной точностью.

Кодирование нечисловых данных При рассмотрении и анализе признаков американских и российских заемщиков были выявлены переменные, представленных нечисловыми данными, которые подверглись кодированию (табл. 4.23).

Восстановление пропусков кредитной истории Для восстановления пропусков кредитных историй американских и российских заемщиков было использовано моделирование пропущенных данных с использованием условного распределения по присутствующим параметрам.

Оставшаяся сумма задолженности Текущие баллы заемщика, характеризующие его кредитоспособность, вычисленные Fair Isaac Corporation Размер следующей выплаты Начальное процентное отношение суммы кредита к оцененной стоимости заложенного под этот заем имущества (LTV) Продолжение таблицы 4. Российские заемщики Американские заемщики Общая выплаченная сумма Текущее процентное отношение суммы кредита к оцененной стоимости заложенного под этот заем имущества (LTV) Количество просроченной задолженности от 5 до 29 дней Наличие полного набора документов Количество просроченной задолженности 90+ дней Назначение кредита Максимальный объем просроченной задолженности Количество просрочек до 24 месяцев Процентная ставка по кредиту Индекс Арма Текущее количество дней просроченной задолженности Наличие задолженности

Анализ эффективности прогнозирования возврата кредитов при погашении кредита проводился на тестовой выборке, содержащей данные по клиентам в момент времени (t +1), которые не участвовали в процессе построения моделей.

Следует отметить, что результаты прогнозирования на основе марковских цепей третьего и более высоких порядков не улучшили результатов прогнозирования, полученных с использованием марковских цепей меньших порядков, поэтому ограничимся использованием марковских цепей первого и второго порядка.

Ниже представлены результаты верных прогнозов по американским и российским заемщикам для марковской цепи первого и второго порядка совместно с методами машинного обучения по всем возможным переходам из отдельного состояния Si в другие состояния, средний результат по всем состояниям, а также максимальные значения для каждого состояния, выраженные в процентах (табл. 4.27, 4.29).

Результаты исследования показали, что нет единой модели, наилучшим образом прогнозирующей все переходы из состояния Si в другие состояния. Следовательно, для прогнозирования изменения платежеспособности американских заемщиков в следующем периоде оптимальным вариантом является выбор лучшего порядка марковской цепи и метода оценки переходных вероятностей для каждого перехода, что в среднем улучшает результаты отдельных моделей на 23% (табл. 4.28).

На рис. 4.7 изображены графики, показывающие проценты верных прогнозов для каждого сочетания марковской цепи и метода классификации в зависимости от состояния кредитного счета Si, из которого были осуществлены переходы в другие состояния. Жирной красной линией выделен процент верных прогнозов при использовании лучшего порядка марковской цепи и метода классификации.

Результаты исследования также показали, что нет единой модели, наилучшим образом прогнозирующей все переходы из состояния Si в другие состояния. Для прогнозирования изменения платежеспособности российских заемщиков в следующем периоде также оптимальным вариантом является выбор лучшего порядка марковской цепи и метода оценки переходных вероятностей для каждого перехода, что в среднем улучшает результаты отдельных моделей на 60% (табл. 4.30)

Как показывает проведенное численное исследование эффективности прогнозирования возврата кредитов, предложенные модели и алгоритмы увеличивают точность прогнозирования как для российских, так и для зарубежных заемщиков.

Применение агрегированных методов классификации при найденном пороге классификации снижает сумму коммерческого и кредитного риска (то есть риск невыдачи кредита «хорошим» клиентам и выдачи кредита «плохим») для российских заемщиков в среднем на 45%, а для немецких заемщиков – на 67%.

Использование численного способа обновления моделей, используемых в агрегированном методе классификации, на основе псевдоградиентной процедуры обеспечивает адаптацию к вновь поступающим данным о клиентах и способствует повышению результативности прогнозирования обновленной модели в полтора раза.

Применение марковских цепей первого и второго порядка совместно с методами классификации повышает точность прогнозирования изменения платежеспособности (долю верных прогнозов) для российских заемщиков в среднем на 60%, а для американских заемщиков – на 23%.