Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и методы экспертной оценки факторов нечисловой природы для формирования кредитного рейтинга заемщика Жуков Михаил Станиславович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Жуков Михаил Станиславович. Модели и методы экспертной оценки факторов нечисловой природы для формирования кредитного рейтинга заемщика: диссертация ... кандидата Экономических наук: 08.00.13 / Жуков Михаил Станиславович;[Место защиты: ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»], 2019.- 140 с.

Содержание к диссертации

Введение

Глава 1. Анализ существующих инструментов оценки кредитных рисков и проблем их применения в современных экономических условиях 14

1.1 Особенности развития российской банковской системы и специфика кредитного анализа 14

1.2 Актуальные проблемы оценки кредитных рисков в условиях высокой волатильности и рыночной неопределенности 18

1.3 Современные подходы к оценке кредитных рисков и модели формирования кредитных рейтингов 25

1.4 Система управления кредитным риском как элемент банковского контроллинга 36

Выводы по главе 1 43

Глава 2. Развитие моделей и методов экспертной оценки факторов нечисловой природы для формирования кредитных рейтингов 45

2.1 Подход к учету факторов нечисловой природы при формировании кредитного рейтинга малых и средних заемщиков 45

2.2 Модели экспертной оценки факторов нечисловой природы для рейтингования малых и средних заемщиков по уровню кредитоспособности 54

2.3 Методы поиска кластеризованной ранжировки мнений комиссии экспертов при формировании кредитного рейтинга 67

Выводы по главе 2 74

Глава 3. Разработка и программная реализация алгоритмов поиска модифицированной медианы Кемени для оценки факторов нечисловой природы при формировании кредитного рейтинга 76

3.1 Модификация алгоритмов Литвака-Жихарева для поиска медианы Кемени 76

3.2 Исследование результатов численных экспериментов для экспертных ответов разной степени несогласованности 86

3.3 Компьютерная реализация модуля экспертного оценивания нечисловых факторов и коррекции финальных кредитных рейтингов 95

Выводы по главе 3 103

Заключение 105

Список литературы 107

Особенности развития российской банковской системы и специфика кредитного анализа

Банковская система способствует накоплению и движению денежных средств, являясь важной составляющей государства. Перераспределяя капитал, являясь проводником денежной политики центрального банка, коммерческие банки влияют на хозяйственную и производственную деятельность страны. Банки выполняют кредитную роль в экономике, благодаря которой происходит развитие частного и корпоративного секторов. С течением времени их функции существенно расширялись - если в начале была в основном лишь сберегательная функция, в настоящее время банки получают контроль над многими сферами жизнедеятельности.

История банковской системы России представлена, например, в работе [1], в которой отображено, как в ХVШ столетии были заложены предпосылки к становлению банковской системы, существующей в настоящее время. Именно с этого времени начали создаваться различные кредитные организации, которые в дальнейшем явились образцом современных банков, была создана законодательная база для регулирования деятельности банков и государство проводило монетарные реформы. 1860 год - создание Государственного банка Российской Империи, прообраза современного Центрального банка, что стало ключевым моментом в формировании банковской системы России. Основными этапами согласно классификации, представленной в работе [1], являются следующие.

Этап 1917-1993 гг. охватывает процессы становления российской банковской системы. Во время планового советского времени и после в данном периоде происходила характерная концентрация ресурсов в банковской системе одних из самых крупных кредитных организаций, вследствие чего были открыты специальные банки: «Сбербанк», «Мосбизнесбанк» и другие. В это время банки смогли адаптироваться к окружающей конкурентной среде и выживать в сложных условиях. В 1992 году произошло сильное обесценивание рубля и гиперинфляция составляла 2600 процентов. По итогам инфляции ставка ссудного процента была отрицательной. Работа большого количества банков была представлена таким образом, чтобы все вклады осуществить в рублях и конвертировать их в доллары. По мнению [1], деятельность многих коммерческих банков была организована так, чтобы: вклады принять в рублях, конвертировать доллары в рубли и осуществить расчеты по всем вкладам.

Этап 1994-1999 гг. Известен образованием значительного числа новых коммерческих банков. Из-за высокой инфляции долгосрочное кредитование было не выгодно. Государство с 1995 года выступало главным заемщиком денежных ресурсов у коммерческих банков. Следует отметить экономический кризис в России 1998 года. В августе 1998 года произошел технических дефолт, информацию о котором сообщили Правительство России и Центральный банк. Под действие дефолта попали все основные виды государственных бумаг, был принят плавающий курс рубля, причем рамки валютного коридора существенно увеличены. Значительное падение курса рубля оказало большое влияние на экономику и развитие страны. Репутация российских банков, а также валюты и государства были на рекордно низком уровне.

Этап 2000-2007 гг. В этот период осуществляется послекризисное восстановление и последующее развитие экономики и банковской системы Российской Федерации. Проводятся реформы банковской системы с целью увеличения капитализации, а также повышения степени открытости и прозрачности банков. Основная цель - вернуть доверие домашних и международных инвесторов, а также населения. Нормативы обязательных резервов Центрального банка России изменялись для достижения намеченных целей. Были повышены с января 2000 года нормативы до 10% по привлеченным средствам юридических лиц в валюте РФ, а также наблюдается существенное увеличение этого показателя в иностранной валюте. В 2004 году законодательная база способствует переходу банковских стандартов на международную отчетность, осуществляется дальнейший рост требований к достаточности и размеру капитала.

Этап 2008-2010 гг. В период кризиса 2008 года произошло серьезное потрясение банковской системы. Ставка рефинансирования Центрального банка на декабрь 2008 г. составила 13,0%. Увеличилась доля невозвращенных кредитов населением. Кризисное явление в банковской системе появилось в сентябре 2008 г. вместе с существенным падением цены акций ВТБ и Сбербанка, а также потерей в стоимости индекса ММВБ.

Этап с 2010 г. по настоящее время. Активно уменьшается число банковских учреждений в России в рамках проводимой политики Центрального банка. Важной причиной закрытия банков является размер уставного капитала. В соответствии с 11 статьей ФЗ «О банках и банковской деятельности», регламентируется необходимый минимальный уставной капитал в размере 300 млн рублей для возможности получения лицензии на предоставление банковских услуг. Размер уставного капитала увеличивался к моменту принятия закона практически в два раза каждые два года. После того, как произошло усиление требований Центрального банка России к размеру уставного капитала, начались процессы слияния многих банков, а также поглощения мелких банков крупными. Эти события не прекращаются, более того есть тенденции к будущему росту. В случае, если банки не справляются с требованиями законодательства, происходит отзыв лицензий. Осуществляется более тщательный отбор заемщиков кредитов благодаря более тщательным регулятивным нормам. Следует отметить также, что принятая Правительством РФ программа приватизации крупных предприятий в 2011-2013 предусматривала переход части собственности ВТБ, Сбербанка, Россельхозбанка в частную собственность, однако нет сведений о планах уменьшения доли государства ниже блокирующего решения пакета акций. Таким образом, системообразующая основа национальной банковской системы России – банки с государственным участием [2]. Кредитный анализ представляет собой метод, по которому рассчитывается кредитоспособность бизнеса или организации, оценка способности оплачивать свои финансовые обязательства. Анализируются аудированные финансовые отчеты компании для начала или продолжения кредитования. Цель кредитного анализа – посмотреть как на заемщика, так и на объект кредитования. Оценка риска рассчитывается путем оценки вероятности дефолта заемщика на момент проведения мероприятия. Кредитный анализ несёт в себя широкий спектр методов финансового анализа, включая анализ соотношения и направлений, создание прогнозов и детальный анализ денежных потоков. Кредитный анализ включает в себя проверку залога и других источников погашения, рассматривает кредитную историю и возможности управления. Аналитики пытаются предсказать вероятность дефолта заемщика по своим долгам и величину потерь в случае дефолта. Кредитные спреды - разница в процентных ставках между теоретически «безрисковыми» инвестициями, такими как США Treasuries или LIBOR и вложениями, которые несут определенный риск [3].

Перед утверждением бизнес-кредита, банк рассматривает все факторы, уделяя основное внимание денежному потоку заемщика. Измерение способности погашения - коэффициент покрытия долга. Кредитный аналитик в банке стремится определить денежные средства, полученные в результате бизнеса (до вычета процентов и без учета амортизации и любых других неденежных или чрезвычайных расходов). Основные этапы стандартной процедуры рассмотрения кредитной заявки включают следующие [4].

1. Первичный анализ кредитной заявки.

2. Запрос дополнительных документов от потенциального заемщика.

3. Структурирование сделки, установление лимита на сделку.

4. Оценка залога, подготовка кредитной заявки.

5. Решение кредитного комитета.

6. Мониторинг проекта. Раньше большинство банков для оценки кредитного риска корпоративного заемщика полагались на личное мнение экспертов. В сущности, банкиры пользовались информацией о различных характеристиках заемщика, таких как репутация, капитал (кредитное плечо), способность (волатильность прибыли), условия (цель кредита) и залог, при принятии решения о предоставлении кредита заёмщику.

Для оценки кредитов в последние десятилетия было создано множество более объективных, количественных систем. Например, в однопеременной системе бухгалтерского учета кредитный аналитик сравнивает различные ключевые коэффициенты-отношения (ratios) бухгалтерского учета потенциальных заемщиков с отраслевыми или групповыми нормами и тенденциями в этих коэффициентах. Сегодня Ассоциация Standard & Poor s, Moody s и Risk Management Association предоставляют банкам отраслевые коэффициенты. Одномерный подход позволяет аналитику сделать запрос для определения потенциального заемщика. Однако, существуют более сложные подходы, описанные ниже.

Подход к учету факторов нечисловой природы при формировании кредитного рейтинга малых и средних заемщиков

Доказательство целесообразности учета факторов нечисловой природы в рамках диссертационного исследования математических инструментальных методов проведено с использованием «универсального калькулятора оценки кредитоспособности» (см. Рисунок 2.1), разработанного компанией Delloite Consulting, в подразделении, специализирующемся на построении моделей рисков для кредитных организаций в соответствии со стандартами Базель и ЦБ РФ.

Данный инструмент создавался на основе методологии рейтингового агентства Moody s с целью определения кредитоспособности корпоративного агента. В результате применения данного калькулятора может быть получен внутренний кредитный рейтинг выбранного для анализа контрагента от AAA до C. В качестве требуемых вводных данных выступает финансовая отчетность контрагента по МСФО за 2014-2017 года, а также выбор некоторых качественных характеристик на основе экспертного мнения, описывающих текущее состояние контрагента. В определенных случаях также необходима информация о стране, в которой оперирует контрагент, данные о материнской компании (при наличии) и стране, в которой она оперирует.

Применение данного инструмента целесообразно для анализа контрагента (публичной или непубличной компании России), занятого в одной из четырех экономических отраслей: розничная торговля (Retail), промышленное производство (Manufacturing), добывающая промышленность (Mining) и металлургия (Steel). Анализ контрагентов, оперирующих в иных сферах деятельности не предусмотрен. В случае, если пользователь принимает решение об использовании данного калькулятора для иной отрасли, ему необходимо выбрать наиболее приближенную из перечисленных выше четырех экономических сфер, однако полученные результаты могут быть искаженными.

Как показано на Рисунке 2.1, в инструмент оценки кредитного рейтинга входят количественные составляющие (EBITDA, денежный поток, NOPLAT, структура и стоимость капитала и другие), а также качественные (уровень отраслевых рисков, конкурентная позиция, бета-коэффициент предприятия, инвестиционная привлекательность компании), доступность государственной поддержки и другие. Автору известен следующий пример, наглядно демонстрирующий важность учета факторов нечисловой природы в оценках кредитного риска малых и средних заемщиков. В используемой банком B (рассматриваемый в работе банк из первой десятки, по структуре капитала и банковского портфеля аналогичный ВТБ) рейтинговой модели в оценках кредитного риска компании-заемщика C использовались либо только числовые, либо числовые и дополняющие их качественные показатели, состав которых представлен ниже. В первом случае, основываясь на количественных показателях, используемых в модели Э. Альтмана, кредитный рейтинг компании C cоставил Саа. Во-втором, кредитный рейтинг заемщика, рассчитанный с учетом факторов нечисловой природы, составил Bа (что выше на 2 разряда рейтинговой шкалы). Факторами, оказавшими влияние на рост рейтинга, явились: высокая диверсификация продуктов и услуг оцениваемой компании, значительное число охваченных в рамках ее бизнеса географических рынков, отсутствие угроз выхода на рынок новых игроков и др.

Таблица 4 иллюстрирует кредитную модель банка B, в которой выделены блоки и отдельные этапы формирования итогового кредитного рейтинга компании C.

Особую актуальность учет факторов нечисловой природы принимает при переходе к расчету нормативов достаточности собственного капитала с использованием внутренних рейтингов (стандарты Базель II-III, МСФО-9).

Собственный капитал банка представляет собой совокупность различных по назначению полностью оплаченных элементов, которые позволяют обеспечить экономическую самодеятельность, устойчивую и стабильную работу банка. Для включения в состав собственного капитала различных средств обязательным условием является их возможность страховать непредвиденные убытки, выступая в роли страхового фонда, тем самым предоставляя банку возможность продолжать текущие операции [39].

Существует ряд функций, которые реализуются за счет собственного капитала. Эти свойства оказывают влияние на возмещение непредвиденных расходов в чрезвычайных ситуациях. Можно назвать два уровня в структуре собственного капитала банка:

– капитал первого уровня – основной (базовый) капитал;

– капитал второго уровня – дополнительный капитал.

Основной капитал свободно используется банком для покрытия непредусмотренных убытков при каких-либо обстоятельствах. Эти части собственного капитала заносятся в отчеты, которые публикует банк. Они влияют на доходность и конкурентоспособность, являясь оценкой качества работы банка. Основной капитал состоит из следующих элементов:

– уставного капитала банка, который соответствует организационно-правовой форме акционерного общества, сформирован в результате выпуска привилегированных и обыкновенный акций (некумулятивных);

– уставного капитала банка, который соответствует организационно-правовой форме общества с ограниченной ответственностью, сформирован в результате оплаты долей учредителями;

– эмиссионного дохода банка; – фондов банка (резервного и т.п.), которые созданы на основе прибыли предыдущих лет и находятся в собственности банков, зафиксированы аудиторской организацией;

– прибыли текущего года и прошедших лет, которая подтверждена аудиторским заключением.

Дополнительный капитал состоит из средств с определенными ограничениями по использованию. Средства эти не имеют постоянного характера и могут быть использованы при определённых обстоятельствах в целях, указанных выше. Стоимость таких средств не является постоянной и может меняться с течением времени. Дополнительный капитал формируется за счет следующих элементов:

– прибыли текущего года, которая не подтверждена аудиторской организацией;

– прибыли прошлых лет до аудиторского подтверждения до года, следующего за отчетным;

– субординированного кредита;

– части уставного капитала, полученного в результате капитализации прироста стоимости имущества в результате переоценки;

– фондов, сформированных за счет отчислений от прибыли текущего и предшествующего года до подтверждения аудиторской организацией.

Собственный капитал банка – особая форма банковских ресурсов. Его отличительная черта – постоянный и безвозвратный характер, он имеет функциональную определенность с чётко выраженной правовой основой. Наличие собственного капитала – необходимое условие создания и последующего существования каждого коммерческого банка (является основой для деятельности коммерческого банка с момента его образования). Следует отметить, что общая доля собственного капитала в общих ресурсах банка незначительна, однако, он выполняет ряд важных функций: защитную, регулирующую, оперативную. Опишем по порядку каждую из функций.

Модификация алгоритмов Литвака-Жихарева для поиска медианы Кемени

Рассмотрим основные ограничения, определения и область применимости ряда точных и приближенных вычислительных алгоритмов медианы Кемени. задача поиска медианы Кемени для квадратных матриц размером I сводится в алгоритмическом плане к задаче об ациклическом подграфе максимального веса, которая в свою очередь является NP-полной по А. Тьюрингу проблемой. В связи с этим в практике теории принятия решений используются приближенные алгоритмы полиномиальной от размерности задачи сложности. В частности, известны приведенные ниже алгоритмы Б.Г. Литвака и В.Н. Жихарева [82, 88, 89].

В качестве методов поиска медиан в данной главе рассматриваются алгоритмы, предложенные Б.Г. Литваком: эвристический и точный.

Эвристический алгоритм Б.Г. Литвака основан на оценке расстояния от произвольного ранжирования А — (а1;а2, ...,ct7) до всех предложенных экспертами ранжирований Точный алгоритм Б.Г. Литвака использует метод ветвей и границ. Общая идея метода может быть описана на примере поиска минимума функции на множестве допустимых значений ее переменной . В методе ветвей и границ используются две процедуры: ветвление и нахождение оценок (границ).

Иллюстрация принципа одностороннего ветвления комбинаторного алгоритма приведена на Рисунке 3.1. На каждом этапе алгоритма предполагается последовательное фиксирование расположения части альтернатив, определение верхней и нижней границ значений целевой функции (3.5) и отбрасывание заведомо неперспективных, полученных в процессе поиска медианы Кемени, вариантов. Верхняя граница целевой функции находится с помощью выше представленного эвристического алгоритма. Нижняя граница определяется по формуле

В применении к решаемой задаче целесообразно исходить из наличия у банка ХХХ некоторого исходного упорядочения Л факторов (a1,a2,…,aI), например, сформированного статистически.

Модификация алгоритма поиска медианы Кемени для поиска удовлетворяющего банк ранжирования факторов нечисловой природы связана с решением оптимизационной задачи

Под степенью согласованности ответов в Таблице 9 следует понимать суммарное расстояние Кемени между всеми ответами экспертов.

Из Таблицы 9 следует, что во всех проведенных экспериментах успешно были найдены модифицированные медианы Кемени, удовлетворяющие условию (3.7).

Для проверки корректности предложенного алгоритма использовался циклический поиск медиан Кемени по методу В.Н. Жихарева. Этот подход основан на поиске на графах с узлами на множестве всех ранжировок объектов нечисловой природы по метрике Кемени:

- циклический алгоритм по методу выделения псевдомедиан Жихарева.

- вводится понятие упрощенной альтернативы медианы Кемени - так называемой «модифицированной медианы» [76, с. 94]. Описывается принцип назначения весомости экспертов. Эвристические алгоритмы В.Н. Жихарева. Для практического использования и теоретических исследований В.Н. Жихарев предлагает эвристические алгоритмы [88-91], в которых исследуются множества с меньшим числом элементов - производные от совокупности экспертных ответов - и выделяет в них т.н. псевдомедианы, затем проверяя совпадение псевдомедиан с медианами, найденными полным перебором. Псевдомедианы в этих алгоритмах ищутся также, как обычные медианы Кемени, но на ограниченных специальным образом пространствах. Будем называть псевдомедианой в совокупности Е перестановок экспертов на множестве V такую перестановка, рт(Е, V), при расчете которой сумма расстояний D(x, Е) до всех элементов совокупности Е составляет наименьшее значение среди всех других перестановок х множества V.

Жихарев вводит также ряд нижеперечисленных определений, которые использует также в пространстве, которое состоит из G ранжировок кластеров (перестановок), которые из себя представляют граф (с соединенными перестановками ребрами). Шаром В(х, R) с центром в точке (перестановке) х и радиусом R определим множество всех таких вершин (перестановок) y графа G таких, что расстояние d(x, у) меньше или равно R. Сферой S(x, R) с центром в точке (перестановке) х радиуса R назовем множество всех таких вершин (перестановок) y графа G, для которых верно d(x, у) = R. И другие определения, которые могут быть найдены в соответствующих источниках [62, 63].

Рассмотрим содержание алгоритмов В.Н. Жихарева.

Алгоритм 1.

Шаг 1. Строится С(ЩЕ)) на множестве ЩЕ) в представленной совокупности Е. Шаг 2. Ищутся все псевдомедианы РМ(Е, С(ЩЕ))). Алгоритм 2.

Шаг 1. Строится С(ЩЕ)) на множестве ЩЕ) в приведенной совокупности Е. Шаг 2. Строится окрестность ЩС(ЩЕ)), R), центра С(ЩЕ)) наименьшего R, в которую входят все элементы содержащиеся в ЩЕ).

Шаг 3. Ищется множество, содержащее все РМ(Е, U(C(N(E)),R)). Алгоритм 3.

Шаг 1. Строится C(N(E)) на множестве N(E) в приведенной совокупности E.

Шаг 2. Строится окрестность в виде шара B(e, R), из некоторой случайной точки центра C(N(E)), с наименьшим радиусом R и включающим все элементы множества N(E).

Шаг 3. Ищется множество, включающее все PM(E, B(e, R))

Алгоритм 4.

Шаг 1. Строится смещенный центр Cw(E) совокупности E. Шаг 2. Ищутся все псевдомедианы PM(E, Cw(E)).

Алгоритм 5.

Шаг 1. Строится смещенный центр Cw(E) в совокупности E. Шаг 2. Строится окрестность U(Cw(E), R) центра Cw(E) наименьшего радиуса R, которая вмещает все элементы N(E).

Шаг 3. Ищется множество со всеми псевдомедианами PM(E, U(Cw(E), R)).

Алгоритм 6.

Шаг 1. Строится смещенный центр Cw(E) в совокупности E ответов экспертов.

Шаг 2. Строится шаровая окрестность B(ew, R) произвольной точки возле смещенного центра Cw(E) с наименьшим радиусом R, которая включает все элементы множества N(E).

Шаг 3. Ищется множество всех псевдомедиан PM(E, B(ew, R)).

Компьютерная реализация модуля экспертного оценивания нечисловых факторов и коррекции финальных кредитных рейтингов

Учет факторов нечисловой природы может производиться разным образом в моделях кредитных рисков. Известны следующие подходы к кодированию качественных факторов в уравненияx расчета вероятности дефолта (например, регрессии), которые имеют свои слабые стороны:

Label Encoding (кодирование метками) – категориям присваиваются цифры 0, 1, 2 и так далее. Слабая сторона данного подхода заключается в том, что подход присваивает числовые значения, которые не имеют ничего общего с реальностью. Например, если мы имеем дело с числовым значением, то доход заемщика в 10000 однозначно больше и лучше, чем доход в 20000. Но можно ли сказать, что, например, один город лучше другого потому, что одному присвоено значение 100, а другому – 200?

One-Hot Encoding (по методу нескольких вариантов) – один столбец раскладывается на несколько по количеству вариантов и в этих столбцах отмечается, какой вариант у данной записи. Этот подход более безопасен, но может создавать «лишние» столбцы. Например, если закодировать тот же пол при помощи One-Hot, то получится два столбца, хотя хватило бы и одного. Следует отметить, что наиболее корректно учитывать признаки таким образом, который позволил бы отражать правильно структуру данных, так как не смотря на высокую точность какого-либо предсказания с искусственно подобранным набором объясняющих признаков, возможна, например, проблема переобучаемости модели. Следует отметить, что диссертационная работа в основном предназначена для малых и средних корпоративных заемщиков, однако сегмент кредитования физических лиц также подходит для апробации инструментария (взят ввиду открытости данных). Апробация экспертного подхода к построению приоритетности влияния качественных факторов, разработанная в рамках диссертационного исследования математических инструментальных методов, проведена на данных банка ООО «Хоум Кредит энд Финанс Банк» Данные выложены в открытым доступе для соревнования «Kaggle» с целью коллективного создания методики оценки кредитоспособности заемщиков, не имеющих кредитной истории.

Обучающая выборка состоит из 300 тыс. записей, в которой находится 122 признака, из которых большое подмножество представляют категориальные признаки. Задача сводится к классификации кредитных заемщиков на дефолтные и не-дефолтные (1 в поле TARGET означает любые сложности с платежами, 0 - от-сутcтвие сложностей), а также расчета предсказательных вероятностей дефолта. Используются 8 таблиц с исходными данными, которые связаны между собой следующим образом (см. Рисунок 3.2):

- application_train/application_test: основные данные, заемщик идентифицируется по полю SK_ID_CURR;

- bureau: данные по предыдущим займам в других кредитных организациях из кредитного бюро;

- bureau_balance: ежемесячные данные по предыдущим кредитам по бюро, каждая строка – месяц использования кредита;

- previous_application: предыдущие заявки по кредитам в Home Credit, каждая имеет уникальное поле SK_ID_PREV;

- POS_CASH_BALANCE: ежемесячные данные по кредитам в Home Creditс выдачей наличными и кредитам на покупки товаров;

- credit_card_balance: ежемесячные данные по балансу кредитных карт в Home Credit; installments_payment: платежная история предыдущих займов в Home Credit.

Основное внимание при тестировании учета нечисловых данных обращено к основным данных (application trainest).

В качестве предсказательной точности используется индикатор AUC (area under ROC curve, площадь под ROC-кривой), характеризующий означает площадь, ограниченную ROC-кривой и осью части ложных положительных классификаций. ROC показывает соотношение между частью объектов от общего количества носителей признака, верно классифицированных как несущих признак и частью объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущий признак при изменении порога решающего правила. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует слабую возможность проводить классификацию (соответствует случайному гаданию). Значение меньшее 0,5 говорит, что классификатор считает наоборот: если положительные исходы назвать отрицательными, классификатор будет работать более точно. Это необходимо для учета различных пороговых значений разделения при классификации.

Для предсказания используется такой метод машинного обучения, как градиентный бустинг. Машинное обучение относится к методам искусственного интеллекта. Отличительной чертой которых является не получение прямого решения задачи, а процесс обучения в процессе выполнения решения множества похожих задач. Для построения таких методов используются подходы математической статистики и вероятностей, теории оптимизации, теории графов и другие. Пусть имеется множество объектов и множество ответов. Предполагается существование некоторой неизвестной зависимости между ответами и объектами. Известна некоторая начальная совокупность, которая состоит из пар «объект, значение» и называется обучающей выборкой. Исходя из этих данных необходимо узнать зависимость, что означает найти алгоритм, который может для всякого входного объекта получать достаточно точный классифицирующее значение. Возможность выражения аналитически не является необходимым условием. Важной правилом алгоритмов машинного обучения при этом является способность системы к обобщению при обучении, то есть к возможности применения на данных, которые выходят за пределы имеющейся обучающей выборки. Вводится понятие функционала качества, который позволяет определить точность решения. Идея повышения градиента возникла в наблюдении Лео Бреймана, что повышение может быть интерпретировано как алгоритм оптимизации для подходящей функции затрат. Этот функциональный градиентный вид ускорения (бустинга) привел к разработке алгоритмов ускорения во многих областях машинного обучения и статистики за пределами регрессии и классификации.