ТЕХНОЛОГИИ РАЗВЕДКИ ДЛЯ БИЗНЕСА :: РАЗВЕДКА



Адрес первоисточника: http://www.it2b.ru/it2b2.view3.page267.html



Внедрение системы кредитного скоринга в банке

Автор: А.А. Строев (компания SAS, консультант) | Источник: Методический журнал «Расчеты и операционная работа в коммерческом банке»№ 6 (48), 2004

Выбор алгоритма кредитного скоринга
Наиболее популярными сегодня являются три основных метода построения скоринговых алгоритмов:
  • на основе логистической регрессии;
  • на основе дерева классификации;
  • на основе нейронной сети.
Основное различие между этими тремя методами заключается в подходах к способам сегментации прецедентов обучающей выборки.

Сама сегментация имеет цель определить значимые факторы, влияющие на вероятности возможных исходов кредитных сделок, что возможно, если между сконструированными сегментами можно выявить статистически значимое различие в соотношении положительных и отрицательных прецедентов.

В методе логистической регрессии сегментация прецедентов осуществляется на основе разбиения факторного пространства n-мерной сеткой, где n — количество значимых факторов (рис.1).



В качестве исходного предположения принимается, что каждая ячейка сетки (n-мерный прямоугольник) объединяет прецеденты из обучающей выборки, характеризующиеся одинаковой вероятностью исхода.

Координаты узлов этой сетки рассчитываются на основании статистических критериев, исходя из принципа максимальности различия между вероятностями исходов кредитных сделок для смежных сегментов прецедентов.

Соотношение положительных и отрицательных прецедентов в каждом сегменте используется для расчета скоринг-баллов в скоринговой карте, а координаты узлов сетки в факторном пространстве как раз и задают интервалы значений признаков в скоринговой карте.

Логистическая регрессия является, таким образом, адекватным математическим инструментом для расчета скоринговых карт.

Дерево классификаций (дерево решений) является более общим алгоритмом сегментации обучающей выборки прецедентов, чем логистическая регрессия.

В отличие от метода логистической регрессии в методе дерева классификации сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис. 2).



При этом соблюдается следующая последовательность шагов (рис. 3).



На первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) на каждом шаге процедуры построения дерева решений выбирается автоматически.

Нейронная сеть позволяет обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 4). Геометрическая форма сегментов будет существенно зависеть от внутренней структуры нейронной сети, которая может быть настроена с учетом характера взаимосвязей между учитываемыми факторами.



Хотя ни дерево решений, ни нейронная сеть не приводят к построению скоринговой карты в ее классическом табличном виде, аналог скоринг-баллов легко может быть получен и для этих методов.

В качестве скоринг-балла может выступать, например, эмпирически рассчитанная доля положительных прецедентов в сегменте. И тогда задача расчета скоринг-балла апликанта равносильна задаче отнесения апликанта к одному из построенных сегментов, что и делается в результате применения построенных скоринговых алгоритмов к новому апликанту.


Сравнение алгоритмов скоринга
Из практики предиктивного моделирования известно, что ни один из описанных методов не может быть признан «самым лучшим» во всех случаях. И только сопоставление предикции и факта может дать оценку эффективности скоринговых моделей. Для сопоставления можно взять всю или часть имеющейся эмпирической прецедентной выборки.

Само сравнение алгоритмов скоринга может осуществляться по разным критериям. Один из применяемых на практике критериев сравнения состоит в следующем.

Упорядочим выборку прецедентов по возрастанию оценок вероятности положительного исхода, которые получены на основании алгоритма скоринга.

Построим следующий график: на оси Х будем откладывать значения долей этой упорядоченной выборки (слева направо по возрастанию вероятности положительного и схода), а на оси Y — долю фактически отрицательных прецедентов в подвыборке, отвечающей координате X. Построенный график будет показывать, какой процент Y действительных отрицательных прецедентов содержится в первых X процентах упорядоченной выборки. А это означает, что чем выше линия графика поднята на осью X, тем более точно алгоритм скоринга решает поставленную задачу.

Теперь для сравнения алгоритмов скоринга по предиктивной мощности достаточно сравнить соответствующие им построенные графики. Если график какого-либо метода «возвышается» над графиками остальных методов, то этот алгоритм и является самым информативным.

Но может оказаться и так, что абсолютного преобладания ни у одного алгоритма нет. Рассмотрим пример такого расположения графиков на рис. 5. Алгоритм 1 уступает по предиктивной мощности алгоритмам 2 и 3 для малых значений X, но превосходит их на больших. В свою очередь алгоритм 2 более эффективен для средних значений X, а алгоритм 3 — для малых.



Это может означать, что для реализации более консервативной кредитной политики более адекватным для задачи кредитного скоринга является алгоритм 3, а для реализации политики широкого, но более рискованного кредитования — алгоритм 1.


Сценарные расчеты
Вопрос о том, какой политики банк должен придерживаться, требует дополнительного экономического анализа. Определенную помощь при проведении такого анализа могут оказать сценарные расчеты.

Рассмотрим пример такого сценарного расчета. Предположим, что рассматривается единственный кредитный продукт (кредит с одинаковыми условиями для всех заемщиков). В качестве сценария будем рассматривать выдачу кредита апликантам, скоринг-балл которых не ниже некоторого значения (так называемого балла отсечения).

Для разных баллов отсечения состав кредитного портфеля банка будет различаться. Чем больше балл отсечения, тем меньше количество выданных кредитов, но тем более вероятен положительный исход кредитной сделки по каждому выданному кредиту. Это означает, что более высокий балл отсечения соответствует более консервативной кредитной политике, и наоборот. Понятно, что чем ниже балл отсечения, тем больше в кредитном портфеле будет находиться кредитов с более низкой вероятностью возврата.

Введем понятие средней доходности по кредитному портфелю, под которой будем понимать разницу между ожидаемыми процентными доходами и ожидаемыми расходами по портфелю, отнесенную на количество выданных кредитов. Расходы по портфелю состоят из сумм невозвратов, то есть прямых потерь банка по дефолтам. К расходам также следует отнести постоянные издержки по обслуживанию кредитного портфеля (зарплату персонала, арендную плату за офисные площади, накладные расходы и т.п.).

Понятно, что ожидаемые суммы доходов и расходов напрямую связаны с количеством выданных кредитов, вероятностями положительного и отрицательного исходов кредитных сделок, которые зависят от кредитоспособности заемщиков, а следовательно, и от их скоринг-баллов.

Если построить график средней доходности по кредитному портфелю в зависимости от балла отсечения, то теоретически он будет иметь максимум в некоторой точке (рис. 6). Эта точка и определяет оптимальный балл отсечения, который может быть выбран банком для реализации своей стратегии кредитования.




Построение фронтального приложения
Рассмотренные выше вопросы разработки и выбора алгоритма кредитного скоринга решаются в рамках банковской бэк-офисной аналитической системы и относятся к области деятельности кредитного аналитика.

После того как алгоритм кредитного скоринга разработан, он должен быть встроен во фронтальную систему. Такая фронтальная система может использоваться для поддержки принятия решений кредитным офицером, когда он рассматривает заявки апликантов на получение кредита, или для самодиагностики апликантов c помощью web-сервиса, представленного на сайте банка в Интернете.

Во фронтальной системе решается достаточно простая задача — по информационным признакам апликанта определить его скоринг-балл и сравнить его с баллом отсечения.

Поскольку современные информационные технологии разработки скоринговых алгоритмов, как правило, предусматривают генерацию программного кода полученного скорингового алгоритма, практическая реализация создания фронтального приложения труда не представляет.


Организация мониторинга адекватности скорингового алгоритма
С течением времени предиктивная мощность скорингового алгоритма в силу объективных причин снижается. Наступает время для повторного расчета скоринговых алгоритмов и замены во фронтальных приложениях прежней процедуры скоринга новой. Выбор момента перерасчета скоринговой модели является самостоятельной задачей, которая может быть решена на основе соответствующих статистических критериев. Однако если в банке на участок скоринг-аналитики выделен специалист на постоянной основе, то перерасчет скоринговых алгоритмов (по крайней мере теоретически) может осуществляться с любой периодичностью по мере пополнения базы данных новыми кредитными историями.