Оригинал материала находится здесь: http://www.basegroup.ru/practice/solvency_print.htm Использование деревьев решений для оценки кредитоспособности физических лиц ВведениеВ данной статье речь пойдет об одном из методов оценки риска при кредитовании физических лиц, основанного на применении технологии интеллектуального анализа данных (Data Mining). Можно привести давно всем известную цепочку связанных событий: чем меньше рискует банк при предоставлении кредита, тем меньше процентная ставка, предлагаемая этим банком; чем меньше процентная ставка, тем больше клиентов обратиться в именно этот банк; чем больше клиентов обратиться в банк, тем большую прибыль получит банк, а это одна из основных целей коммерческой деятельности. Риск, связанный с невозвратом суммы основного долга и процентов можно значительно снизить, оценивая вероятность возврата заемщиком кредита. Данная статья посвящена одному из ключевых моментов в кредитовании физических лиц – определению кредитоспособности потенциального заемщика. Существующая система оценки кредитоспособности физических лицПри кредитовании физических лиц характерны небольшие размеры ссуд, что порождает большой объем работы по их оформлению и достаточно дорогостоящая процедура оценки кредитоспособности относительно получаемой в результате прибыли. Для оценки кредитоспособности физических лиц банку необходимо оценить как финансовое положение заемщика, так и личные качества заемщика. При этом кредитный риск складывается из риска невозврата основной суммы долга и процентов по этой сумме. Сейчас для оценки риска кредитования заемщика используется скоринг кредитование. Сущность этой методики состоит в том, что каждый фактор, характеризующий заемщика, имеет свою количественную оценку. Суммируя полученные баллы, можно получить оценку кредитоспособности физического лица. Каждый параметр имеет максимально возможный порог, который выше для важных вопросов и ниже для второстепенных. На сегодняшний день известно достаточно много методик кредитного скоринга. Одной из самых известных является модель Дюрана. Дюран определил группы факторов, позволяющих максимально определить степень кредитного риска. Также он определил коэффициенты для различных факторов, характеризующих кредитоспособность физического лица:
Также он определил порог, перейдя который, человек считался кредитоспособным. Этот порог равен 1.25. Т.е. если набранная сумма баллов больше или равна 1.25, то потенциальному заемщику выдается испрашиваемая им сумма. Недостатки скоринговой системы оценки кредитоспособности физических лицОсновным недостатком скоринговой системы оценки кредитоспособности физических лиц является то, что она очень плохо адаптируема. А используемая для оценки кредитоспособности система, должна отвечать настоящему положению дел. Например, в США считается плюсом, если человек поменял много мест работы, что говорило о том, что он востребован. В СССР наоборот – данное обстоятельство говорило о том, что человек либо не может ужиться с коллективом, либо это малоценный специалист, а соответственно повышается вероятность просрочки в платежах. Другим примером различия весовых коэффициентов может служить то, что если в СССР наличие личного автомобиля говорило о хорошем финансовом положении заемщика, то сейчас это наличие практически ни о чем не говорит. Таким образом адаптировать модель просто крайне необходимо, как для разных периодов времени, так и для разных стран и даже для разных регионов страны. Для адаптации скоринговой модели оценки кредитоспособности физических лиц специалисту необходимо проделывать путь, подобный тому, что проделал Дюран. Т.е. специалисты, которые будут заниматься такой адаптацией должны быть высоко квалифицированными, а значит и очень высокооплачиваемые. Это должны такие люди, чтобы они были в состоянии оценить текущую ситуацию на рынке. Результатом такого рода проделанной работы будет набор факторов с весовыми коэффициентами плюс некий порог (значение), преодолев который человек, обратившийся за кредитом, считается способным погасить испрашиваемую ссуду плюс проценты. Полученные результаты являются по большей части субъективным мнением и, как правило, плохо подкрепленные статистикой (статистически необоснованные). Как следствие всего этого, полученная модель не в полной мере отвечает текущей действительности. Финансовым результатом такого подхода будет то, что в процентной ставке кредитования предлагаемой банком большую долю будет занимать часть, покрывающая риск неплатежей. Итак, основные недостатки скоринговой системы оценки кредитоспособности физических лиц это:
Деревья решений как вариант решения проблемы устранения недостатков скоринговой системыОдним из вариантов решения вышепоставленной задачи является применение алгоритмов, решающих задачи классификации. Задача классификации – это задача отнесения какого-либо объекта (потенциальный заемщик) к одному из заранее известных классов (Давать/Не давать кредит). Такого рода задачи с большим успехом решаются одним из методов Data Mining – при помощи деревьев решений. Деревья решений – один из методов автоматического анализа данных. Получаемая модель – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Пример дерева приведен на рис. 1.
Сущность этого метода заключается в следующем:
Практический примерДля демонстрации подобной технологии будет использоваться программа Tree Analyzer из пакета Deductor ver.3. В качестве исходных данных была взята выборка, состоящая из 1000 записей. Где каждая запись – это описание характеристик заемщика плюс параметр, описывающий его поведение во время погашения ссуды. При обучении дерева использовались следующие факторы, определяющие заемщика: 'N Паспорта'; 'ФИО'; 'Адрес'; 'Размер ссуды'; 'Срок ссуды'; 'Цель ссуды'; 'Среднемесячный доход'; 'Среднемесячный расход'; 'Основное направление расходов'; 'Наличие недвижимости'; 'Наличие автотранспорта'; 'Наличие банковского счета'; 'Наличие страховки'; 'Название организации'; 'Отраслевая принадлежность предприятия'; 'Срок работы на данном предприятии'; 'Направление деятельности заемщика'; 'Срок работы на данном направлении'; 'Пол'; 'Семейное положение'; 'Количество лет'; 'Количество иждивенцев'; 'Срок проживания в данной местности'; 'Обеспеченность займа'; 'Давать кредит'. При этом поля: 'N Паспорта', 'ФИО', 'Адрес', 'Название организации' алгоритм уже до начала построения дерева решений определил как непригодные (рис. 2) по причине практической уникальности каждого из значений.
Целевым полем является поле 'Давать кредит', принимающий значения 'Да'(True) и 'Нет'(False). Эти значения можно интерпретировать следующим образом: 'Нет' – плательщик либо сильно просрочил с платежами, либо не вернул часть денег, 'Да' – противоположность 'Нет'. После процесса построения дерева решений при помощи программы Tree Analyzer получаем следующую модель оценки кредитоспособности физических лиц, описывающую ситуацию, относящуюся к определенному банку. Эта модель представлена в виде иерархической структуры правил – дерева решений (рис. 3).
Анализируя полученное дерево решений (см. рис. 3) можно сказать следующее:
Очень важной особенностью построенной модели является то, что правила, по которым определяется принадлежность заемщика к той или иной группе записаны на естественном языке. Например, на основе построенной модели получаются следующие правила:
Правильно построенное на данных прошлых периодов дерево решения обладает одной еще очень важной особенностью. Эта особенность называется 'способность к обобщению'. Т.е. если возникает новая ситуация (обратился потенциальный заемщик), то, скорее всего, такие ситуации уже были и достаточно много. Вследствие чего можно с большой долей уверенности сказать, что вновь обратившийся заемщик поведет себя так же, как и те заемщики, характеристики которых очень похожи на характеристики вновь обратившегося. На основе построенной модели можно определять принадлежность потенциального заемщика к одному из классов. Для этого необходимо воспользоваться диалоговым окном 'Эксперимент' программы Tree Analyzer (рис. 4), в котором, последовательно отвечая на вопросы, можно получить ответ на вопрос: 'Давать ли кредит'.
Пример получения результата Вопросы: Обеспеченность займа: Да > Наличие недвижимости: Да > Пол: Муж > Наличие банковского счета: Нет > Основное направление расходов: Покупка товаров длительного пользования. Ответ: Кредит давать: Да (достоверно на 96 %) Используя такой подход можно устранить сразу оба вышеописанных недостатка скоринговой системы оценки кредитоспособности. То есть:
ЗаключениеПриведенный выше пример – это достаточно грубый вариант того, как можно использовать методы интеллектуального анализа данных, в частности, деревья решений, для достижения поставленной задачи: уменьшения риска при операциях кредитования физических лиц. Хотя и при таком первом приближении наблюдаются положительные результаты. Дальнейшие усовершенствования могут затрагивать такие моменты как: более точный подбор определяющих заемщика факторов; изменение самой постановки задачи, так, например, вместо двух значений целевого параметра, можно использовать более детальную информацию (Вернул/Не вернул/Не вовремя), или использовать в качестве целевого значения вероятность того, что деньги выплачены вовремя; в данной статье ни слова не говориться об очистке данных, хотя, как показывает практика, использование предобработки исходных данных позволяет значительно улучшить качество результата и является важным этапом при комплексном подходе к решению любой задачи анализа данных. Журнал "Банковское дело", №3, 2004, Москва
Сергей Ларин. BaseGroup Labs. © 1995-2006 BaseGroup Labs |
© 2006 ДонНТУ,Шепелева М.В. |