风控ML[9] | Vintage和Roll Rate 分析的详解
我们说了好几期的风控建模了,也有不少的同学私信我说一般来说我们需要怎么确定Y值呢?,到底多坏的逾期表现的客户可以被我们定义为坏客户呢?今天这篇文章,就给大家介绍一个大家既熟悉又陌生的分析工具——Vintage Analysis(账龄分析)和Roll Rate Analysis(滚动率分析),希望对大家有一定帮助。
本次文章从以下几个模块来展开说说,先介绍一下理论,然后造一批虚拟数据来实际实现一波加深理解,最后再回归我们的主题。
00 Index
01 Roll Rate Analysis的理论
02 Vintage Analysis 的理论
03 如何确定建模的A卡Y值
01 Roll Rate Analysis的理论
Roll Rate Analysis,即滚动率分析,目的在于确定坏客户的定义逻辑,比如说逾期多少天之后的客户,不会在未来还钱了。为了找到更加准确的坏人,我们这个阈值,不能太小。于是,就有了滚动率分析的方法,来确定这个阈值。
滚动率分析,就是选择一个观测点,向前和向后的一段时间窗口,统计不同档次客户的变化情况,从而来确定坏人的划分标准,具体实现步骤如下:
1,选择观测点,比如20210601;
2,以观测点向前统计6个月内(20201201-20210601),客户的档次分布情况(档次一般分为C:正常,M1:逾期0-30天,M2:逾期31-60天,M3:逾期61-90天,M4+:逾期90+,逾期标签以时间窗口内,最坏的逾期表现,一般用指标:最长逾期天数来衡量并归类档次);
3,以观测点向后统计6个月内(20210601-20211201),客户的档次分布情况,如下表;
4,将分布用占比的形式表示,如下表;
5,选择多个观测点,重复迭代2-3步,得到更多的分布,最终确定一个平均水平。
那我们有了上面的表格之后,就可以着手去分析下了。上面我们提及到,滚动率分析的目的是为了找到一个阈值,用来区分坏人的阈值。所以,我们基于现有的数据,分析一下当下客群(不同客群的好坏定义不相同)的坏人在多久会体现得比较明显。
我们从表中可以看到,这是一张交叉表,是同一个在过去6个月和未来6个月的表现来统计的。比如说第一行,代表的含义就是:原先(即过去6个月内)还款表现正常的客户,在未来(即未来6个月内)还款表现的重新分布。比如原先正常的客户有8355个,经过6个月的表现,有95.8%(8000个)的客户仍是正常的,有3%的客户变成了M1,有1.2%的客户变成了M2,以此类推。
在Roll Rate Analysis中,有一个名词很有意思,就是“从良率”,也就是说,原先是“坏人”,后面正常还款了,变成了“好人”,这个也是决定我们确定Bad的阈值的关键!
比如,从表中,我们可以看到,原先是M3的(第4行)客户,只有3.4%变成了C(正常),从良率太低了,所以我们可以确定,在当下客群,客户如果在过去6个月内,最长逾期天数超出了60天(即M3+),基本上都是坏人了,所以我们可以以这个阈值,作为我们确定坏人的阈值。
02 Vintage Analysis 的理论
一开始我接触这个名词的时候就觉strong text得很高大上,就那种不明觉厉的感觉,于是就去百度了下。
我们先来直观地看一下 Vintage 曲线(随意造的数据)。
我们要看懂上图,需要了解一下的知识:
1,Now: 指的是当下观测时间点;
2,DPD60+: 指的是定义坏人的阈值,即逾期60天以上,这个值就是在上面👆的Roll Rate Analysis中得到的;
3,Loan Month: 放款所处月份,也就是贷款发放的月份;4,MOB: 即Month On Book,也就是账龄,可以理解为贷款的年龄,放款当月为MOB0,次月为MOB1,以此类推;
5,有些月份的MOB为空? 这是因为还没有发生,比如最后一行,2021年10月放款的借据(或者客户),在当下观测时间点(20220101),只有3个自然月的表现可以统计,分别是MOB0-2,对应月份202110、202111、202112;
有了上面的认识,我们可以看到大多数的放款的逾期占比情况,会在MOB9的时候达到稳定,即我们常说的“成熟期”,因此我们在选择样本客户的时候,会选择表现期大于等于9期的客户,因为在这个时候,坏人基本都现形了,我们可以找到大多数的坏人作为样本。
03 如何确定建模的A卡Y值
有了上面两小节的认识,我们就可以比较轻易确定样本Y值了,直接给出答案:
Good: 表现期大于8期,并且逾期状态未达到M3+的客户,定义为好,Y=0;
Bad: 表现期大于8期,并且逾期状态为M3+的客户,定义为坏,Y=1;
Else:其他的样本由于“未成熟”,所以我们不纳入建模样本。
为什么这么定义呢?概括来说就是Roll Rate Analysis确定了表现期,用来过滤未成熟的客户;Vintage Analysis确定了坏客户的阈值,用来区分一下好坏客户。
That's All! 其实也没那么复杂,对吧。
Reference
1,《Vintage Analysis 野谈》 https://zhuanlan.zhihu.com/p/95796921 2,《信贷风控中Vintage、滚动率、迁移率的理解》 https://zhuanlan.zhihu.com/p/81027037