信贷风控中Vintage、滚动率、迁移率的理解(转)
信贷风险管理是一门艺术,更是一门科学。资产质量分析中常会涉及到三个理论:
-
账龄分析(Vintage Analysis):用以分析账户成熟期、变化规律等。
-
滚动率分析(Roll Rate Analysis):用以定义账户好坏程度。
-
迁移率分析(Flow Rate Analysis):用以分析不同逾期状态之间的转化率。
一、基础风控指标概念
为了更容易理解后续内容,我们先介绍一些基础的风控指标概念。
定义一:账龄(Month on Book,MOB)
指资产放款月份。类似于婴孩一出生就有了年龄,一旦申贷订单被放款,也便拥有了账龄和生命周期。
-
MOB0:放款日至当月月底
-
MOB1:放款后第二个完整的月份
-
MOB2:放款后第三个完整的月份
MOB的最大值取决于信贷产品期限。如果是12期产品,那么该资产的生命周期是12期,MOB最大到MOB12。
例如,2019年11月13日放款的订单,2019年11月是MOB0,2019年12月是MOB1,以此类推。
定义二:逾期天数(Days Past Due,DPD)
逾期天数 = 实际还款日 - 应还款日。
DPDN+表示逾期天数 >= N天,如DPD30+表逾期天数 >=30天的资产
例如,若还款日是每月8号,那么9号就是逾期第一天。如果客户在10号还款,那么逾期2天。
定义三:逾期期数(M)
指实际还款日与应还款日之间的逾期天数,并按区间划分后的逾期状态。M取自Month on Book的第一个单词。(注:不同机构所定义的区间划分可能存在差异)
-
M0:当前未逾期(或用C表示,取自Current)
-
M1:逾期1-30日
-
M2:逾期31-60日
-
M3:逾期61-90日
-
M4:逾期91-120日
-
M5:逾期121-150日
-
M6:逾期151-180日
-
M7:逾期180日以上。此时也被称为呆账(Bad Debts),会予以注销账户(write-off)
二、Vintage Analysis
Vintage一词最初来源于葡萄酒业 。由于每年采摘的葡萄会受到日照、气温、降水等因素的影响,最终酿造的葡萄酒品质会存在差异。在窖藏一定年份后,葡萄酒的品质将趋于稳定,也就是品质成熟,这段年份数被称为成熟期(maturity)。
简便起见,我们以酒精浓度作为衡量葡萄酒品质的标准,约定:浓度越高,品质越好。首先,记录入窖年份作为该批次葡萄酒的标签,这也被称为Vintage或者Cohort。之后,我们将每年定期抽样测量酒精浓度,保存记录数据,如图1所示。
经过几年的数据积累,我们就可以绘制出酒精浓度随时间变化的Vintage曲线。俗话说,酒越酿越醇,Vintage曲线通常是单调递增的,如图1所示。
我们可以利用Vintage曲线做什么呢?如图2所示,主要用途包括:
-
分析变化规律:评估不同年份的葡萄酒的品质随着窖藏时间推移的变化规律。某些年份的葡萄酒浓度在入窖第1年就能达到较高的水平,但上升缓慢;有些起点低,但上升快 。
-
确定最终品质:Vintage曲线最终稳定值,表明了这批葡萄酒的最终酒精浓度 。
-
确定成熟期:由图1可知,在入窖第6年后,酒精浓度稳定不变,可以确定成熟期是6年,我们最早在第6年就可以开桶品尝 。
-
分析影响因素:根据Vintage曲线特征,我们可以分析某个年份的葡萄所受到的环境影响因素,从而改善生产工艺。比如,由于某一年的光照不充分,糖分积累少,酒精浓度可能最终就比较低。我们就可以人工增加光照强度 。
在信贷领域中,我们也可以用Vintage曲线分析资产(portfolio)质量的成熟过程变化规律。为更容易理解,在此列举了Vintage分析过程中两个领域的对应关系,如图3所示。
遵循同样的分析思路,按账龄(MOB)长短对齐后比较,我们可以了解同一产品不同时期放款的资产质量。
-
确定资产质量:一般以逾期率来定义资产质量,也就是曲线平缓后对应的逾期率。
-
分析变化规律:资产质量(例如逾期率指标)的变化情况,如果前几期逾期率上升很快,那么说明短期风险没有捕捉住,欺诈风险较高;反之,如果曲线一直在上升,说明信用风险识别能力不佳。
-
确定账户成熟期:用来判断客户展现好坏的时间因素,从而帮助定义表现期。
-
分析影响因素:风控策略收紧或放松、客群变化、市场环境、政策法规等都会影响资产质量。分析影响因素,可以用来指导风控策略的调整。
求知的你肯定会疑惑,如果以逾期率来定义资产质量,那么逾期风险(目标变量Y)是如何定义的?如何确定M3,还是M6?稍安勿躁,后续将会结合滚动率分析来揭晓谜底。
首先,我们来分析为什么要确定账户的表现期?在《风控特征—时间滑窗统计特征体系》一文中曾提到过:
表现期越长,信用风险暴露将越彻底,但意味着观察期离当前越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大。反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。
例如,对于一个12期分期还款的信贷产品,理论上当用户在12期结束,并还清所有的钱后,我们才能定义为绝对的好客户;反之,我们只能说到目前为止是一个好客户,但并不能知道未来几期用户会不会逾期不还钱。
因此,我们需要确定一个合适的表现期能覆盖足够多的坏客户即可。
根据图5的信贷产品Vintage曲线,我们可以得到哪些信息呢?
-
账龄最长为12个月,代表产品期限为12期。随着12期结束,账户的生命周期走到尽头。
-
账龄MOB1、MOB2、MOB3的逾期率都为0,说明逾期指标为M4+(逾期超过90天)风险。
-
由放贷月份从2018年1月~12月的账户的最终逾期率都在降低,说明资产质量在不断提升,可能是因为风控水平在不断提升。
-
2018年5月相对于2018年1~4月的逾期率大幅度下降,说明该阶段风控策略提升明显。
-
不同月份放款的M4+在经过9个MOB后开始趋于稳定,说明账户成熟期是9个月。
绘制Vintage曲线时,就不得不提到纵坐标中逾期率的定义。通常有两种计算口径:
-
第一种,订单口径,逾期率 = 逾期订单数 / 总放贷订单数
-
第二种,金额口径,逾期率 = 逾期剩余本金 / 总放贷本金
目前互联网金融各家机构的口径定义存在差异,因此仅仅根据各家发布的Vintage曲线,有时并不能客观分析资产质量和风控水平。
三、Roll Rate Analysis
滚动率分析就是从某个观察点之前的一段时间(观察期)的最坏的状态,向观察点之后的一段时间(表现期)的最坏的状态的发展变化情况,如图6所示。
⚠️注意:一般大家也习惯把vintage中的成熟期叫做表现期,因此出现一定的混淆。但意思是都是未来的一段时间窗。
滚动率分析的具体操作步骤为:
-
step 1. 确定数据源。一般利用客户还款计划表(repayment schedule)。
-
step 2. 选择观察点,以观察点为截止时间,统计客户在观察期(如过去6个月)的最长逾期期数,按最坏逾期状态将用户分为几个层次,如C、M1、M2、M3、M4+。
-
step 3. 以观察点为起始时间,统计客户在表现期(如未来6个月)的最长逾期期数,按最坏逾期状态将用户分为几个层次,如C、M1、M2、M3、M4+。
-
step 4. 交叉统计每个格子里的客户数,如图6中表1所示。
-
step 5. 统计每个格子里的客户占比,如图6中表2所示。
-
step 6. 为了排除观察点选择时的随机影响,一般会选择多个观察点。重复step1 ~5。
例如,选择观察点为2018年6月30日,我们取10,000个客户作为研究对象,统计该10,000个客户从观察期到表现期的最大逾期状态的变化情况,如图7所示。
观察图7,我们可以发现以下规律:
-
逾期状态为M0的客户,在未来6个月里,有96%会继续保持正常状态,4%会恶化为M1和M2;
-
逾期状态为M1的客户,未来有81%会回到正常状态,即从良率为81%,有7%会恶化,13%会保持M1状态;
-
逾期状态为M2的客户,从良率为23%,有39%会恶化为M3和M4+;
-
逾期状态为M3的客户,从良率为14.7%,有60.7%会恶化为M4+;
-
逾期状态为M4+的客户,从良率仅为4%,有80%会继续保持此状态。
因此,我们认为历史逾期状态为M4+的客户已经坏透了,几乎不会从良。为了让风控模型有更好的区分能力,需要将客户好坏界限尽可能清晰,可以定义:
坏用户(bad)= 逾期状态为M4+(逾期超过90天)
四、如何确定目标变量Y
在风控建模中,由于是有监督学习,我们非常关心如何定义合适的目标变量Y?这就需要结合滚动率分析和Vintage分析,两者的分工在于:
-
滚动率分析用于定义客户的好坏程度。
-
Vintage分析用于确定合适的表现期。
-
定义目标变量Y的具体操作步骤为:
-
step 1. 利用滚动率分析定义坏客户,例如上文案例中定义:M4+为坏客户。
-
step 2. 以M4+作为资产质量指标,统计Vintage数据表,绘制Vintage曲线。目的是分析账户成熟期,例如上文案例确定:账户成熟期是9个月。
你可能还是会比较疑惑,为什么还需要通过Vintage分析来确定表现期?
这是因为:虽然滚动率分析确定了M4+作为坏的程度,但是对于12期的产品,有些账户是在前4期MOB(也就是MOB1 ~ MOB4,经过4个表现期)就达到M4+,有些是在后几期才达到M4+。
对于这个Vintage里所有的账户,我们的目的是抓住尽可能多的坏客户。
现在进一步补充Vintage曲线的绘制过程:如图8所示,对于这10,000个账户,以MOB1为起点,把前N个MOB作为一个窗口,滑窗统计坏客户率,得到图5-表1中的Vintage数据,并绘制Vintage曲线。我们可以发现:经过9期,我们几乎能够抓住所有的坏客户。
因此,我们将两者结合起来,定义:
Bad = 账户经过9期表现期后,逾期状态为M4+(逾期超过90天)。此时Y=1。
Good = 经过9期表现期,但未达到M4+逾期状态。此时Y=0。
Intermediate = 未进入9期表现期,账户还未成熟,无法定义好坏,也就是不定样本。
参考链接:
https://mp.weixin.qq.com/s/xJQlNOYEqdGyM6i61BAQUg