尚未整理【风控】互联网金融-构建评分卡模型部分知识点

  1. 模型部署方式:将模型转为PMML文件或者框架、服务器方式做接口调用。
  2. 特点是:笔数多,单笔金额小,数据维度丰富
  3. 信用评分做准入,行为评分做调额,贷中管理,或者提前催收
  4. 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等
  5. 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力、还款意愿、稳定性和多头借贷展开,还要兼顾自己的产品客群定位、用户体验、数据成本。比如产品是农户贷,那么社保、公积金、网银工资流水就是不需要获取的特征。如果产品目标是电商小商户,则电商数据就是非常有用的特征。
  6. 表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不同而定,可以通过迁徙率设定(预期五天到M1,M1到M2,…一段时期的迁徙比例来决定y的0 and 1)
  7. 现金贷表现期一般一个月;消金3-6个月;信用卡是12个月
  8. 逻辑回归模型服从的前提假设:

    ①自变量不能相关,即排除自相关性,还有共线性;②变量一定要显著。③变量要独立同分布。

    所以我们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。

   9. 逻辑回归创建评分卡模型核心步骤:

    a)       变量分箱,可以排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。

    b)      WOE编码。作用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。

    c)       IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,一般选择IV>=0.02的变量。

    d)      共线性、相关性、显著性检验。

    e)       计算每个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe

  10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。

  11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种以下。

  12. 字符型分类变量转整型 为什么模型容易调用?        

  13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。

  14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。

  15. 评分卡计算分数公式

  16. 评分卡模型建立完成,需要检验准确性和稳定性,还要监控

  17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。

posted @ 2019-07-15 00:33 likedata 阅读(...) 评论(...) 编辑 收藏