尚未整理【风控】互联网金融-构建评分卡模型部分知识点

模型部署方式：将模型转为PMML文件或者框架、服务器方式做接口调用。
特点是：笔数多，单笔金额小，数据维度丰富
信用评分做准入，行为评分做调额，贷中管理，或者提前催收
催收评分卡，可以预测M1转到M2的概率，M2转到M3的概率，催收回款率等
观察期与特征变量选择：一定要选择贷前就能获取的特征，一般围绕客户的还款能力、还款意愿、稳定性和多头借贷展开，还要兼顾自己的产品客群定位、用户体验、数据成本。比如产品是农户贷，那么社保、公积金、网银工资流水就是不需要获取的特征。如果产品目标是电商小商户，则电商数据就是非常有用的特征。
表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不同而定，可以通过迁徙率设定(预期五天到M1，M1到M2，…一段时期的迁徙比例来决定y的0 and 1)
现金贷表现期一般一个月；消金3-6个月；信用卡是12个月
逻辑回归模型服从的前提假设：

　　　　①自变量不能相关，即排除自相关性，还有共线性；②变量一定要显著。③变量要独立同分布。

　　　　所以我们要进行共线性筛查，显著性筛查，相关性筛查，才能选择出入模变量。

　　 9. 逻辑回归创建评分卡模型核心步骤：

　　　　a) 变量分箱，可以排除异常值的影响，分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。

　　　　b) WOE编码。作用：排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。

　　　　c) IV值，又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值，再乘以对应的WOE值，一般选择IV>=0.02的变量。

　　　　d) 共线性、相关性、显著性检验。

　　　　e) 计算每个变量对应切分点的分数。Score=A+B*ln(odds)，y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe

　　10. 建模样本：负样本占总样本比例5%以上就行，最好是10%以上。

　　11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上，分类变量的水平种类在10种以下。

　　12. 字符型分类变量转整型为什么模型容易调用？

　　13. 字符型分类变量转为数值型方式：哑变量，WOE编码，坏样本率。

　　14. 自动化分箱(最优分箱)：KS分箱，卡方分箱，决策树分箱。手动分箱：WOE(ln(odds))。对样本集最优，但会忽略可解释性。

　　15. 评分卡计算分数公式

　　16. 评分卡模型建立完成，需要检验准确性和稳定性，还要监控

　　17. 分箱，数据处理，特征衍生，有效性，分数稳定性，变量稳定性，模型调优可能比不上业务上的逻辑变量。

　　18. 分箱bad rate要求单调性，其原因理解如下：

　　 LR本身不要求特征对目标变量具备单调性。之所以要求分箱后单调，主要是从业务角度考虑，解释、使用起来方便一点。如果有某个（分箱后的）特征对目标变量不单调，会加剧模型解释型的复杂化; 对于像年龄这种特征，其对目标变量往往是一个U型或倒U型的分布，这个是允许的

posted @ 2019-07-15 00:33 likedata 阅读(775) 评论(0) 收藏举报

刷新页面返回顶部

likedata