特征选择
(1)业务中的模型中会遇到的问题
模型效果不好
训练集效果好,跨时间测试效果不好
跨时间测试效果也好,上线之后效果不好(一般是线上线下变量逻辑不一致)
上线之后效果还好,几周之后分数分布开始下滑(有部分变量跨时间测试不好)
一两个月内都比较稳定,突然分数分布骤降(模型因该没问题,关注外部环境)
没有明显问题,但模型每个月逐步失效(迁移方法可以改善这一现象,不知道用的多不多)
(2)业务所需要的变量是什么
变量必须对模型有贡献,也就是说必须能对客群加以区分
逻辑回归要求变量之间线性无关,呈现单调趋势
客群在每个变量上的分布稳定,分布迁移无可避免,但不能波动太大
(3)变量重要性
IV值:使用逻辑回归建模,变量不能有空值
要将某变量分5箱,一般使用等频分箱先分成50箱或者100箱,然后计算相邻两箱之间的卡方值,将卡方值最小的两箱合并,循环操作直到最后只剩5箱。

卡方检验
模型筛选:xgboost不需要非空
集成学习方法可以评估特征重要性指标,一般评估指标有weight, gain, cover等
xgboost极限梯度提升树。LightGBM的意思是轻量级(light)的梯度提升机(GBM),其相对Xgboost具有训练速度快、内存占用低的特点。
(5)共线性
相关系数
方差膨胀系数
在多元回归中,我们可以通过计算方差膨胀系数VIF来检验回归模型是否存在严重的多重共线性问题。 定义:
其中,为自变量 对其余自变量作回归分析的负相关系数。方差膨胀系数是容忍度
的倒数。
方差膨胀系数VIF越大,说明自变量之间存在共线性的可能性越大。
一般来讲,如果方差膨胀因子超过10,则回归模型存在严重的多重共线性。小于10的范围是可以接受的,表明白变量之间没有共线性问题存在。
(6)单调性
bivar图
(7)稳定性
PSI:PSI = sum((实际占比-预期占比)/ln(实际占比/预期占比))
posted on 2020-09-09 10:12 happygril3 阅读(492) 评论(0) 收藏 举报
浙公网安备 33010602011771号