评分卡模型建模的各步骤中的一些方法工具、开发要点、优化方向、调研总结

评分卡的优势：

可解释性的对策
稳定性的要求及其对策
及时监控的要求
审核要求：分数分组、分区间
量化损失的要求，确定利息成本

特征工程的优化方向：

命名的规则化：因在特征变量的命名中包含：数据来源、数据分布类型(连续型,离散型 )、数据类型（字符、数字），以便做自动化
同源特征的自动化：自动做乘/除/ log 等操作，生成新衍生。
特征的分 bin：自动化计算最优分 bin (ChiMerge 算法)、自动生成对应的分 bin 代码逻辑(在命名规则的前提下)
对于 B/C 卡：提供逾期类的细节时序特征的自动化生成： Rencent / Frequent / Count 等特征的自动生成
(重点：支持后期监控，建模前的分时段进行特征分布检测)GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中，Facebook使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高 CTR预估（Click-Through Rate Prediction）的准确性（详见参考文献5、6）；GBDT在淘宝的搜索及预测业务上也发挥了重要作用（详见参考文献7）。
为了保留用户的逾期类的细节特征，可以加上时间维度，转换成二维数据，使用 autoencoder 将数据转换到新空间，再转换成一维，方便入 LR，也可以以此与人工设计的统计类特征做对比。

特征选择优化方向：

使用 variance Threshhold 筛除掉方差较低的特征
使用 f_regression（F-score）方法来做特征筛选，发现线性相关的特征
使用 mutual_infomation 来发现任意类型的相关性特征
使用 chi2 卡方检验（仅适用于离散特征，如统计量之类）做特征与 label 的独立性检验
Spearman 顺序型秩相关系数
Kendall 等级相关
使用 varcluster 或者来根据高相关性特征-做特征分组筛选
RFE （recursive features elimination）特征筛选最优组合
使用 step-wise 做最优化特征组合的发现：
1. https://stackoverflow.com/questions/15433372/stepwise-regression-in-python
2. http://planspace.org/20150423-forward_selection_with_statsmodels/
VIF 的共线性对于模型的影响：1. 容易过拟合 2. 如果入模型的特征变量中，多个模型特征能够表达另一个特征，那说明这几个特征中存在某个分量方向与另一特征变量夹角很小，从而表现出类似于夹角很小的两个向量的点乘结果较大，从而使得该向量方向对于模型的贡献分值过大，进而使得模型有偏，不稳定，影响模型表现。

模型训练的优化方向：

SMOTE
生成新样本：使用 GAN 生成坏样本 https://zhuanlan.zhihu.com/p/25071913
加权
overSampling
使用mlxtend 来绘制模型分割面，以分析数据及模型的过拟合情况
hyperopt
贝叶斯参数调优

模型集成：

将现有的 statsmodel 的模型训练过程代码嵌入到 sklearn 中，让他变成一个Pipeline的一部分，包含 dataSaver
利用 GBDT 生成的特征做model
分分钟带你杀入Kaggle Top 1% https://zhuanlan.zhihu.com/p/27424282
如何进入Top 10% https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/
Xgboost 原理与调优 https://zhuanlan.zhihu.com/p/30848967?utm_medium=social&utm_source=wechat_session

监控的优化方向：

psi 计算
打分异常问题自动计算定位
采用 auto_encoder + logistic 建模，此时，需要监控的就是 auto_encoder 的各个维度，可以做到提前发现异动，但如何定位具体导致问题的原因所在，依然较为困难。
模型的分界面可视化：mlxtend

上线实施的优化方向：

优化实施过程：根据将训练好的模型参数、分 bin 逻辑、woe 自动化输出，生成实施过程需要的分 bin 逻辑代码、 woe 转换代码
优化实施打分与离线打分的核对流程：
1. 实施打分表与离线打分表的结构统一，方便使用两份数据的对应字段进行分 bin 和 woe 的数值比对，确认离线与实施代码的逻辑一致性。
2. 提供自动核对与统计的代码

数据预处理：
1. Z-score
2. Min-max （对于神经网络类存在激活函数 Saturation 问题的，建议标准化到：0.1~0.9区间,Depending on the task objetives. For example; for neural networks is recommended normalization Min max for activation functions. To avoid saturation Basheer & Najmeer (2000) recommend the range 0.1 and 0.9. Another possibility is to use the Box Cox transformation + constant to avoid the problem of the zeros）
3. Std-norm
数据验证：
1. 各时间阶段 ylabel 的分布
2. 各类统计量
分 bin标准
1. 好坏比(对数几率？ Logit? woe) 差15
2. 最多 8 个分 bin
3. 最少分组含有2%的样本，其中不少于30的坏用户样本
4. Bad_rate 单调递减
5. Bad rate 尽量等差
类别型的特征转换
1. LabelEncoder
2. OneHotEncoder(dummies)
3. Woe
4. 单颗树的叶子节点编号
数值类变量分组或类别型变量的离散化优化方法：
1. Gini
2. 卡方
3. 信息熵增益（决策树的叶子节点编号，再合并分组，再确定目标数值？）
4. WOE （非线性转换，与强烈暗示性的数值）
筛选:
1. Varclus 分组，
2. 特征选择：
3. 1. 单变量特征选择：
  2. 1. 回归类：f_regression , mutual_info_regression
    2. 分类： chi2 , f_classif , mutual_info_classif
  3. 递归特征降维：sklearn 的 RFE方法
  4. http://scikit-learn.org/stable/modules/feature_selection.html
4. 相似度
5. unique column
6. 特征取值极度不平衡： 99：1
全自动分箱与逻辑生成：
1. 全自动分 bin：参考分 bin 标准
模型参数：
1. imbalance
拒绝推断对于模型的提升
1. 建模初期选用的是 “有偏样本” ，只选择了在公司业务系统中有表现的用户，实际上，还有之前并未通过系统的样本也是申请者之一，他们属于样本总体，但却被筛选掉了。
2. 正确标准的做法是：使用：对被拒绝用户进行推断演绎技术，即：使用有偏的有变现用户进行第一版建模，完成后，使用该模型对’‘被拒绝用户’’进行预测，然后将预测的概率作为其权重，重新加入训练样本中，重新分 bin 和建模，这样才能用上原始的真正分布。
金融领域建模使用 ks 或者 auc的原因是什么
1. ks 与 auc 可以量化区间的损失或者说坏账率在承受范围内，并可以以此计算出放贷的基础利率
2. 正负样本的不均衡使得像 accuracy 这类指标不适用。

评分卡逻辑回归中的模型指标解释说明：

卡方：越接近1越好
Adj. R-squared:
F统计量：大于 3.86
Prob 统计量:
logs 似然
AIC :
BIC :
T 统计量：每个变量的绝对值都应大于 1.96
P 值 > |t|：都应小于0.05

参考：

SPSS分析技术:线性回归分析（Evernote 有保存） https://zhuanlan.zhihu.com/p/25507503

回归模型的一些判断方法（Evernote 有保存） https://blog.csdn.net/joeland209/article/details/69367318

OLS Regression Results

==============================================================================

Dep. Variable: LTS R-squared: 0.531

Model: OLS Adj. R-squared: 0.453

Method: Least Squares F-statistic: 6.806

Date: Fri, 27 Apr 2018 Prob (F-statistic): 0.00291

Time: 15:30:53 Log-Likelihood: 85.700

No. Observations: 22 AIC: -163.4

Df Residuals: 18 BIC: -159.0

Df Model: 3

Covariance Type: nonrobust

==============================================================================

coef std err t P>|t| [95.0% Conf. Int.]

------------------------------------------------------------------------------

const -0.9666 0.449 -2.155 0.045 -1.909 -0.024

fpd90 -5.6018 2.940 -1.905 0.073 -11.778 0.575

log_sub 5.5858 2.933 1.905 0.073 -0.576 11.747

log2_add -5.6248 2.950 -1.907 0.073 -11.823 0.573

log_add -5.6177 2.947 -1.906 0.073 -11.809 0.574

log10_add -5.6087 2.943 -1.906 0.073 -11.792 0.574

sqrt_add -0.6421 0.647 -0.992 0.334 -2.002 0.718

log2_sub 5.5787 2.930 1.904 0.073 -0.576 11.734

log10_sub 5.5948 2.937 1.905 0.073 -0.575 11.765

sqrt_sub 10.5615 5.269 2.005 0.060 -0.507 21.630

==============================================================================

Omnibus: 0.110 Durbin-Watson: 1.900

Prob(Omnibus): 0.946 Jarque-Bera (JB): 0.047

Skew: 0.047 Prob(JB): 0.977

Kurtosis: 2.795 Cond. No. 1.05e+19

==============================================================================

参考：

递归特征筛选法RFE : http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html#sphx-glr-auto-examples-feature-selection-plot-rfe-digits-py

F-test 与互信息在特征与 label 的相关性计算上的对比：http://scikit-learn.org/stable/auto_examples/feature_selection/plot_f_test_vs_mi.html#sphx-glr-auto-examples-feature-selection-plot-f-test-vs-mi-py

嵌套交叉验证Nested versus non-nested cross-validation：

标准化的重要性：http://scikit-learn.org/stable/auto_examples/preprocessing/plot_scaling_importance.html#sphx-glr-auto-examples-preprocessing-plot-scaling-importance-py

特征融合： http://scikit-learn.org/stable/auto_examples/cluster/plot_feature_agglomeration_vs_univariate_selection.html#sphx-glr-auto-examples-cluster-plot-feature-agglomeration-vs-univariate-selection-py

Stepwise 存在的问题： https://www.stata.com/support/faqs/statistics/stepwise-regression-problems/

多个模型用 AUC 作为筛选，用 TPR确定决策点：http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#sphx-glr-auto-examples-model-selection-plot-roc-crossval-py

特征的聚类：谱聚类（varcluster 是否由PCA 计算特征向量个数，再根据此设定 cluster 数量，使用谱聚类计算结果），http://scikit-learn.org/stable/auto_examples/bicluster/plot_spectral_coclustering.html#sphx-glr-auto-examples-bicluster-plot-spectral-coclustering-py

样本相似度度量方法拉普拉斯核函数高斯核 RBF 核函数的表达式： http://scikit-learn.org/stable/modules/metrics.html#cosine-similarity

傅里叶级数与希尔伯特空间的说明： https://www.wikiwand.com/zh-cn/%E5%82%85%E9%87%8C%E5%8F%B6%E7%BA%A7%E6%95%B0

特征聚类： http://scikit-learn.org/stable/modules/generated/sklearn.cluster.ward_tree.html#sklearn.cluster.ward_tree

LR 不会偏移分离超平面向大类： this is an imbalanced dataset, you could do under sampling for majority case as the results are always going to be biased towards majority (exception Logistic Regression) use SMOTE, ROSE, k-medoids for the same. Or you could do random under sampling ：https://www.kaggle.com/arathee2/achieving-100-accuracy

posted @ 2019-07-12 19:27 fandyst 阅读(2300) 评论(0) 收藏举报

刷新页面返回顶部

会当临绝顶，一览众山小

评分卡模型建模的各步骤中的一些方法工具、开发要点、优化方向、调研总结

公告