信用评分预测模型(十)--总结
Author:LieDra
https://www.cnblogs.com/LieDra/
模型检验
训练集和测试集
由于数据集较小,总共只有 1000 条数据,因此数据集的划分比较重要。
在查询相关资料和测试后,最终我们选择的是使用60%的数据,即随机从 1000 条数据中挑选 600 条数据作为训练集;测试集则为每次都在训练集的补集中随机挑选 300 条数据。
评估指标
我们使用了两个指标,第一种是常用的指标即模型的 acc 值,另一种指标为代价矩阵。其取值如下所示:
1(good) 2(bad)
1(good) 0 1
2(bad) 5 0
表示实际是good,预测为bad时代价+1,实际是bad,但是预测为good时代价+5。或者代价大的原因是,在银行反欺诈的过程中,或者是评估一个人信用是否有问题,将那些不诚实的人识别为诚实者所带来的损失要远高于把诚实者误识别为不诚实者带来的收入大。
平均精度
决策树(DT)
随机森林(RF)
支持向量机(SVM)
逻辑回归模型(LR)
多层感知机(MLP)
组合分类器(MC)
测试结果和结论暂不公开
其实根据前面的代码,稍微修改即可得到各种结果,具体怎么分析结果,也看个人理解了。

浙公网安备 33010602011771号