随笔分类 -  算法

上一页 1 2

摘要:分类与回归两种类型的问题 adaptive(自适应) 损失函数:指数损失函数 AdaBoost:是多个分类器的组合,共同决定预测结果。而且适用数值型和标称型(类别)数据。 对于训练数据中的每个样本数据,赋予其一个权重,这些样本权重向量D,初始时权重都化为相等值。Di=1/样本中数据个数 在训练数据上 阅读全文

posted @ 2020-09-10 08:23 happygril3 阅读(185) 评论(0) 推荐(0)

摘要:(1)分类问题评估指标: 准确率 - Accuracy 精确率(差准率)- Precision 召回率(查全率)- Recall F1分数 KS曲线 ROC曲线 AUC曲线 (2)回归问题评估指标: MAE/MSE 准确率 Accuracy = (TP+TN)/(TP+TN+FP+FN) 精确率 P 阅读全文

posted @ 2020-09-09 11:27 happygril3 阅读(563) 评论(0) 推荐(0)

摘要:(1)业务中的模型中会遇到的问题 模型效果不好 训练集效果好,跨时间测试效果不好 跨时间测试效果也好,上线之后效果不好(一般是线上线下变量逻辑不一致) 上线之后效果还好,几周之后分数分布开始下滑(有部分变量跨时间测试不好) 一两个月内都比较稳定,突然分数分布骤降(模型因该没问题,关注外部环境) 没有 阅读全文

posted @ 2020-09-09 10:12 happygril3 阅读(503) 评论(0) 推荐(0)

摘要:偏差bias 偏差是指预测结果与真实值之间的差异,排除噪声的影响,偏差更多的是针对某个模型输出的样本误差 偏差是模型无法准确表达数据关系导致,模型拟合度不够导致,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是错的模型; 偏差不是随机产生的,可通过一定的特征工程进行预测; 方差v 阅读全文

posted @ 2020-09-09 09:42 happygril3 阅读(889) 评论(0) 推荐(0)

摘要:稳定度指标(population stability index ,PSI) PSI = sum((实际占比-预期占比)/ln(实际占比/预期占比)) 小于0.1 时候模型稳定性很高, 0.1-0.2 一般,需要进一步研究 大于0.2 模型稳定性差,建议修复。 PSI实际应用范例: 1)样本外测试 阅读全文

posted @ 2020-09-09 09:28 happygril3 阅读(1080) 评论(0) 推荐(0)

上一页 1 2

导航