样本不平衡问题

参考资料

总结一下

从数据角度:

  • 获取更多的少量样本数据
  • 欠采样,从多数类别中删除样本
  • 过采样,为少数类别生成新样本
  • 欠采样和过采用相结合

从评价指标的角度:

  • 选择AUC作为评价指标时,采用PR曲线,而不是ROC曲线。因为在样本不均衡的时候,PR曲线更能准确反映模型的性能。(具体解释可参考这里

从算法的角度:

  • 集成学习(Ensemble集成算法)。首先从多数类中独立随机抽取出若干子集,将每个子集与少数类数据联合起来训练生成多个基分类器,再加权组成新的分类器,如加法模型、Adaboost、随机森林等。
  • 将任务转换成异常检测问题。把只有极少数样本点一些类别作为异常值进行检测。

从训练的角度:

  • 在损失函数上,对于不同样本数量的类别分别赋予不同的惩罚权重。对小样本量的类别惩罚权重高,大样本量的类别惩罚权重低。

 

 下面的截图来自上文的第一个链接。

 

posted @ 2022-09-20 17:45  Picassooo  阅读(176)  评论(0)    收藏  举报