使用分类权重解决数据不平衡的问题

在分类任务中，不平衡数据集是指数据集中的分类不平均的情况，会有一个或多个类比其他类多的多或者少的多。

在我们的日常生活中，不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子，信用卡欺诈检测来介绍，在我们的日常使用中欺诈的数量要远比正常使用的数量少很多，对于我们来说这就是数据不平衡的问题。

我们使用kaggle上的信用卡交易数据集作为本文的数据集。数据的细节不是特别重要。因为为了进行脱敏，这个数据集的特征是经过PCA降维后输出的，所以讨论这些特征代表什么没有任何意义。除了PCA输出的特征以外，这个数据集还包括与每笔交易相关的美元金额、以秒为单位的连续时间索引，以及一个表示存在或不存在欺诈的二进制目标。对于时间索引，我们考虑到某些特征工程，它可能会很有用，但这不是本文的重点。对于我们真实可见的数据只有金额一项，这个很重要!

我们再看看目标，在284,807行数据中只有0.173%的行是欺诈案例，这绝对是不平衡数据的样例，这种数据的分布会使建模和预测欺诈行为变得有非常的棘手。

完整文章：

https://avoid.overfit.cn/post/13e8cb84f1e1480eb62d9f029647ed3a

posted @ 2022-08-01 10:42 deephub 阅读(112) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

使用分类权重解决数据不平衡的问题

公告