不平衡数据集之SMOTE法

Synthetic Minority Oversampling TEnichque

TL;DR:通过数据增强minority class来使得模型能够学习到minority的特征分布。

主要思想:模型学不到minority是因为没有见到足够的minority样本,因此不确定哪个特征空间才是minority,所以会有很多的False negative,即recall很低。简单对minority做oversampling,或者对majority做undersampling,不能丰富特征空间,相反只会导致overfitting。于是文章借鉴了CV领域的hand writing数据增强思路,去丰富minority的特征空间。主要思想,就是通过取minority的nearest neigbour,然后在连线上取随机的interpolation,来填充特征空间。

 

 

优点:

1. 跟CV的旋转放大缩小不同,对于tabular数据不应该简单的对local数据点做特征的pertubation,因为一是不知道该pertub多大,二是这无助于模拟到整个minority的特征空间。本文是尊重了local的特征空间,然后做pertubation。

2. 本方法比较general,因为即使深度学习能够拐着弯创造出一个curvely的decision boundary,最终也只是overfitting,无助于解决问题。

 

缺点:

1. 是启发式的方法,没有严格遵循feature的distribution。

2. 没有给出calibration的方法。

3. 不能直接用在regression上,因为增强后不知道y应该放多少,特别是对于长尾/zero-inflated的数据。y需要放一个大于0的值,这时候需要用ZILN loss

 

[1] Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research 16 (2002): 321-357.

 

posted @ 2023-12-19 11:00  欧阳维斯诺夫斯基  阅读(74)  评论(0)    收藏  举报