Paper Reading: Pre-processing approaches for imbalanced distributions in regression


Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Pre-processing approaches for imbalanced distributions in regression》
作者 Paula Brancoa, Luis Torgoa, Rita P. Ribeiroa
发表期刊 Neurocomputing
发表年份 2019
期刊等级 中科院 SCI 期刊分区(2023年12月最新升级版)2 区,CCF-C
论文代码 https://github.com/paobranco/Pre-processingApproachesImbalanceRegression

作者单位:

  • INESC TEC/DCC – Faculty of Sciences, University of Porto, Portugal
  • Faculty of Computer Science, Dalhousie University, Canada

研究动机

针对不平衡学习问题提出的大多数方案都是针对分类任务的,但是在很多回归任务中也存在不平衡的情况。已有研究表明,传统的回归性能评估指标不适合不平衡领域,经典的学习算法无法关注最相关的样本导致了算法性能不佳。预处理方法是处理不平衡域的一种方案,而且可以不同的模型协同工作。

文章贡献

针对回归任务中分布不平衡的问题,本文提出了几种新的预处理解决方案,包括随机过采样、引入高斯噪声、基于加权相关度的组合策略 WERCS。通过实验表明使用所提出的策略,特别是 WERCS 方法能提高学习器在不平衡回归问题上的性能。

本文方法

本文提出了三种预处理方法来处理不平衡回归数据,包括适应回归任务的两种分类方法:随机过采样(RO)和引入高斯噪声(GN),以及一种名为加权相关性组合策略(WERCS)的方法。为了使 RO 和 GN 适应回归,本文采用了基于相关度函数 φ() 和相关阈值 tR 的概念来构建数据分区,根据用户定义的 tR,每个数据分区仅包含目标变量具有高或低相关性的连续值的样本。
如下图所示的伪代码展示了这个过程,主要思想是建立一组包含常见样本的箱 BinsN,另一组包含高相关度样本的箱 BinsR。为此需要按目标变量值的升序对数据集进行排序,接着从较低的 Y 值开始扫描数据,当目标变量值 φ(Y) 的相关性从低于 tR 变为高于 tR 时就创建一个新的 bin。通过这种方式,就可以用连续的目标变量构建箱,其中高相关性的箱适合使用过采样,低相关性的箱子适合应用欠采样。

例如在下图所示的合成数据集中,用虚线标注的相关性函数产生两个常见分区和三个罕见分区,得到 2 个 BinsN 和 3 个 BinsR 中的三个不同的箱子。

为该合成数据集创建的箱如下图所示,这种方法是一种将连续目标变量离散化的形式,而不是一种将回归任务转换为分类问题的方法。大部分现有的研究中提出的方案都依赖于基于相关函数和相关阈值的域离散化,本文提出的 WERCS 方法可以避免这种离散化步骤。

随机过采样

第一种方法是将随机过采样(RO)策略应用于不平衡回归,实现方式是 BinsN 中的样本保持不变,对 BinsR 中每个 bin 中的样本进行过采样。BinsR 中每个 bin 中引入的合成数量由用户定义的百分比决定,该方法的过程如下图伪代码所示。过采样的优点是不会丢弃任何信息,但是会增加数据集的规模并增加过拟合的可能性。

本文进行实验时包含了两种自动确定过采样比的选项,balance 选项将自动确定每个 bin 中包含的样本数量来令数据集大致平衡,extreme 选项试图将目标变量中较少表示的范围转换为最多表示的范围,反之亦然。例如有两个高相关度的箱分别有 5 个和 10 个样本,两个常见样本的箱分别有 40 个和 45 个样本。balance 选项将高相关的 bin 频率按照如下公式更改为 43,也就是每个 bin 的原始频率 40、45、5、10 将分别改为 40、45、43、43。

extreme 选项则是使用如下公式,将包含 5、10 个样本的箱分别更改为 361(42.52/5)、181(42.52/10) 个示例。

下图展示了随机过采样的不同参数设置对 DS9 数据集的目标变量密度分布的影响。

引入高斯噪声

第二个种方法称之为引入高斯噪声(Introduction of Gaussian Noise, GN),首先对正态和不太重要的样本进行欠采样,接着生成具有高相关目标变量值的合成样本,主要通过加入正态分布的噪声来实现。该方法的流程如下伪代码所示,首先确定在具有罕见样本的 bin 中生成的合成样本数量,对于数值特征则添加一个基于 N(0, δ×sd(a)) 的扰动,其中 δ 是控制扰动幅度的超参数,sd(a) 是使用所考虑的 bin 中的特征 a 的标准差。对于标签属性将从特征的现有值中抽样,其概率与 bin 中特征值的频率成正比。

GN 方法也有 balance 和 extreme 选项,但此时将令数据集大小大致保持不变。例如有两个高相关度的箱分别有 5 个和 10 个样本,两个常见样本的箱分别有 40 个和 45 个样本。balance 选项将所有箱频率更改为 25,extreme 选项将箱的频率分别从 5、10、40、45 更改为 58、29、7、6。extreme 选项首先对于每个箱使用如下公式进行计算,然后重新缩放获得的频率,通过乘以原始数据集大小并除以先前获得的频率之和实现。也就是说第一步中计算得到 125、63、16、14 作为具有 5、10、40、45 个样本的箱的频率,然后将这些频率乘以 100/218。

下图展示了 GN 算法不同参数对 DS9 数据集的目标变量密度分布的影响。

基于加权相关度的组合策略

本文第三种方法为加权相关度组合策略 WERCS,该方法只使用相关函数的信息,不需要定义箱和阈值。一个样本被选择进行过采样或欠采样的概率取决于其相关性,按照权重 w(<xi, yi>)=φ(yi) 选取一定比例的样本进行复制,并根据补充权重 w(<xi, yi>)=φ(yi) 随机选择一定比例的样本进行删除。这种方式意味着更重要的样本有更高的可能性被复制,而低相关性的样本有更高的可能性被删除。WERCS 方法的流程如下图伪代码所示,对于用户而言操作得到了简化,只需提供两个百分比来设置欠采样和过采样的比例即可。

下图展示了 WERCS 算法在不同参数下对 DS9 数据集目标变量密度分布的影响。

实验结果

数据集和实验设置

实验使用 15 个回归数据集,这些数据集的基本信息如下表所示。表中包括了相关性阈值为 0.8 时每个数据集中罕见样本的总数和百分比,使用对高低罕见极值赋予较高相关性的相关函数。

用于对比的不平衡回归方法包括随机欠采样和 SmoteR,使用 5 种基学习器:线性回归(LM)、神经网络(NNET)、多元自适应样条回归(MARS)、支持向量回归机(SVR)和随机森林(RF),这些算法和相应的参数设置下表所示。

对比以下几种预处理方法进行了比较:使用原始的不平衡数据集(None)、随机欠采样(RU)的 2 种变体、SmoteRmethod(SMT) 的 2 种变体、随机过采样(RO)的 2 种变体、引入高斯噪声(GN)的 6 种变体、WERCS算法的4种变体(WERCS)。这些方法和对应的参数设置如下表所示。

综上所述,31 种基学习器(1 种 LM + 8 种 NNET 变体 + 4 种 MARS 变体 + 12种 SVR 变体 + 6 种 RF 变体)都使用 17 种不同的预处理设置,在 15 个回归数据集上进行实验,共有 7905 个(31×15×17)个组合。评价指标使用 F1 和 G−Mean,通过 2 × 10 折交叉验证方法得出。

对比实验

F1 的均值和标准差结果下表所示,每个数据集的最优性能使用加粗黑体标注。可以看出本文提出的预处理方法在大多数情况下都取得了较好的性能,随机森林(RF)与 RO、GN 或 WERCS 的组合在 15 个数据集中的 9 个中提供了最佳性能。

下表展示了在 F1 的结果上每对采样策略学习器组合获得最佳 F1 结果的数据集总数,这些结果证实了所提出的策略在性能方面具有优势,其中 WERCS 的优势最为明显。

下表显示了在训练集不变和显著性阈值为 95% 的情况下,每种预处理策略的赢/输和显著赢/输的总数。从该表中观察到与使用未预处理的数据集相比,WERCS 算法具有明显的优势。

下图显示了在几个学习器上通过采样策略处理后的总输赢数,其中 WERCS 表现出压倒性的优势。从 F1 的结果中可见所有的预处理策略都提高了基学习器的性能,与测试方法策略相比,WERCS 在获得了更多具有统计意义的优势。

以下两张表分别给出了 pre 和 recall 的均值的汇总结果,可见与使用原始数据集相比,使用预处理策略后获得的 pre 性能有所下降,recall 结果有一定的提高,说明在 F1 分数上的提升是通过 pre 结果的损失和 reccall 结果的增益来实现的。


以下两张表分别给出了 G−Mean 和 spec 的均值的汇总结果,可见 spec 的结果比使用原始数据集的结果差,这是因为 spec 只关注最不重要的样本的性能。G−Mean 的结果表明在最不重要的情况下,性能的损失被更相关的样本下的收益所补偿。

不同数据集特点对性能的影响

该部分实验从不同数据集的罕见样本的百分比、数据集的大小和罕见样本的数量进行分析。以下几张图显示了根据给定特征对数据集进行排序时,通过学习器和采样策略得到的最佳 F1 结果。下图用减少罕见样本百分比对数据集进行排序,观察到的结果并没有显示出任何被测试的学习器的明显趋势,说明罕见样本百分比可能不是决定哪些是最困难的不平衡回归问题的重要特征。

以下分别是按数据集大小和罕见样本数排序的图,这两张图显示出更明显的趋势,其中采样策略对较小的数据集和具有较少罕见情况的数据集的性能有更大的积极影响。

改变相关阈值对性能的影响

本实验评估设置不同的相关阈值对不同预处理策略获得的预测性能的影响,选择的数据集为 DS3 和 DS8,将区间 [0.5,1] 内步长为 0.025 的所有值都设置为阈值,对应的罕见样本的百分比和数量如下表所示。

如下两张图分别展示了数据集 DS3 和 DS8 上的相关阈值变化时,基学习器的 rank 变化情况,rank 值越低表示性能越好。可见在大多数情况下,与使用原始训练数据相比,预处理策略表现出更好的性能。

NO2 排放量预测数据集

此处对一个真实数据集进行实验,将总共 500 个样本中随机选择 20 个样本作为测试集,剩下的样本作为训练集。基学习器为默认参数设置的 SVR,分别不采样、随机欠采样、SmoteR 三种预处理方式对数据集进行处理,得到的预测结果如下图所示。可见随机欠采样和 SmoteR 都无法检测到两个高 LNO2 值,范式在这些罕见而重要的情况下性能总体得到了改善。

下图为原始训练集和本文提出的随机过采样、引入高斯噪声、WERCS 预处理训练集后得到的结果,此时模型能够检测到两个高极值样本中的一个。

posted @ 2024-03-07 14:23  乌漆WhiteMoon  阅读(9)  评论(0编辑  收藏  举报