Paper Reading: A Novel Model for Imbalanced Data Classification


Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《A Novel Model for Imbalanced Data Classification》
作者 Jian Yin, Chunjing Gan, Kaiqi Zhao, Xuan Lin, Zhe Quan, Zhi-Jie Wang
发表会议 AAAI Conference on Artificial Intelligence(AAAI)
发表年份 2020
会议等级 CCF-A
论文代码 未公开

作者单位:
School of Data and Computer Science, Sun Yat-Sen University, Guangzhou, China
School of Computer Science, University of Auckland, Auckland, New Zealand
College of Information Science and Engineering, Hunan University, Changsha, China
Guangdong Key Laboratory of Big Data Analysis and Processing, Guangzhou, China
National Engineering Laboratory for Big Data Analysis and Applications, Beijing, China

研究动机

不平衡的二分类数据集的特点是大多数数据样本属于一类,而其余的数据样本属于另一类。拥有最多样本的类别被称为多数类别,而少数类别通常具有显著价值。有研究表明传统的机器学习方法可能无法解决不平衡的数据分类问题,现有的方法一般可分为采样、成本敏感学习、集成学习 3 类,这些方法都存在一定的缺点:

  1. 欠采样方法从多数类中移除样本是可能丢失重要的样本;
  2. 代价敏感的学习方法很难获得少数类和多数类的误分类代价参数;
  3. 集成学习方法可能会由于“不稳定样本”的存在而导致结果偏差。

文章贡献

对于不平衡的二分类问题,大多数现有的方法只关注采样、成本敏感学习、集成学习中的其中一种。本文提出了 DDAE 模型来解决不平衡二分类问题的限制,它集成了采样、数据空间构建、代价敏感学习和集成学习的方法。具体来说,DDAE 由四个主要部分组成:数据块构建、数据空间改进、自适应权值调整、集成学习。本文基于 14 个公共数据集进行了实验,结果表明 DDAE 模型在 Recall、G-mean、F-measure 和 AUC 方面都优于目前的方法。

本文方法

本文的 DDAE 的模型结构包含以下四个主要组件:

组件 功能
数据块构建(DBC) 将输入数据划分为平衡的数据块
数据空间改进(DSI) 使 k 个最近邻属于同一类,将不同类的数据样本进行分离
自适应权重调整(AWA) 调整不同类别样本的权重
集成学习(EL) 通过加权投票组合多个基本分类器

数据块构造(DBC)

由于欠采样和过采样分别有信息丢失和过拟合的问题,因此本文将数据分成多个数据块,使每个数据块均衡。具体来说是将多数样本划分为几个子集,每个子集的大小与少数样本集大致相同。然后用过采样来复制少数样本,然后与多数样本的每个子集结合起来。

数据空间改进(DSI)

本文使用大边界最近邻(LMNN)算法改善数据空间,LMNN 的原理是学习一个变换矩阵 L 和一个损失函数 φ(L),将不同类别的数据样本推离目标样本,将具有相同类别标签的数据样本拉近目标样本。损失函数为:ϕ(L) = (1−λ)ϕpull(L) + λϕpush(L),λ 是表示拉和推的权重的实数。第一个 ϕpull(L) 用于惩罚数据样本与其具有相同类别标签的 k 个最近邻居之间的大距离,第二项 ϕpush(L) 惩罚数据样本与其他具有不同类别标签的数据样本之间的小距离。两个 ϕpull(L) 的具体定义和参数含义,可以参见原文的详细说明。

自适应体重调整(AWA)

对于每个数据样本 s 的 k 个近邻,如果这些近邻中的正样本和负样本的数量大致相同,则 s 的标签可能是不明确的。正、负邻居数目的绝对差称为正负计数差(PNCD),如果 PNCD 大于阈值 τ,就称 s 为稳定样本,否则称之为不稳定样品。大多数集成学习方法对所有分类器赋予相同的权重,通过多数投票获得最终结果,这样的结果容易被一定量的不稳定样本干扰。
为了解决这一问题,本文提出了一种自适应权重调整机制。首先不稳定混淆矩阵如下表所示,AWA 的思想是调整正输出和负输出的权重,并最大化不稳定混淆矩阵的总体增益。

在初始阶段将权值初始化为 Wd=1,即正负权重对位 (1,1),然后尝试调整正/负输出的权重来提高总收益。总收益、正收益和负收益定义为如下公式:

然后根据最大增益调整权重,用 Wn 表示新权重。如果最大增益是 gainmat 则设置新的权重 Wn=Wd,否则选择 max{gainpos,gainneg} 并将其相应的权重更新为 Wn=Wt+Δ。例如此时 gainpos 是最大值就讲权重对更新为 (Wd,Wn),反之亦然。其中 Δ 是一个小的正实数,Wt 是权重阈值,具体的公式定义为:

最后从所有数据块中得到的权值对,根据不同权值对的频率得到总体权值对。如果非默认权重对的数量与所有权重对的数量之间的比率小于阈值 γ(实验中设置为 0.2),则设置 Wo=(Wd,Wd)。否则进一步确定“负”非默认权对 (Wn,Wd) 的数量和“正”非默认权对 (Wd,Wn) 的数量,如果前者大于后者则设 Wo=(Wn, Wd),反之设置为 (Wd, Wn)。
请注意,当这两个数字相等时,我们设置Wo = (Wd, Wn),因为少数(即正)样本的成本大于多数(即负)样本的成本。

集成学习

集成学习通常使用多个分类器和投票来获得最终的预测结果,对于二分类问题假设有 m 个分类器 {f0,f1,…,fm−1} 和 2 个类 {c0,c1}。投票可用如下公式表示:

本文呢使用在 AWA 分量中获得的权重 Wo 来增强最终结果。具体而言,本文的投票如下公式所示:

实验结果

数据集和实验设置

本文使用了 14 个数据集,它们的细节如下表所示。将数据集按照 7:3 的比例随机分为训练集和测试集,并以少数类为正类,多数类为负类。

本文与 4 个 baseline 方法进行比较,分别是 IML、RP、CAdaMEC、MWMOTE。评价指标方面选择了 4 种,分别是 Recall、G-mean、Fβ-measure、AUC。参数设置。由于 IML 和 MWMOTE 都使用 kNN 分类器,此处将采用有最佳性能的 k 值。其他参数与这些方法的原文参数相同,对于本文的模型将 λ 在 [0.1, 1] 中进行调整。

实验结果

各个算法的实验结果如下表所示,课件本文的 DDAE 在 14 个数据集中的大多数上都是最优的。

为了展示 DDAE 在检测阳性样本方面的能力,下表中列出了所有方法的召回率,相比之下 DDAE 在所有情况下都表现最好。

参数的影响

4 个主要参数的调整结果如下图所示。

  1. 损失函数 φ(L) 中的参数 λ 用于确定拉和推之间的相对权重,如果两个类的样本在原始特征空间中高度重叠,则需要将 λ 调大使两个类推离。当许多少数样本不落在多数类别占主导地位的区域时,应该减小 λ 以使来自同一类别的样本更接近。
  2. 参数 γ 为阈值项,用来决定我们是否采用 AWA 组件,在实验中从 0.1 到 1 来调整 γ。当 γ>0.3 时模型的性能趋于稳定,γ=0.2 时的性能最好。
  3. 成本比率描述了两个类别之间成本的重要性,实验表明本文的加权方案在不需要先验信息的情况下提高了权重选择的灵活性。
  4. 数据块用于调整不均衡的数据分布,随着区块数量的增长,这四个指标的趋势相同。当块数接近不平衡比时,模型获得了良好的性能。在块数量较少的情况下,每个块中的样本仍然是不平衡的,从而导致显著的性能下降。

消融实验

模型通过删除 DBC、DSI、AWA 进行消融实验,下图展示了在 cm1 和 mw1 数据集上的实验结果。无论 G-mean、F-measure 还是 AUC,删除各个组件后的表现都明显不如完整版本。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:
1、本文的 DDAE 模型并没有局限于某种解决不平衡问题的方法,而是将多种方法综合应用;
2、通过数据块的划分和数据空间改进,合理地对数据进行了采样;
3、在集成学习方面,设计了自适应权重调整来确定每个集成部分的权重。

posted @ 2023-07-02 23:41  乌漆WhiteMoon  阅读(113)  评论(0编辑  收藏  举报