论文笔记 - DeepCore: A Comprehensive Library for Coreset Selection in Deep Learning

讲了 12 中 Coreset 的检索方法。

一、基于几何的方法

1. Herding

基于贪心原则,缩短 Coreset 与完整数据集在特征空间质心的距离。

2. K-Center Greedy

对于 Coreset $\mathcal{S}$,完整数据集 $\mathcal{T}$,没被选到的点 $\mathcal{T}\\ \mathcal{S}$

二、基于不确定性的方法

模型对该样本点推理困惑度越大,说明这个样本点可能越重要,有三个指标:

三、基于损失的方法

样本点对损失(或者梯度)的贡献越大,说明该样本可能越重要。

1. Forgetting Event

统计每个样本点在上一轮迭代被分对,而在这一轮迭代被分错的次数;那些很少被遗忘的样本点即使去掉了对模型的整体性能也造成不了太大的影响。

2. GRAND / EL2N Score

计算每个样本点在梯度下降中对梯度的影响,影响越大,说明越重要:

当采用交叉熵损失函数时,得到近似的 EL2N 分数:

3. Importance / Adaptive Sampling

敏感得分:

四、基于决策边界的方法

既然在分类任务中靠近决策边界的点更难以分对,那么越靠近决策边界的点越重要

1. Adversarial Deepfool

样本到决策边界的距离不可计算,于是对每个样本点基于扰动,稍微受到一点扰动就被分到别的类别的显然离决策边界更近。

2. Contrastive Active Learning

某些样本在模型特征空间中距离很近,但是模型推理的似然概率却差异很大,称为对比样本(样本距离很近,但分类的结果却不同,那么决策边界就在其中!作者认为这种样本很重要)。Active Learning by Acquiring Contrastive Examples

五、基于梯度匹配的方法

这个要和上面的基于损失 / 梯度贡献的方法分开。

增强的梯度下降方法(Incremental Gradient),在每次迭代中一般使用少量数据进行多次训练,以在多次训练后达到和在全部数据上训练相同的效果,也就是用多次训练模拟全部训练的梯度。因此提出梯度匹配的方法,如果我在 Coreset 上的梯度本身就和全部数据集训练的梯度一样,是不是就可以认为我在进行 BGD 了呢(当然节省了大量计算开销)。

1. CRIAIG Coresets for data-ecient training of machine learning models.

将梯度匹配的问题转化为单调次模函数的优化问题,可以使用贪心算法在常数时间复杂度内解决。

2. GRAND MATCH GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

与上面类似,考虑到了正则化的问题。

六、基于双层优化的方法

Coreset 的选择可以看作是一个双层优化的问题,首选选择一个在可接受大小范围的 S,在 S 上优化模型,使得模型优化后的性能最好;

包括两层:1)在子集 S 上优化模型(inner);2)优化后的模型的性能最好(outter)。

1. GLISTER-ONLINE GLISTER: Generalization based Data Subset Selection for Efficient and Robust Learning

将双层的优化问题用对数似然表示。

七、基于次模函数的方法

1. PRISM PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection

2. SIMILAR SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

八、基于代理模型的方法

SVP SELECTION VIA PROXY: EFFICIENT DATA SELECTION FOR DEEP LEARNING

 

posted @ 2022-11-07 00:28  MetaZ  阅读(1217)  评论(0)    收藏  举报