摘要:
motivation 现存的 data selection 效率不高的主要原因是模型过大,获取数据表征进行数据选择效果并不高(例如大模型进行反向传播本身就比较耗时,想要靠梯度进行数据选择效率是很低的,虽然有了用随最后一个隐藏层的梯度代替整体的梯度的,但是最后一个隐藏层的梯度的代表性尚不可知); 因此 阅读全文
posted @ 2022-11-06 23:45
MetaZ
阅读(230)
评论(0)
推荐(0)
摘要:
Motivation 训练深度网络存在的问题:需要大量训练数据,进而需要更强的计算资源等。因此如何在减少这些开销(例如使用更小的数据集)的同时,不影响模型的性能成为了一个至关重要的问题; 挑选 coreset 的四大挑战: 选取 sample 的规则尚不明确; 检索的速度要快,否则就失去了加速训练的 阅读全文
posted @ 2022-11-06 23:25
MetaZ
阅读(500)
评论(0)
推荐(0)
摘要:
Analysis Coreset 是带有权重的数据子集,目的是在某个方面模拟完整数据的表现(例如损失函数的梯度,既可以是在训练数据上的损失,也可以是在验证数据上的损失); 给出优化目标的定义: $w^t$ 是 t 轮得到的 coreset 权重,$X_t$ 是 t 轮得到的 coreset,$L$ 阅读全文
posted @ 2022-11-06 22:57
MetaZ
阅读(393)
评论(0)
推荐(0)
摘要:
Motivation 与 Active Learning 类似,Target Learning 致力于 挑选外卖更“感兴趣”的数据,即人为为更重要的数据添加 bias。例如我们当前的任务目标是增强自动驾驶算法的夜间行驶性能,我们就不能单纯从未标注数据集中抽取多样性大的数据,而是要满足黑夜条件的数据。 阅读全文
posted @ 2022-11-06 22:19
MetaZ
阅读(119)
评论(0)
推荐(0)
摘要:
motivation Active Learning 存在的重要问题:现实数据极度不平衡,有许多类别很少见(rare),又有很多类别是冗余的(redundancy),又有些数据是 OOD 的(out-of-distribution)。 1. 不同的次模函数 提出三种次模函数的变体: 次模条件增长(S 阅读全文
posted @ 2022-11-06 21:23
MetaZ
阅读(237)
评论(0)
推荐(0)

浙公网安备 33010602011771号