MetaZ

摘要： analysis 通常的 data selection 算法的 bi-level 形式：写成对数似然的形式也是可以的：（我的评价是：也就少了一步求交叉熵的过程）如上图：双层优化是 NP-hard 的，因此在 inner-level 里面，我们可以考虑：在一个 coreset 中，不一次把模型优阅读全文

posted @ 2022-11-07 00:25 MetaZ 阅读(178) 评论(0) 推荐(0)

2022年11月6日

论文笔记 - SELECTION VIA PROXY: EFFICIENT DATA SELECTION FOR DEEP LEARNING

摘要： motivation 现存的 data selection 效率不高的主要原因是模型过大，获取数据表征进行数据选择效果并不高（例如大模型进行反向传播本身就比较耗时，想要靠梯度进行数据选择效率是很低的，虽然有了用随最后一个隐藏层的梯度代替整体的梯度的，但是最后一个隐藏层的梯度的代表性尚不可知）；因此阅读全文

posted @ 2022-11-06 23:45 MetaZ 阅读(215) 评论(0) 推荐(0)

论文笔记 - Coresets for Data-efficient Training of Machine Learning Models

摘要： Motivation 训练深度网络存在的问题：需要大量训练数据，进而需要更强的计算资源等。因此如何在减少这些开销（例如使用更小的数据集）的同时，不影响模型的性能成为了一个至关重要的问题；挑选 coreset 的四大挑战：选取 sample 的规则尚不明确；检索的速度要快，否则就失去了加速训练的阅读全文

posted @ 2022-11-06 23:25 MetaZ 阅读(471) 评论(0) 推荐(0)

论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

摘要： Analysis Coreset 是带有权重的数据子集，目的是在某个方面模拟完整数据的表现（例如损失函数的梯度，既可以是在训练数据上的损失，也可以是在验证数据上的损失）；给出优化目标的定义：

w^{t}

是 t 轮得到的 coreset 权重，

X_{t}

是 t 轮得到的 coreset，

L

阅读全文

posted @ 2022-11-06 22:57 MetaZ 阅读(360) 评论(0) 推荐(0)

论文笔记 - PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection

摘要： Motivation 与 Active Learning 类似，Target Learning 致力于挑选外卖更“感兴趣”的数据，即人为为更重要的数据添加 bias。例如我们当前的任务目标是增强自动驾驶算法的夜间行驶性能，我们就不能单纯从未标注数据集中抽取多样性大的数据，而是要满足黑夜条件的数据。阅读全文

posted @ 2022-11-06 22:19 MetaZ 阅读(105) 评论(0) 推荐(0)

摘要： motivation Active Learning 存在的重要问题：现实数据极度不平衡，有许多类别很少见（rare），又有很多类别是冗余的（redundancy），又有些数据是 OOD 的（out-of-distribution）。 1. 不同的次模函数提出三种次模函数的变体：次模条件增长（S 阅读全文

posted @ 2022-11-06 21:23 MetaZ 阅读(215) 评论(0) 推荐(0)

公告

搜索

常用链接

随笔分类

随笔档案

相册

阅读排行榜

推荐排行榜