随笔分类 -  ML & NLP

摘要:讲了 12 中 Coreset 的检索方法。 一、基于几何的方法 1. Herding 基于贪心原则,缩短 Coreset 与完整数据集在特征空间质心的距离。 2. K-Center Greedy 对于 Coreset $\mathcal{S}$,完整数据集 $\mathcal{T}$,没被选到的点 阅读全文
posted @ 2022-11-07 00:28 MetaZ 阅读(1273) 评论(0) 推荐(0)
摘要:analysis 通常的 data selection 算法的 bi-level 形式: 写成对数似然的形式也是可以的: (我的评价是:也就少了一步求交叉熵的过程) 如上图:双层优化是 NP-hard 的,因此在 inner-level 里面,我们可以考虑:在一个 coreset 中,不一次把模型优 阅读全文
posted @ 2022-11-07 00:25 MetaZ 阅读(213) 评论(0) 推荐(0)
摘要:motivation 现存的 data selection 效率不高的主要原因是模型过大,获取数据表征进行数据选择效果并不高(例如大模型进行反向传播本身就比较耗时,想要靠梯度进行数据选择效率是很低的,虽然有了用随最后一个隐藏层的梯度代替整体的梯度的,但是最后一个隐藏层的梯度的代表性尚不可知); 因此 阅读全文
posted @ 2022-11-06 23:45 MetaZ 阅读(241) 评论(0) 推荐(0)
摘要:Motivation 训练深度网络存在的问题:需要大量训练数据,进而需要更强的计算资源等。因此如何在减少这些开销(例如使用更小的数据集)的同时,不影响模型的性能成为了一个至关重要的问题; 挑选 coreset 的四大挑战: 选取 sample 的规则尚不明确; 检索的速度要快,否则就失去了加速训练的 阅读全文
posted @ 2022-11-06 23:25 MetaZ 阅读(522) 评论(0) 推荐(0)
摘要:Analysis Coreset 是带有权重的数据子集,目的是在某个方面模拟完整数据的表现(例如损失函数的梯度,既可以是在训练数据上的损失,也可以是在验证数据上的损失); 给出优化目标的定义: $w^t$ 是 t 轮得到的 coreset 权重,$X_t$ 是 t 轮得到的 coreset,$L$ 阅读全文
posted @ 2022-11-06 22:57 MetaZ 阅读(419) 评论(0) 推荐(0)
摘要:Motivation 与 Active Learning 类似,Target Learning 致力于 挑选外卖更“感兴趣”的数据,即人为为更重要的数据添加 bias。例如我们当前的任务目标是增强自动驾驶算法的夜间行驶性能,我们就不能单纯从未标注数据集中抽取多样性大的数据,而是要满足黑夜条件的数据。 阅读全文
posted @ 2022-11-06 22:19 MetaZ 阅读(142) 评论(0) 推荐(0)
摘要:motivation Active Learning 存在的重要问题:现实数据极度不平衡,有许多类别很少见(rare),又有很多类别是冗余的(redundancy),又有些数据是 OOD 的(out-of-distribution)。 1. 不同的次模函数 提出三种次模函数的变体: 次模条件增长(S 阅读全文
posted @ 2022-11-06 21:23 MetaZ 阅读(324) 评论(0) 推荐(0)
摘要:Motivation 虽然半监督学习减少了大量数据标注的成本,但是对计算资源的要求依然很高(无论是在训练中还是超参搜索过程中),因此提出想法:由于计算量主要集中在大量未标注的数据上,能否从未标注的数据中检索出重要的数据(Coreset)呢? Analysis 当前用来半监督学习的方案: 自洽正则化( 阅读全文
posted @ 2022-11-02 22:06 MetaZ 阅读(381) 评论(0) 推荐(0)
摘要:Motivation 最常用来在 Active Learning 中作为样本检索的两个指标分别是: 基于不确定性(给模型上难度); 基于多样性(扩大模型的推理空间)。 指标一可能会导致总是选到不提供有效信息的重复数据(例如模棱两可的、毫无价值的样本);而指标二会导致选择到的样本虽然具有多样性,但是太 阅读全文
posted @ 2022-10-31 19:18 MetaZ 阅读(215) 评论(0) 推荐(0)
摘要:这位更是重量级。这篇论文对于概率论学的一塌糊涂的我简直是灾难。 由于 prompt 的分布与预训练的分布不匹配(预训练的语料是自然语言,而 prompt 是由人为挑选的几个样本拼接而成,是不自然的自然语言🤪),作者设预训练的分布为 $p$ 而 prompt 的分布设为 $p_{prompt}$,因 阅读全文
posted @ 2022-10-19 20:52 MetaZ 阅读(318) 评论(0) 推荐(0)
摘要:Direct && Noise Channel 进一步把语言模型推理的模式分为了: 直推模式(Direct); 噪声通道模式(Noise channel)。 直观来看: Direct 模式 Noise Channel 模式 也就是说把数据和标签调换了位置。 公式推导 Direct: $$y_{tes 阅读全文
posted @ 2022-10-18 21:15 MetaZ 阅读(384) 评论(0) 推荐(0)
摘要:Motivation Facebook 的 MetaICL,牛逼就对了; 对 LM 针对 ICL 进行微调(而不是特定的任务); 去除了自然语言的 Template,使用更直接的方式,排除了 Template 设计对 output distribution 造成的影响,让模型自己推测要进行的任务(所 阅读全文
posted @ 2022-10-17 20:51 MetaZ 阅读(152) 评论(0) 推荐(0)
摘要:prompt 的影响因素 Motivation Prompt 中 Example 的排列顺序对模型性能有较大影响(即使已经校准参见好的情况下,选取不同的排列顺序依然会有很大的方差): 校准可以大幅度提高准确率,但是不同的排列顺序方差依然很大 Analysis 提出探测集(probing set),流 阅读全文
posted @ 2022-10-17 18:54 MetaZ 阅读(331) 评论(0) 推荐(0)
摘要:Motivation 无需参数更新的 In-Context Learning 允许使用者在无参数的更新的情况下完成新的下游任务,交互界面是纯粹的自然语言,无 NLP 技术基础的用户也可以创建 NLP 系统; ICL 存在的主要问题是模性能的不稳定性(与 Prompt 的设计强相关),也就是高方差。主 阅读全文
posted @ 2022-10-17 13:59 MetaZ 阅读(369) 评论(0) 推荐(0)
摘要:in-domine 为域内数据,即为训练模型时使用的数据; out-domine 为域外数据,即为检验模型时使用的数据。 阅读全文
posted @ 2022-08-25 00:46 MetaZ 阅读(90) 评论(0) 推荐(0)