论文速读记录 | 2025.12(1)
目录
- Offline Multitask Representation Learning for Reinforcement Learning
- 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
- Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- Lipschitz-constrained Unsupervised Skill Discovery (LSD)
- Controllability-Aware Unsupervised Skill Discovery (CSD)
Offline Multitask Representation Learning for Reinforcement Learning
- arxiv:https://arxiv.org/abs/2403.11574
- 来源:NeurIPS 2024。是纯理论文章,没有代码。
- 主要内容:对于低秩 MDP(transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\))中的 offline meta RL,利用给定的 N 个具有相同的 的 task 的 offline 数据集,去学习一个统一的 \(\phi\),然后对于一个给定的新 task(比如只有 transition 没有 reward 或者其他情况),进行适应。
- 纯理论工作,看不太懂,(看起来跟目前工作也没什么关系)。
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- arxiv:https://arxiv.org/abs/2503.14858
- 来源:NeurIPS 2025 best paper,Benjamin Eysenbach 组的工作。
- 之前读过:论文速读记录 | 2025.06
- 这篇文章主要在讲 RL scaling law 故事。
- kimi 的一句话概括:在自监督的 goal-conditioned RL 中,把网络从常见的 4 层暴增到 64-1024 层,配合残差连接等技术,能让性能提升 2-50 倍,并自动学会新颖的复杂行为(比如人形机器人爬行 → 直立行走 → 翻越墙壁)。
Benjamin Eysenbach 的自监督 GCRL:
- 学习一个 goal-conditioned policy \(\pi(a|s,g)\),输入当前状态 s 和目标 g(通常是未来状态),输出动作 a。
- 使用 Contrastive RL,把 RL 转成对比学习问题。
- Critic 去学习一个度量:如果状态-动作 (s,a) 能到达目标 g,那它们的 embedding 距离 \(f(s,a,g) = \|\phi(s,a) - \psi(g)\|^2\) 应该很近,否则很远。基于这个思想,用 InfoNCE loss 训练:从同一条轨迹采样正样本 \((s_i,a_i,g_i)\),从不同轨迹采样负样本 \(g_j\),loss = \(-\log[ \exp(f(s_i,a_i,g_i)) / \sum_j \exp(f(s_i,a_i,g_j)) ]\)。
- Actor \(\pi_\theta(a|s,g)\) 直接最大化 critic 的输出 \(f(s,a,g)\),即去选一个让 \(\phi(s,a)\) 和 \(\psi(g)\) 的 embedding 距离更小的 action。
- 相关工作:Benjamin Eysenbach 的 Contrastive RL(速读),感觉思路非常像的 Quasimetric RL(速读),以及相关的 temporal distance 工作(ETD)。仍在思考中…
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
- arxiv:https://arxiv.org/abs/2510.22954
- GitHub:https://github.com/liweijiang/artificial-hivemind
- 来源:NeurIPS 2025 best paper。
主要内容(kimi 速读):
- gap:大语言模型(LLM)在开放式任务(如创意写作、头脑风暴)中存在严重的同质化现象:不仅单个模型多次采样生成高度相似的内容(intra-model repetition),不同模型家族之间也惊人地趋同(inter-model homogeneity),甚至产生逐字重叠。这导致用户接触不到多样化观点,长期可能侵蚀人类创造力。
- method:
- 构建了数据集 INFINITY-CHAT,从 WildChat 挖掘 26,070 个真实开放式查询,首次建立 6 大类 17 子类的开放式任务分类体系,覆盖创意生成、道德困境、技能开发等真实场景。
- 同时,引入密集人类标注:31,250 个标注(25 人 / 样本),同时收集绝对评分( 1-5 分)和两两偏好,通过 Shannon 熵量化个体差异。
- 双维度诊断:同时测量模型内重复(50 次采样)和跨模型相似(25 个模型),用句子嵌入的余弦相似度 量化同质化。细粒度对齐分析:将人类标注按相似质量和高分歧分组,检验模型评估器在不同场景下的校准能力(这句没听懂)。
- 关键结论:
- 同质化现象惊人。模型内重复:即使高温采样,79%的查询回答相似度 >0.8(随机基线仅 0.1-0.2)。跨模型同质化:不同模型回答相似度平均0.75+,DeepSeek-V3与GPT-4达0.81,Qwen和GPT模型家族间相似度尤其高
- 现有 LLM 在开放式任务中存在系统性同质化倾向,这不是采样参数能解决的。奖励模型和评估器缺乏对"偏好多样性"的理解能力,导致对齐训练可能反而压制了创造性。
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
- arxiv:https://arxiv.org/abs/2505.06708
- GitHub:https://github.com/qiuzh20/gated_attention
- HuggingFace:https://huggingface.co/QwQZh/gated_attention
- 来源:NeurIPS 2025 best paper。
主要内容(kimi 速读):
- kimi 的一句话总结:作者们在标准注意力机制的输出后面加了个简单的 sigmoid 门控,发现这能让 15B 的 MoE 模型和 1.7B 的稠密模型在 3.5T token 数据上训练得更稳定、效果更好,还能消除 attention sink,让模型处理长文本时外推能力更强。
- attention sink 是什么:
- 现象:Transformer 的 Softmax 注意力,会把近 50% 的注意力分数砸在序列的前几个 token 上(尤其是第一个 token),后面的 toke n分到的注意力少得可怜。
- 原因:Softmax 强制所有注意力分数和为 1 且非负。如果模型觉得当前上下文里没什么值得关注的,又不能违反归一化约束,只能把"多余"的注意力强行"汇"到前面几个 token 上,让它们当"垃圾桶"。
- 后果:处理长文本时,真正相关的后续信息得不到足够关注,模型性能暴跌。
- 这篇论文把 sigmoid 加在了 注意力计算完成后、送入下一层之前 这个位置。(更具体的技术细节就没有读了)
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- arxiv:https://arxiv.org/abs/2505.17638
- GitHub:https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
- 来源:NeurIPS 2025 best paper。diffusion 我一点都不懂(
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- arxiv:https://arxiv.org/abs/2504.13837
- website:https://limit-of-rlvr.github.io/
- 来源:NeurIPS 2025 Best Paper Runner-up Award,best paper 入围奖。之前师兄提过,说是系里其他人的文章,应该影响力很大。观摩了一作 yang yue 的个人主页,太猛了…
主要内容(kimi 速读):
- kimi 的一句话总结:这篇论文发现,当前流行的强化学习方法(RLVR)其实并没有让大语言模型学会"新"的推理能力,它只是让模型更擅长"挑选"出原本就会的解法,就像学生没学会新知识点,只是更会用已有知识应对考试了。
- 核心故事线:
- 传统评估用 pass@1(一次成功率)无法区分:模型是真的"学会"了新解法,还是单纯更擅长从已有知识中"捞出"正确答案。需要能探测能力边界的评估方法,而非平均表现。
- 因此,这个工作计算 pass@k 曲线,对每个问题,让基础模型和RL模型各自采样上百到上千次答案;看 k 从 1 到 1024 时,两个模型分别能解决多少问题。如果 RL 真的让模型变强了,它的 pass@k 曲线应该全程高于基础模型。
- 实验结果:
- 小 k 时(k=1):RL 模型胜率更高(比如从 20%→35%),确实更会"一遍做对"。然而大 k 时(k=256+),基础模型反超,能解更多题;比如在 Minerva 数据集上,32B 模型的基础版比 RL 版多解 9% 的问题。
- PPO/GRPO/Reinforce++ 等六种主流 RL 算法表现相似,均未达最优,证明这可能是 RL 本身的特性,与算法无关。
- 核心结论:RL 未引入新推理模式,所有正确路径已存在于基础模型;训练反而缩小了探索范围,导致部分原可解问题变得不可解。
- (然而,印象里 deepseek-r1 带来的一个核心结论就是,拿 RLVR 使劲训大模型,大模型的能力就能有所提升。感觉这个结论,跟这篇文章好像有些矛盾()乱说,可能是关注的问题规模、问题范围不一样之类(我不懂大模型,都是听其他人说的这些
Lipschitz-constrained Unsupervised Skill Discovery (LSD)
- 来源:seohong park 的 DSD 系列文章。
- arxiv:https://arxiv.org/abs/2202.00914
目标函数:
\[\max J^{\text{LSD}} = \mathbb{E}_{z \sim p(z), \tau \sim p^\pi(\tau|z)}\left[(\phi(s_T) - \phi(s_0))^\top z\right]
\]
约束:状态表示函数 \(\phi: \mathcal{S} \to \mathbb{R}^d\) 必须满足 1-Lipschitz 条件:
\[\|\phi(x) - \phi(y)\| \leq \|x - y\|, \quad \forall x, y \in \mathcal{S}
\]
Controllability-Aware Unsupervised Skill Discovery (CSD)
- 来源:seohong park 的 DSD 系列文章。
- arxiv:https://arxiv.org/abs/2302.05103
目标函数和约束:
\[\max_{\pi,\phi} \ \mathbb{E}_{z,s,s'}[(\phi(s') - \phi(s))^\top z]
\]
\[\text{s.t.} \ \forall x,y\in\mathcal{S}, \ \|\phi(x) - \phi(y)\| \leq d(x,y)
\]
其中 \(\phi:\mathcal{S}\to\mathbb{R}^D\) 将状态映射到技能空间,而 d 使用可控性感知距离函数 \(d^{\text{CSD}}(s,s')\) :
\[d^{\text{CSD}}(s,s') \triangleq \big(s' - \mu_\theta(s)\big)^\top \Sigma_\theta^{-1}(s) \big(s' - \mu_\theta(s)\big) \propto -\log q_\theta(s'|s)
\]
\(q_\theta(s'|s) = \mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))\) 是当前技能策略的转移概率模型。

浙公网安备 33010602011771号