论文速读记录 | 2025.12(1)




Offline Multitask Representation Learning for Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2403.11574
  • 来源:NeurIPS 2024。是纯理论文章,没有代码。
  • 主要内容:对于低秩 MDP(transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\))中的 offline meta RL,利用给定的 N 个具有相同的 的 task 的 offline 数据集,去学习一个统一的 \(\phi\),然后对于一个给定的新 task(比如只有 transition 没有 reward 或者其他情况),进行适应。
  • 纯理论工作,看不太懂,(看起来跟目前工作也没什么关系)。

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

  • arxiv:https://arxiv.org/abs/2503.14858
  • 来源:NeurIPS 2025 best paper,Benjamin Eysenbach 组的工作。
  • 之前读过:论文速读记录 | 2025.06
  • 这篇文章主要在讲 RL scaling law 故事。
  • kimi 的一句话概括:在自监督的 goal-conditioned RL 中,把网络从常见的 4 层暴增到 64-1024 层,配合残差连接等技术,能让性能提升 2-50 倍,并自动学会新颖的复杂行为(比如人形机器人爬行 → 直立行走 → 翻越墙壁)。

Benjamin Eysenbach 的自监督 GCRL:

  • 学习一个 goal-conditioned policy \(\pi(a|s,g)\),输入当前状态 s 和目标 g(通常是未来状态),输出动作 a。
  • 使用 Contrastive RL,把 RL 转成对比学习问题。
  • Critic 去学习一个度量:如果状态-动作 (s,a) 能到达目标 g,那它们的 embedding 距离 \(f(s,a,g) = \|\phi(s,a) - \psi(g)\|^2\) 应该很近,否则很远。基于这个思想,用 InfoNCE loss 训练:从同一条轨迹采样正样本 \((s_i,a_i,g_i)\),从不同轨迹采样负样本 \(g_j\),loss = \(-\log[ \exp(f(s_i,a_i,g_i)) / \sum_j \exp(f(s_i,a_i,g_j)) ]\)
  • Actor \(\pi_\theta(a|s,g)\) 直接最大化 critic 的输出 \(f(s,a,g)\),即去选一个让 \(\phi(s,a)\)\(\psi(g)\) 的 embedding 距离更小的 action。
  • 相关工作:Benjamin Eysenbach 的 Contrastive RL(速读),感觉思路非常像的 Quasimetric RL(速读),以及相关的 temporal distance 工作(ETD)。仍在思考中…

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

主要内容(kimi 速读):

  • gap:大语言模型(LLM)在开放式任务(如创意写作、头脑风暴)中存在严重的同质化现象:不仅单个模型多次采样生成高度相似的内容(intra-model repetition),不同模型家族之间也惊人地趋同(inter-model homogeneity),甚至产生逐字重叠。这导致用户接触不到多样化观点,长期可能侵蚀人类创造力。
  • method:
    • 构建了数据集 INFINITY-CHAT,从 WildChat 挖掘 26,070 个真实开放式查询,首次建立 6 大类 17 子类的开放式任务分类体系,覆盖创意生成、道德困境、技能开发等真实场景。
    • 同时,引入密集人类标注:31,250 个标注(25 人 / 样本),同时收集绝对评分( 1-5 分)和两两偏好,通过 Shannon 熵量化个体差异。
    • 双维度诊断:同时测量模型内重复(50 次采样)和跨模型相似(25 个模型),用句子嵌入的余弦相似度 量化同质化。细粒度对齐分析:将人类标注按相似质量和高分歧分组,检验模型评估器在不同场景下的校准能力(这句没听懂)。
  • 关键结论:
    • 同质化现象惊人。模型内重复:即使高温采样,79%的查询回答相似度 >0.8(随机基线仅 0.1-0.2)。跨模型同质化:不同模型回答相似度平均0.75+,DeepSeek-V3与GPT-4达0.81,Qwen和GPT模型家族间相似度尤其高
    • 现有 LLM 在开放式任务中存在系统性同质化倾向,这不是采样参数能解决的。奖励模型和评估器缺乏对"偏好多样性"的理解能力,导致对齐训练可能反而压制了创造性。

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

主要内容(kimi 速读):

  • kimi 的一句话总结:作者们在标准注意力机制的输出后面加了个简单的 sigmoid 门控,发现这能让 15B 的 MoE 模型和 1.7B 的稠密模型在 3.5T token 数据上训练得更稳定、效果更好,还能消除 attention sink,让模型处理长文本时外推能力更强。
  • attention sink 是什么:
    • 现象:Transformer 的 Softmax 注意力,会把近 50% 的注意力分数砸在序列的前几个 token 上(尤其是第一个 token),后面的 toke n分到的注意力少得可怜。
    • 原因:Softmax 强制所有注意力分数和为 1 且非负。如果模型觉得当前上下文里没什么值得关注的,又不能违反归一化约束,只能把"多余"的注意力强行"汇"到前面几个 token 上,让它们当"垃圾桶"。
    • 后果:处理长文本时,真正相关的后续信息得不到足够关注,模型性能暴跌。
  • 这篇论文把 sigmoid 加在了 注意力计算完成后、送入下一层之前 这个位置。(更具体的技术细节就没有读了)

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

主要内容(kimi 速读):

  • kimi 的一句话总结:这篇论文发现,当前流行的强化学习方法(RLVR)其实并没有让大语言模型学会"新"的推理能力,它只是让模型更擅长"挑选"出原本就会的解法,就像学生没学会新知识点,只是更会用已有知识应对考试了。
  • 核心故事线:
  • 传统评估用 pass@1(一次成功率)无法区分:模型是真的"学会"了新解法,还是单纯更擅长从已有知识中"捞出"正确答案。需要能探测能力边界的评估方法,而非平均表现。
  • 因此,这个工作计算 pass@k 曲线,对每个问题,让基础模型和RL模型各自采样上百到上千次答案;看 k 从 1 到 1024 时,两个模型分别能解决多少问题。如果 RL 真的让模型变强了,它的 pass@k 曲线应该全程高于基础模型。
  • 实验结果:
  • 小 k 时(k=1):RL 模型胜率更高(比如从 20%→35%),确实更会"一遍做对"。然而大 k 时(k=256+),基础模型反超,能解更多题;比如在 Minerva 数据集上,32B 模型的基础版比 RL 版多解 9% 的问题。
  • PPO/GRPO/Reinforce++ 等六种主流 RL 算法表现相似,均未达最优,证明这可能是 RL 本身的特性,与算法无关。
  • 核心结论:RL 未引入新推理模式,所有正确路径已存在于基础模型;训练反而缩小了探索范围,导致部分原可解问题变得不可解。
  • (然而,印象里 deepseek-r1 带来的一个核心结论就是,拿 RLVR 使劲训大模型,大模型的能力就能有所提升。感觉这个结论,跟这篇文章好像有些矛盾()乱说,可能是关注的问题规模、问题范围不一样之类(我不懂大模型,都是听其他人说的这些

Lipschitz-constrained Unsupervised Skill Discovery (LSD)

目标函数:

\[\max J^{\text{LSD}} = \mathbb{E}_{z \sim p(z), \tau \sim p^\pi(\tau|z)}\left[(\phi(s_T) - \phi(s_0))^\top z\right] \]

约束:状态表示函数 \(\phi: \mathcal{S} \to \mathbb{R}^d\) 必须满足 1-Lipschitz 条件:

\[\|\phi(x) - \phi(y)\| \leq \|x - y\|, \quad \forall x, y \in \mathcal{S} \]

Controllability-Aware Unsupervised Skill Discovery (CSD)

目标函数和约束:

\[\max_{\pi,\phi} \ \mathbb{E}_{z,s,s'}[(\phi(s') - \phi(s))^\top z] \]

\[\text{s.t.} \ \forall x,y\in\mathcal{S}, \ \|\phi(x) - \phi(y)\| \leq d(x,y) \]

其中 \(\phi:\mathcal{S}\to\mathbb{R}^D\) 将状态映射到技能空间,而 d 使用可控性感知距离函数 \(d^{\text{CSD}}(s,s')\)

\[d^{\text{CSD}}(s,s') \triangleq \big(s' - \mu_\theta(s)\big)^\top \Sigma_\theta^{-1}(s) \big(s' - \mu_\theta(s)\big) \propto -\log q_\theta(s'|s) \]

\(q_\theta(s'|s) = \mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))\) 是当前技能策略的转移概率模型。



posted @ 2025-12-02 23:13  MoonOut  阅读(48)  评论(0)    收藏  举报