论文速读记录 | 2025.10
- Efficient Skill Discovery via Regret-Aware Optimization
- Seohong Park 的两篇博客:Q-learning is not yet scalable 和 Dual representations
- [Quasimetric] On the Learning and Learnability of Quasimetrics
- [Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
- Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
Efficient Skill Discovery via Regret-Aware Optimization
- arxiv:https://arxiv.org/abs/2506.21044
- open review:https://openreview.net/forum?id=4qMJ8Ignmp
- GitHub:https://github.com/ZhHe11/RSD
- 来源:师弟提到。ICML 2025,3 3 2 1 poster。
1 故事
传统无监督 skill discovery 方法通常均匀探索技能(指采样 p(z) 通常使用均匀采样)。然而,这篇文章声称,对于高维和非对称的 state space,我们可能需要集中精力去学未收敛的策略,因此均匀采样 skill z 可能导致训练效率低。
这篇文章提出了 RSD(Regret-aware Skill Discovery),将 skill discovery 建模为 policy 与 skill 采样之间的 min-max 博弈:policy 学习降低 skill 的“遗憾值(regret)”,而技能生成器则去采样 regret 高的 skill,从而,引导 agent 探索其不擅长的方向,提高 skill discovery 训练效率。
2 method
总目标(Objective)是一个 min-max 博弈对抗:
- 智能体(Agent) 的目标:最小化遗憾 → 学好给定的技能。
- 技能生成器(Skill Generator) 的目标:最大化遗憾 → 找出智能体不擅长、需要学习的技能。
数学形式:
其中,\(\theta_1\):智能体策略的参数。\(\theta_2\):技能生成器的参数。\(P_z\):技能生成器的种群。\(Reg_k(z)\):技能 \(z\) 在当前第 \(k\) 轮学习中的“遗憾值”。
2.1 Embedding(表征) \(\phi(s)\) 是怎么学的?
Build on metra 框架,RSD 学习一个 state embedding \(\phi(s)\),将状态映射到一个有界的(通过 tanh)表征空间。在这个空间里,技能 \(z\) 代表一个目标点,agent 的任务就是让状态轨迹朝着 \(z\) “移动”。
核心公式(10):
直观理解:我们希望状态变化量 \((\phi(s_{t+1}) - \phi(s_{t}))\) 的方向,与技能方向 \(\vec{z}_{\text{updated}}\) 尽可能一致。
\(\vec{z}_{\text{updated}}\)(公式 9)是一个模长为 1 的归一化向量,方向由 \(z - \phi(s_t)\) 决定。这相当于让智能体朝着“目标点 \(z\) 相对于当前位置 \(\phi(s_t)\) 的方向”前进。
DSD 方法的 embedding 约束(公式 11):
2.2 Policy 的 intrinsic reward 是怎么给的?
核心公式(13):
直观理解:如果执行动作后,新状态 \(s_{t+1}\) 在表征空间中离目标点 \(z\) 更近了,那么奖励为正;如果更远了,奖励为负。
2.3 Skill \(z\) 是怎么采样的?
不是均匀采样,而是从一个动态更新的技能生成器种群 \(P_z\) 中采样。
\(P_z\) 是一个高斯混合模型(GMM),里面的每个组件都是一个技能生成器 \(\pi_{\theta_2}\),会是一个高斯分布。
在每一轮训练中,智能体从整个 \(P_z\) 这个混合模型中采样技能 \(z\) 来进行学习。
这种非均匀采样,使得智能体有更高概率去练习那些“它目前不擅长但又有可能学会”的技能。
2.4 Skill Generator 是怎么更新维护的?
A. 如何更新(训练)一个新的技能生成器?
目标函数(公式 18):
这个目标有三部分:
- regret(主目标):\(\mathbb{E}[Reg_k(z)]\)。鼓励 generator 生成那些 agent 在当前轮进步最大(即之前掌握得不好)的技能 \(z\)。
- 多样性正则(\(d_z\)):\(D_{KL}[p(z|P_z^k) \parallel \pi^{k}_{\theta_2}(z)]\)。鼓励新生成器 \(\pi^{k}_{\theta_2}\) 的技能分布与旧的种群 \(P_z^k\) 不同,避免生成重复技能。
- 邻近正则(\(d_\phi\)):\(\max_{\phi_{\text{seen}} \sim \mathcal{B}_k} \log \pi_{\theta_2}(\phi_{\text{seen}})\)。鼓励新生成器的技能不要离智能体已经见过的状态太远,确保技能是“跳一跳能够得着”的,不会太难。
B. 如何维护技能生成器种群 \(P_z\)?
- 加入:每一轮新训练好的技能生成器 \(\pi^{k}_{\theta_2}\) 会被加入种群 \(P_z\)。
- 淘汰:如果种群大小超过上限 \(l\),就淘汰掉其中平均 regret 值最低的那个旧生成器。
- 自适应采样(附录 C.3.3):还会根据技能的学习情况,动态调整种群 \(P_z\) 中各个生成器的采样概率,学得好的技能分布会被更多采样。
2.5 这篇文章用了什么 Trick?
- 如何估计 regret:用连续两轮策略的价值函数差值 \(V_k - V_{k-1}\)(公式7)来近似 regret,虽然 regret 貌似一般指 当前策略离最优策略的 value function 差距。原文中有相关解释,这种估计方式并不是直接给出的。
- 表征空间约束:通过 tanh 确保 \(\phi\) 的输出有界,这个有点神秘,好像第一次见。
- 技能方向归一化(\(\vec{z}_{\text{updated}}\)):在计算互信息、更新 \(\phi\) 时,使用 z 相对 \(\phi(s)\) 方向与 \(\Delta \phi(s)\) 做内积。
- 技能生成器种群:使用动态更新的高斯混合模型(GMM)。
- 初始状态居中(附录 C.3.1):约束 \(\phi(s_0) = \vec{0}\),让表征空间的原点有意义。
2.6 实验结果
环境:Ant(对称)、Maze2d-large、Antmaze-medium/large(非对称)、Kitchen(像素观测)。
评估指标:(1) CoverCoords:覆盖的 1x1 坐标数,衡量技能多样性。(2) Zero-shot 成功率与离 zero-shot goal 的最终距离。
实验结果:(1) 多样性更优,在非对称环境中覆盖更多状态,在 Kitchen 环境中显著超越 METRA(+1.14 任务完成数)。(2) 效率更高,收敛更快。(3) Zero-shot 更强,在导航任务中成功率最高。
3 相关思考
这篇文章有点像 curriculum learning + skill discovery。
这篇文章的思想貌似是,对正在快速学习的 skill,加大 sample 投入,反过来就是,对于已经不学习 已经收敛的 skill,减少 sample 投入,感觉是有道理的。
这种 min-max 思想,会不会可以广泛提高效率?外层要 min 的是我们的 loss 或其他需要最小化的量,而内层的 max 是一个提高样本效率的采样器,专门找出薄弱的地方。deepseek 的总结:主动寻找当前模型的薄弱环节进行攻击。并且,deepseek 说,监督学习中也有相关应用,如难例挖掘。
如果在 metra 框架下做这种 min-max,而非使用这篇文章的新 skill z 定义和新 intrinsic reward,metra 的 learning efficiency 会有改进嘛?或许也会有,但我没试过,只是在乱想()
合作者说,这篇文章的新 skill z 和新 intrinsic reward,可能确实比 metra 更适合走迷宫,因为 metra 的 z 只关注方向,而这篇文章的 z 相当于在 embedding space 里的一个坐标,希望 skill z 下的 agent 可以到达这个坐标;从这一点看,感觉是有趣的。
Seohong Park 的两篇博客:Q-learning is not yet scalable 和 Dual representations
- url:https://seohong.me/blog/q-learning-is-not-yet-scalable/ 和 https://seohong.me/blog/dual-representations/
- 来源:无端看到,以及合作者提到。
主要内容:
- 第一篇 Q-learning is not yet scalable 是说 Q learning 噪声或者 over-estimation 比较严重,导致不遵循训练数据的 scaling law,但从一步 bellman 变成多步 bellman,就会显著变 work。
- 故事:
- 当前 RL 的重大成功(AlphaGo、LLM 对齐)均依赖 on-policy 算法(PPO 等),而 on-policy 在机器人等领域数据效率极低,需实时采样。因此,我们需要 Q-learning 这样的 off-policy 算法,这样,就可以利用各种数据。
- 然而,Q-learning 难以扩展:即使训练数据变多,多到没有 OOD action、难以过拟合,policy 也没法学会复杂 task,没有像 LLM、大视觉模型的这种 scaling law。更具体的,Seohong Park 指的是,Q-learning 难以掌握需要连续操作 100 步才能解决的复杂 task。
- 原因:Q-learning 的更新中,max Q 操作导致 over-estimation,且偏差随着决策步数(horizon)累积。而有 scaling law 的监督学习(如 LLM 训练)、对比学习等目标,没有这种偏差累积的问题。
- 解决方案:Horizon reduction:通过分层 RL、n-step returns 等技术,可以缩短 horizon,显著提升性能与扩展性。
- 结论:Q-learning 尚未突破深度扩展:需算法革新,非单纯堆数据/模型。
- 关键研究方向:
- ① 设计可递归扩展的分层结构,比如 HRL 是两层的,我们可以设计一个无限层的()(Seohong Park 说,可以类比 LLM 的 CoT 推理,但这个我没看懂)。
- ② 把 bellman 一步更新绕过去,找一些替代方案(如 Quasimetric RL、基于蒙特卡洛的 Contrastive RL)。
- 这篇博客的 code:https://github.com/seohongpark/horizon-reduction
- 第二篇提出了“用 state s 与其他所有 state 的距离,来定义 s 的 representation” 的新颖概念。动机源于数学(Riesz定理、核方法、Yoneda引理)中的“通过与其他所有对象的关系来定义对象”的思想。具体的,将一个 state s 的对偶 representation,定义为它与其他 state 的距离函数 d(*,x),然后使用 state embedding 的内积 \(\psi(s')^T\phi(s)\) 来作为距离函数;然后,这一套方法就变成了 metra)
[Quasimetric] On the Learning and Learnability of Quasimetrics
- 来源:Seohong Park 的博客提到的 quasimetric 相关文章。
- arxiv:https://arxiv.org/abs/2206.15478v4
- open review:https://openreview.net/forum?id=y0VvIg25yk
- website:https://www.tongzhouwang.info/quasimetric/
- GitHub:https://github.com/quasimetric-learning/torch-quasimetric (貌似是用来学 quasimetric 的 pytorch 包)
- 参考博客:CSDN | 学习不对称的世界:泊松准度量嵌入(PQE)详解
主要内容:
- 在故事上,这篇文章说,我们的世界充满了不对称性,比如,重力会让物体到达一个地方比返回原先的位置更容易,社交网络里有单向关注的情况。这种不对称性可以用 quasimetric 来表示,quasimetric 满足 ① 非负性 f(x,y) ≥ 0,② 同一性 f(x,y) = 0 当且仅当 x=x,③ 三角不等式 f(x,y) + f(y,z) ≥ f(x,z),但是不满足 ④ 对称性 f(x,y)=f(y,x)。(quasimetric 和其他 metric 的比较,可参考 博客)
- 然而,很多模型都不适合拟合 quasimetric,这篇文章给出了一些理论证明来支持这个结论。
- 这篇文章提出了 PQE(Poisson Quasimetric Embedding),这是一个基于泊松过程的用来拟合 quasimetric 的可以用 loss.backward() 来优化的方法。主要思想好像是,首先我们把所有的 data 都映射到一个 embedding space 里,然后用某种基于泊松过程的方法,在这个 embedding space 里,天然建立起一种满足三角不等式 但不强制满足对称性的 metric。我不太懂理论,所以没太读懂这篇文章。
- (感觉这篇文章的作者,是讲故事的天才,论文的 intro 都写得特别好;完全把 quasimetric 这个概念兜售给我了…
[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
- 来源:Seohong Park 的博客提到的。
- arxiv:https://arxiv.org/abs/2304.01203
- website:https://www.tongzhouwang.info/quasimetric_rl/
主要内容:貌似是直接利用上面那篇文章的 quasimetric 作为 RL 的 value function。
- 核心观察:RL 的 value function 在某种程度上是一个 quasimetric,因为从 state x 到 z 的最大 reward,一定大于等于 x → y 的最大 reward + y → z 的最大 reward,所以如果计算 x → z 的 cost 的话,这个 cost 就满足三角不等式。(这跟一些 dp 题非常像,RL 也确实是基于 dp 的)
- method:这篇文章为这种 quasimetric RL 设计了一套专门的 method。
- 局部约束:对于数据中的每一个状态转移 (s → s'),模型预测的距离 dθ(s, s') 必须不大于真实的转移 cost -r。这个约束是通过 Lagrange 乘子法处理的。
- 全局最大化:对于随机采样的状态 s 和目标 g,最大化它们之间的预测距离 dθ(s, g),在满足局部约束和三角不等式的条件下,这个最大值就是最短路径的代价。
- 主要思想:模型在“遵守局部成本”的约束下,尽力“拉开”所有状态对之间的距离,最终的这个距离就是最优代价(website 上的几个动图很好地说明了这一点)。
- (没有太认真读,如果有需要的话,会再来读的)
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
- 来源:quasimetric 作者 的 2020 年 ICML 文章。
- arxiv:https://arxiv.org/abs/2005.10242
- website:https://www.tongzhouwang.info/hypersphere/
主要内容:
- alignment 的含义是,正样本之间应该靠的尽可能近;uniform 的含义是,样本点的 embedding 应该尽可能在一个超球面上(向量模长 = 1)均匀分布,deepseek 解读,这可以通过 用一个高斯核函数 惩罚那些靠得太近的特征对 来实现。
- alignment 和 uniform 不仅是各种 contrastive learning 方法的设计动机,这篇文章发现也可以直接设计这两个 loss 作为对比学习 loss,实现对比学习。并且,这篇文章发现,对于好的对比学习方法,这两个指标都是小的,这是网站里令我印象深刻的几张图。

浙公网安备 33010602011771号