论文速读记录 | 2025.10

Efficient Skill Discovery via Regret-Aware Optimization
Seohong Park 的两篇博客：Q-learning is not yet scalable 和 Dual representations
[Quasimetric] On the Learning and Learnability of Quasimetrics
[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

Efficient Skill Discovery via Regret-Aware Optimization

arxiv：https://arxiv.org/abs/2506.21044
open review：https://openreview.net/forum?id=4qMJ8Ignmp
GitHub：https://github.com/ZhHe11/RSD
来源：师弟提到。ICML 2025，3 3 2 1 poster。

1 故事

传统无监督 skill discovery 方法通常均匀探索技能（指采样 p(z) 通常使用均匀采样）。然而，这篇文章声称，对于高维和非对称的 state space，我们可能需要集中精力去学未收敛的策略，因此均匀采样 skill z 可能导致训练效率低。

这篇文章提出了 RSD（Regret-aware Skill Discovery），将 skill discovery 建模为 policy 与 skill 采样之间的 min-max 博弈：policy 学习降低 skill 的“遗憾值（regret）”，而技能生成器则去采样 regret 高的 skill，从而，引导 agent 探索其不擅长的方向，提高 skill discovery 训练效率。

2 method

总目标（Objective）是一个 min-max 博弈对抗：

智能体（Agent）的目标：最小化遗憾 → 学好给定的技能。
技能生成器（Skill Generator）的目标：最大化遗憾 → 找出智能体不擅长、需要学习的技能。

数学形式：

\[\min_{\theta_1}\max_{\theta_2}\mathbb{E}_{z\sim P_z}\left[Reg_k(z)\right] \]

其中，\(\theta_1\)：智能体策略的参数。\(\theta_2\)：技能生成器的参数。\(P_z\)：技能生成器的种群。\(Reg_k(z)\)：技能 \(z\) 在当前第 \(k\) 轮学习中的“遗憾值”。

2.1 Embedding（表征） \(\phi(s)\) 是怎么学的？

Build on metra 框架，RSD 学习一个 state embedding \(\phi(s)\)，将状态映射到一个有界的（通过 tanh）表征空间。在这个空间里，技能 \(z\) 代表一个目标点，agent 的任务就是让状态轨迹朝着 \(z\) “移动”。

核心公式（10）：

\[I_{\phi}(s_t, s_{t+1}, z) = \mathbb{E}\left[\sum_{t=0}^{T-1} (\phi(s_{t+1}) - \phi(s_{t}))^{\top} \cdot \vec{z}_{\text{updated}}\right] \]

直观理解：我们希望状态变化量 \((\phi(s_{t+1}) - \phi(s_{t}))\) 的方向，与技能方向 \(\vec{z}_{\text{updated}}\) 尽可能一致。

\(\vec{z}_{\text{updated}}\)（公式 9）是一个模长为 1 的归一化向量，方向由 \(z - \phi(s_t)\) 决定。这相当于让智能体朝着“目标点 \(z\) 相对于当前位置 \(\phi(s_t)\) 的方向”前进。

DSD 方法的 embedding 约束（公式 11）：

\[\|\phi(s_{t+1})-\phi(s_{t})\| \leq \frac 1T \]

2.2 Policy 的 intrinsic reward 是怎么给的？

核心公式（13）：

\[r_{\phi}(s_t, s_{t+1}, z) = \|z - \phi(s_t)\| - \|z - \phi(s_{t+1})\| \]

直观理解：如果执行动作后，新状态 \(s_{t+1}\) 在表征空间中离目标点 \(z\) 更近了，那么奖励为正；如果更远了，奖励为负。

2.3 Skill \(z\) 是怎么采样的？

不是均匀采样，而是从一个动态更新的技能生成器种群 \(P_z\) 中采样。

\(P_z\) 是一个高斯混合模型（GMM），里面的每个组件都是一个技能生成器 \(\pi_{\theta_2}\)，会是一个高斯分布。

在每一轮训练中，智能体从整个 \(P_z\) 这个混合模型中采样技能 \(z\) 来进行学习。

这种非均匀采样，使得智能体有更高概率去练习那些“它目前不擅长但又有可能学会”的技能。

2.4 Skill Generator 是怎么更新维护的？

A. 如何更新（训练）一个新的技能生成器？

目标函数（公式 18）：

\[\max_{\theta_2} J_{\theta_2}(z) = \mathbb{E}_{z\sim\pi^{k}_{\theta_2}}[Reg_k(z)] + \alpha_1 d_z + \alpha_2 d_\phi \]

这个目标有三部分：

regret（主目标）：\(\mathbb{E}[Reg_k(z)]\)。鼓励 generator 生成那些 agent 在当前轮进步最大（即之前掌握得不好）的技能 \(z\)。
多样性正则（\(d_z\)）：\(D_{KL}[p(z|P_z^k) \parallel \pi^{k}_{\theta_2}(z)]\)。鼓励新生成器 \(\pi^{k}_{\theta_2}\) 的技能分布与旧的种群 \(P_z^k\) 不同，避免生成重复技能。
邻近正则（\(d_\phi\)）：\(\max_{\phi_{\text{seen}} \sim \mathcal{B}_k} \log \pi_{\theta_2}(\phi_{\text{seen}})\)。鼓励新生成器的技能不要离智能体已经见过的状态太远，确保技能是“跳一跳能够得着”的，不会太难。

B. 如何维护技能生成器种群 \(P_z\)？

加入：每一轮新训练好的技能生成器 \(\pi^{k}_{\theta_2}\) 会被加入种群 \(P_z\)。
淘汰：如果种群大小超过上限 \(l\)，就淘汰掉其中平均 regret 值最低的那个旧生成器。
自适应采样（附录 C.3.3）：还会根据技能的学习情况，动态调整种群 \(P_z\) 中各个生成器的采样概率，学得好的技能分布会被更多采样。

2.5 这篇文章用了什么 Trick？

如何估计 regret：用连续两轮策略的价值函数差值 \(V_k - V_{k-1}\)（公式7）来近似 regret，虽然 regret 貌似一般指当前策略离最优策略的 value function 差距。原文中有相关解释，这种估计方式并不是直接给出的。
表征空间约束：通过 tanh 确保 \(\phi\) 的输出有界，这个有点神秘，好像第一次见。
技能方向归一化（\(\vec{z}_{\text{updated}}\)）：在计算互信息、更新 \(\phi\) 时，使用 z 相对 \(\phi(s)\) 方向与 \(\Delta \phi(s)\) 做内积。
技能生成器种群：使用动态更新的高斯混合模型（GMM）。
初始状态居中（附录 C.3.1）：约束 \(\phi(s_0) = \vec{0}\)，让表征空间的原点有意义。

2.6 实验结果

环境：Ant（对称）、Maze2d-large、Antmaze-medium/large（非对称）、Kitchen（像素观测）。

评估指标：(1) CoverCoords：覆盖的 1x1 坐标数，衡量技能多样性。(2) Zero-shot 成功率与离 zero-shot goal 的最终距离。

实验结果：(1) 多样性更优，在非对称环境中覆盖更多状态，在 Kitchen 环境中显著超越 METRA（+1.14 任务完成数）。(2) 效率更高，收敛更快。(3) Zero-shot 更强，在导航任务中成功率最高。

3 相关思考

这篇文章有点像 curriculum learning + skill discovery。

这篇文章的思想貌似是，对正在快速学习的 skill，加大 sample 投入，反过来就是，对于已经不学习已经收敛的 skill，减少 sample 投入，感觉是有道理的。

这种 min-max 思想，会不会可以广泛提高效率？外层要 min 的是我们的 loss 或其他需要最小化的量，而内层的 max 是一个提高样本效率的采样器，专门找出薄弱的地方。deepseek 的总结：主动寻找当前模型的薄弱环节进行攻击。并且，deepseek 说，监督学习中也有相关应用，如难例挖掘。

如果在 metra 框架下做这种 min-max，而非使用这篇文章的新 skill z 定义和新 intrinsic reward，metra 的 learning efficiency 会有改进嘛？或许也会有，但我没试过，只是在乱想（）

合作者说，这篇文章的新 skill z 和新 intrinsic reward，可能确实比 metra 更适合走迷宫，因为 metra 的 z 只关注方向，而这篇文章的 z 相当于在 embedding space 里的一个坐标，希望 skill z 下的 agent 可以到达这个坐标；从这一点看，感觉是有趣的。

感觉这篇文章的 writing 可能可以再改善；abstract 写的还是好的，min-max 的提出看起来感觉很好，但感觉 intro 稍微有些乱，然后 method 里面很多公式都没看懂；或许自己写文章的时候，要把各种技术后面的动机写出来，让文章更好理解。

Seohong Park 的两篇博客：Q-learning is not yet scalable 和 Dual representations

url：https://seohong.me/blog/q-learning-is-not-yet-scalable/ 和 https://seohong.me/blog/dual-representations/
来源：无端看到，以及合作者提到。

主要内容：

第一篇 Q-learning is not yet scalable 是说 Q learning 噪声或者 over-estimation 比较严重，导致不遵循训练数据的 scaling law，但从一步 bellman 变成多步 bellman，就会显著变 work。
故事：
- 当前 RL 的重大成功（AlphaGo、LLM 对齐）均依赖 on-policy 算法（PPO 等），而 on-policy 在机器人等领域数据效率极低，需实时采样。因此，我们需要 Q-learning 这样的 off-policy 算法，这样，就可以利用各种数据。
- 然而，Q-learning 难以扩展：即使训练数据变多，多到没有 OOD action、难以过拟合，policy 也没法学会复杂 task，没有像 LLM、大视觉模型的这种 scaling law。更具体的，Seohong Park 指的是，Q-learning 难以掌握需要连续操作 100 步才能解决的复杂 task。
- 原因：Q-learning 的更新中，max Q 操作导致 over-estimation，且偏差随着决策步数（horizon）累积。而有 scaling law 的监督学习（如 LLM 训练）、对比学习等目标，没有这种偏差累积的问题。
- 解决方案：Horizon reduction：通过分层 RL、n-step returns 等技术，可以缩短 horizon，显著提升性能与扩展性。
- 结论：Q-learning 尚未突破深度扩展：需算法革新，非单纯堆数据/模型。
- 关键研究方向：
- ① 设计可递归扩展的分层结构，比如 HRL 是两层的，我们可以设计一个无限层的（）（Seohong Park 说，可以类比 LLM 的 CoT 推理，但这个我没看懂）。
- ② 把 bellman 一步更新绕过去，找一些替代方案（如 Quasimetric RL、基于蒙特卡洛的 Contrastive RL）。
- 这篇博客的 code：https://github.com/seohongpark/horizon-reduction
第二篇提出了“用 state s 与其他所有 state 的距离，来定义 s 的 representation” 的新颖概念。动机源于数学（Riesz定理、核方法、Yoneda引理）中的“通过与其他所有对象的关系来定义对象”的思想。具体的，将一个 state s 的对偶 representation，定义为它与其他 state 的距离函数 d(*,x)，然后使用 state embedding 的内积 \(\psi(s')^T\phi(s)\) 来作为距离函数；然后，这一套方法就变成了 metra）

[Quasimetric] On the Learning and Learnability of Quasimetrics

来源：Seohong Park 的博客提到的 quasimetric 相关文章。
arxiv：https://arxiv.org/abs/2206.15478v4
open review：https://openreview.net/forum?id=y0VvIg25yk
website：https://www.tongzhouwang.info/quasimetric/
GitHub：https://github.com/quasimetric-learning/torch-quasimetric （貌似是用来学 quasimetric 的 pytorch 包）
参考博客：CSDN | 学习不对称的世界：泊松准度量嵌入（PQE）详解

主要内容：

在故事上，这篇文章说，我们的世界充满了不对称性，比如，重力会让物体到达一个地方比返回原先的位置更容易，社交网络里有单向关注的情况。这种不对称性可以用 quasimetric 来表示，quasimetric 满足 ① 非负性 f(x,y) ≥ 0，② 同一性 f(x,y) = 0 当且仅当 x=x，③ 三角不等式 f(x,y) + f(y,z) ≥ f(x,z)，但是不满足 ④ 对称性 f(x,y)=f(y,x)。（quasimetric 和其他 metric 的比较，可参考博客）
然而，很多模型都不适合拟合 quasimetric，这篇文章给出了一些理论证明来支持这个结论。
这篇文章提出了 PQE（Poisson Quasimetric Embedding），这是一个基于泊松过程的用来拟合 quasimetric 的可以用 loss.backward() 来优化的方法。主要思想好像是，首先我们把所有的 data 都映射到一个 embedding space 里，然后用某种基于泊松过程的方法，在这个 embedding space 里，天然建立起一种满足三角不等式但不强制满足对称性的 metric。我不太懂理论，所以没太读懂这篇文章。
（感觉这篇文章的作者，是讲故事的天才，论文的 intro 都写得特别好；完全把 quasimetric 这个概念兜售给我了…

[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

来源：Seohong Park 的博客提到的。
arxiv：https://arxiv.org/abs/2304.01203
website：https://www.tongzhouwang.info/quasimetric_rl/

主要内容：貌似是直接利用上面那篇文章的 quasimetric 作为 RL 的 value function。

核心观察：RL 的 value function 在某种程度上是一个 quasimetric，因为从 state x 到 z 的最大 reward，一定大于等于 x → y 的最大 reward + y → z 的最大 reward，所以如果计算 x → z 的 cost 的话，这个 cost 就满足三角不等式。（这跟一些 dp 题非常像，RL 也确实是基于 dp 的）
method：这篇文章为这种 quasimetric RL 设计了一套专门的 method。
- 局部约束：对于数据中的每一个状态转移 (s → s')，模型预测的距离 dθ(s, s') 必须不大于真实的转移 cost -r。这个约束是通过 Lagrange 乘子法处理的。
- 全局最大化：对于随机采样的状态 s 和目标 g，最大化它们之间的预测距离 dθ(s, g)，在满足局部约束和三角不等式的条件下，这个最大值就是最短路径的代价。
主要思想：模型在“遵守局部成本”的约束下，尽力“拉开”所有状态对之间的距离，最终的这个距离就是最优代价（website 上的几个动图很好地说明了这一点）。
（没有太认真读，如果有需要的话，会再来读的）

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

来源：quasimetric 作者的 2020 年 ICML 文章。
arxiv：https://arxiv.org/abs/2005.10242
website：https://www.tongzhouwang.info/hypersphere/

主要内容：

alignment 的含义是，正样本之间应该靠的尽可能近；uniform 的含义是，样本点的 embedding 应该尽可能在一个超球面上（向量模长 = 1）均匀分布，deepseek 解读，这可以通过用一个高斯核函数惩罚那些靠得太近的特征对来实现。
alignment 和 uniform 不仅是各种 contrastive learning 方法的设计动机，这篇文章发现也可以直接设计这两个 loss 作为对比学习 loss，实现对比学习。并且，这篇文章发现，对于好的对比学习方法，这两个指标都是小的，这是网站里令我印象深刻的几张图。

posted @ 2025-10-02 23:00 MoonOut 阅读(109) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.10

Efficient Skill Discovery via Regret-Aware Optimization

1 故事

2 method

3 相关思考

Seohong Park 的两篇博客：Q-learning is not yet scalable 和 Dual representations

[Quasimetric] On the Learning and Learnability of Quasimetrics

[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

公告