论文速读记录 | 2025.10




Efficient Skill Discovery via Regret-Aware Optimization

1 故事

传统无监督 skill discovery 方法通常均匀探索技能(指采样 p(z) 通常使用均匀采样)。然而,这篇文章声称,对于高维和非对称的 state space,我们可能需要集中精力去学未收敛的策略,因此均匀采样 skill z 可能导致训练效率低。

这篇文章提出了 RSD(Regret-aware Skill Discovery),将 skill discovery 建模为 policy 与 skill 采样之间的 min-max 博弈:policy 学习降低 skill 的“遗憾值(regret)”,而技能生成器则去采样 regret 高的 skill,从而,引导 agent 探索其不擅长的方向,提高 skill discovery 训练效率。

2 method

总目标(Objective)是一个 min-max 博弈对抗:

  • 智能体(Agent) 的目标:最小化遗憾 → 学好给定的技能。
  • 技能生成器(Skill Generator) 的目标:最大化遗憾 → 找出智能体不擅长、需要学习的技能。

数学形式:

\[\min_{\theta_1}\max_{\theta_2}\mathbb{E}_{z\sim P_z}\left[Reg_k(z)\right] \]

其中,\(\theta_1\):智能体策略的参数。\(\theta_2\):技能生成器的参数。\(P_z\):技能生成器的种群。\(Reg_k(z)\):技能 \(z\) 在当前第 \(k\) 轮学习中的“遗憾值”。

2.1 Embedding(表征) \(\phi(s)\) 是怎么学的?

Build on metra 框架,RSD 学习一个 state embedding \(\phi(s)\),将状态映射到一个有界的(通过 tanh)表征空间。在这个空间里,技能 \(z\) 代表一个目标点,agent 的任务就是让状态轨迹朝着 \(z\) “移动”。

核心公式(10):

\[I_{\phi}(s_t, s_{t+1}, z) = \mathbb{E}\left[\sum_{t=0}^{T-1} (\phi(s_{t+1}) - \phi(s_{t}))^{\top} \cdot \vec{z}_{\text{updated}}\right] \]

直观理解:我们希望状态变化量 \((\phi(s_{t+1}) - \phi(s_{t}))\) 的方向,与技能方向 \(\vec{z}_{\text{updated}}\) 尽可能一致。

\(\vec{z}_{\text{updated}}\)(公式 9)是一个模长为 1 的归一化向量,方向由 \(z - \phi(s_t)\) 决定。这相当于让智能体朝着“目标点 \(z\) 相对于当前位置 \(\phi(s_t)\) 的方向”前进。

DSD 方法的 embedding 约束(公式 11):

\[\|\phi(s_{t+1})-\phi(s_{t})\| \leq \frac 1T \]

2.2 Policy 的 intrinsic reward 是怎么给的?

核心公式(13):

\[r_{\phi}(s_t, s_{t+1}, z) = \|z - \phi(s_t)\| - \|z - \phi(s_{t+1})\| \]

直观理解:如果执行动作后,新状态 \(s_{t+1}\) 在表征空间中离目标点 \(z\) 更近了,那么奖励为正;如果更远了,奖励为负。

2.3 Skill \(z\) 是怎么采样的?

不是均匀采样,而是从一个动态更新的技能生成器种群 \(P_z\) 中采样。

\(P_z\) 是一个高斯混合模型(GMM),里面的每个组件都是一个技能生成器 \(\pi_{\theta_2}\),会是一个高斯分布。

在每一轮训练中,智能体从整个 \(P_z\) 这个混合模型中采样技能 \(z\) 来进行学习。

这种非均匀采样,使得智能体有更高概率去练习那些“它目前不擅长但又有可能学会”的技能。

2.4 Skill Generator 是怎么更新维护的?

A. 如何更新(训练)一个新的技能生成器?

目标函数(公式 18):

\[\max_{\theta_2} J_{\theta_2}(z) = \mathbb{E}_{z\sim\pi^{k}_{\theta_2}}[Reg_k(z)] + \alpha_1 d_z + \alpha_2 d_\phi \]

这个目标有三部分:

  1. regret(主目标):\(\mathbb{E}[Reg_k(z)]\)。鼓励 generator 生成那些 agent 在当前轮进步最大(即之前掌握得不好)的技能 \(z\)
  2. 多样性正则(\(d_z\)):\(D_{KL}[p(z|P_z^k) \parallel \pi^{k}_{\theta_2}(z)]\)。鼓励新生成器 \(\pi^{k}_{\theta_2}\) 的技能分布与旧的种群 \(P_z^k\) 不同,避免生成重复技能。
  3. 邻近正则(\(d_\phi\)):\(\max_{\phi_{\text{seen}} \sim \mathcal{B}_k} \log \pi_{\theta_2}(\phi_{\text{seen}})\)。鼓励新生成器的技能不要离智能体已经见过的状态太远,确保技能是“跳一跳能够得着”的,不会太难。

B. 如何维护技能生成器种群 \(P_z\)

  • 加入:每一轮新训练好的技能生成器 \(\pi^{k}_{\theta_2}\) 会被加入种群 \(P_z\)
  • 淘汰:如果种群大小超过上限 \(l\),就淘汰掉其中平均 regret 值最低的那个旧生成器。
  • 自适应采样(附录 C.3.3):还会根据技能的学习情况,动态调整种群 \(P_z\) 中各个生成器的采样概率,学得好的技能分布会被更多采样。

2.5 这篇文章用了什么 Trick?

  1. 如何估计 regret:用连续两轮策略的价值函数差值 \(V_k - V_{k-1}\)(公式7)来近似 regret,虽然 regret 貌似一般指 当前策略离最优策略的 value function 差距。原文中有相关解释,这种估计方式并不是直接给出的。
  2. 表征空间约束:通过 tanh 确保 \(\phi\) 的输出有界,这个有点神秘,好像第一次见。
  3. 技能方向归一化(\(\vec{z}_{\text{updated}}\)):在计算互信息、更新 \(\phi\) 时,使用 z 相对 \(\phi(s)\) 方向与 \(\Delta \phi(s)\) 做内积。
  4. 技能生成器种群:使用动态更新的高斯混合模型(GMM)。
  5. 初始状态居中(附录 C.3.1):约束 \(\phi(s_0) = \vec{0}\),让表征空间的原点有意义。

2.6 实验结果

环境:Ant(对称)、Maze2d-large、Antmaze-medium/large(非对称)、Kitchen(像素观测)。

评估指标:(1) CoverCoords:覆盖的 1x1 坐标数,衡量技能多样性。(2) Zero-shot 成功率与离 zero-shot goal 的最终距离。

实验结果:(1) 多样性更优,在非对称环境中覆盖更多状态,在 Kitchen 环境中显著超越 METRA(+1.14 任务完成数)。(2) 效率更高,收敛更快。(3) Zero-shot 更强,在导航任务中成功率最高。

3 相关思考

这篇文章有点像 curriculum learning + skill discovery。

这篇文章的思想貌似是,对正在快速学习的 skill,加大 sample 投入,反过来就是,对于已经不学习 已经收敛的 skill,减少 sample 投入,感觉是有道理的。

这种 min-max 思想,会不会可以广泛提高效率?外层要 min 的是我们的 loss 或其他需要最小化的量,而内层的 max 是一个提高样本效率的采样器,专门找出薄弱的地方。deepseek 的总结:主动寻找当前模型的薄弱环节进行攻击。并且,deepseek 说,监督学习中也有相关应用,如难例挖掘。

如果在 metra 框架下做这种 min-max,而非使用这篇文章的新 skill z 定义和新 intrinsic reward,metra 的 learning efficiency 会有改进嘛?或许也会有,但我没试过,只是在乱想()

合作者说,这篇文章的新 skill z 和新 intrinsic reward,可能确实比 metra 更适合走迷宫,因为 metra 的 z 只关注方向,而这篇文章的 z 相当于在 embedding space 里的一个坐标,希望 skill z 下的 agent 可以到达这个坐标;从这一点看,感觉是有趣的。

感觉这篇文章的 writing 可能可以再改善;abstract 写的还是好的,min-max 的提出看起来感觉很好,但感觉 intro 稍微有些乱,然后 method 里面很多公式都没看懂;或许自己写文章的时候,要把各种技术后面的动机写出来,让文章更好理解。

Seohong Park 的两篇博客:Q-learning is not yet scalable 和 Dual representations

主要内容:

  • 第一篇 Q-learning is not yet scalable 是说 Q learning 噪声或者 over-estimation 比较严重,导致不遵循训练数据的 scaling law,但从一步 bellman 变成多步 bellman,就会显著变 work。
  • 故事:
    • 当前 RL 的重大成功(AlphaGo、LLM 对齐)均依赖 on-policy 算法(PPO 等),而 on-policy 在机器人等领域数据效率极低,需实时采样。因此,我们需要 Q-learning 这样的 off-policy 算法,这样,就可以利用各种数据。
    • 然而,Q-learning 难以扩展:即使训练数据变多,多到没有 OOD action、难以过拟合,policy 也没法学会复杂 task,没有像 LLM、大视觉模型的这种 scaling law。更具体的,Seohong Park 指的是,Q-learning 难以掌握需要连续操作 100 步才能解决的复杂 task。
    • 原因:Q-learning 的更新中,max Q 操作导致 over-estimation,且偏差随着决策步数(horizon)累积。而有 scaling law 的监督学习(如 LLM 训练)、对比学习等目标,没有这种偏差累积的问题。
    • 解决方案:Horizon reduction:通过分层 RL、n-step returns 等技术,可以缩短 horizon,显著提升性能与扩展性。
    • 结论:Q-learning 尚未突破深度扩展:需算法革新,非单纯堆数据/模型。
    • 关键研究方向:
    • ① 设计可递归扩展的分层结构,比如 HRL 是两层的,我们可以设计一个无限层的()(Seohong Park 说,可以类比 LLM 的 CoT 推理,但这个我没看懂)。
    • ② 把 bellman 一步更新绕过去,找一些替代方案(如 Quasimetric RL、基于蒙特卡洛的 Contrastive RL)。
    • 这篇博客的 code:https://github.com/seohongpark/horizon-reduction
  • 第二篇提出了“用 state s 与其他所有 state 的距离,来定义 s 的 representation” 的新颖概念。动机源于数学(Riesz定理、核方法、Yoneda引理)中的“通过与其他所有对象的关系来定义对象”的思想。具体的,将一个 state s 的对偶 representation,定义为它与其他 state 的距离函数 d(*,x),然后使用 state embedding 的内积 \(\psi(s')^T\phi(s)\) 来作为距离函数;然后,这一套方法就变成了 metra)

[Quasimetric] On the Learning and Learnability of Quasimetrics

主要内容:

  1. 在故事上,这篇文章说,我们的世界充满了不对称性,比如,重力会让物体到达一个地方比返回原先的位置更容易,社交网络里有单向关注的情况。这种不对称性可以用 quasimetric 来表示,quasimetric 满足 ① 非负性 f(x,y) ≥ 0,② 同一性 f(x,y) = 0 当且仅当 x=x,③ 三角不等式 f(x,y) + f(y,z) ≥ f(x,z),但是不满足 ④ 对称性 f(x,y)=f(y,x)。(quasimetric 和其他 metric 的比较,可参考 博客
  2. 然而,很多模型都不适合拟合 quasimetric,这篇文章给出了一些理论证明来支持这个结论。
  3. 这篇文章提出了 PQE(Poisson Quasimetric Embedding),这是一个基于泊松过程的用来拟合 quasimetric 的可以用 loss.backward() 来优化的方法。主要思想好像是,首先我们把所有的 data 都映射到一个 embedding space 里,然后用某种基于泊松过程的方法,在这个 embedding space 里,天然建立起一种满足三角不等式 但不强制满足对称性的 metric。我不太懂理论,所以没太读懂这篇文章。
  4. (感觉这篇文章的作者,是讲故事的天才,论文的 intro 都写得特别好;完全把 quasimetric 这个概念兜售给我了…

[Quasimetric] Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning

主要内容:貌似是直接利用上面那篇文章的 quasimetric 作为 RL 的 value function。

  • 核心观察:RL 的 value function 在某种程度上是一个 quasimetric,因为从 state x 到 z 的最大 reward,一定大于等于 x → y 的最大 reward + y → z 的最大 reward,所以如果计算 x → z 的 cost 的话,这个 cost 就满足三角不等式。(这跟一些 dp 题非常像,RL 也确实是基于 dp 的)
  • method:这篇文章为这种 quasimetric RL 设计了一套专门的 method。
    • 局部约束:对于数据中的每一个状态转移 (s → s'),模型预测的距离 dθ(s, s') 必须不大于真实的转移 cost -r。这个约束是通过 Lagrange 乘子法处理的。
    • 全局最大化:对于随机采样的状态 s 和目标 g,最大化它们之间的预测距离 dθ(s, g),在满足局部约束和三角不等式的条件下,这个最大值就是最短路径的代价。
  • 主要思想:模型在“遵守局部成本”的约束下,尽力“拉开”所有状态对之间的距离,最终的这个距离就是最优代价(website 上的几个动图很好地说明了这一点)。
  • (没有太认真读,如果有需要的话,会再来读的)

Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

主要内容:

  • alignment 的含义是,正样本之间应该靠的尽可能近;uniform 的含义是,样本点的 embedding 应该尽可能在一个超球面上(向量模长 = 1)均匀分布,deepseek 解读,这可以通过 用一个高斯核函数 惩罚那些靠得太近的特征对 来实现。
  • alignment 和 uniform 不仅是各种 contrastive learning 方法的设计动机,这篇文章发现也可以直接设计这两个 loss 作为对比学习 loss,实现对比学习。并且,这篇文章发现,对于好的对比学习方法,这两个指标都是小的,这是网站里令我印象深刻的几张图。


posted @ 2025-10-02 23:00  MoonOut  阅读(87)  评论(0)    收藏  举报