offline meta RL | 论文速读记录




FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization

主要内容:

  • 这篇文章提出了 fully-offline context-based actor-critic meta-RL algorithm(FOCAL),声称是首个端到端的 model-free 的 offline meta RL 方法。
  • preliminaries:TA-MDP,一个用 task embedding z 来表示 multi-task 的 MDP 定义。其中 state space 是 \(S \times Z\)(原始状态 + task embedding),transition 是 \(P_z(s'|s,a)\) 的形式,reward 是 \(R(s,a,z) = R_z(s,a)\) 的形式。
  • setting:在训练时,给定 N 个 task 的带 reward 和 task 标签的 offline 数据集;在测试时,给出一些新任务的 offline 数据集。
  • method:
    • focal 训练一个 inference network \(q_\phi(z|c)\),用来从 context c 中猜出现在在做什么 task z,其中 context c 是一批 (s,a,s',r) 数据。
    • 训练的方式是,希望相同 task 的 z 聚集,而不同 task 的 z 相互原理,focal 说这本质上是距离度量学习(这听起来像对比学习)。具体的,focal 提出了以下损失函数(Eq 13),第一项把相同 task 拉近,第二项把不同 task 推远:

      \[\mathcal{L}_{dml}(x_i, x_j; q) = \mathbb{1}\{y_i = y_j\} \|q_i - q_j\|^2 + \mathbb{1}\{y_i \neq y_j\} \cdot \frac{\beta}{\|q_i - q_j\|^n + \epsilon} \]

    • Eq 13 是 Eq 12 的改进版,因为 Eq 12 的梯度在高维 z 空间中好像会不 work,而 Eq 13 则没有这种问题。
    • focal 的算法流程:通过 Eq 13 训练 \(q_\phi(z|c)\),同时训练带 z 的 actor 和 critic。拿到新 task 之后,使用新 task 给定的 offline 数据集推断 z,然后使用 \(\pi_\theta(a | s, z)\) 作为策略。
  • 所比较的 baseline:
  • 实验结果:

其他信息:

  • intro 的前两段,在讲 offline 和 meta RL 的动机和故事,第三段就直接提出 focal 了。
  • related work 中提到了大量 meta RL 方法,不过看时间可能都是 19 年之前的,可能会比较老。focal 声称自己与 PEARL 最为相关。
  • focal 只考虑确定性的 MDP,而不考虑状态转移具有随机性的 MDP。
    • 在确定性 MDP 下,给定一个 (s,a) 和对应的 task,存在唯一的 (s', r)。Assumption 1 假设,如果两个 task 的 transition 和 reward 都是一样的,那么它们是同一个 task。由此可以推出,给定一个 \((s,a,s',r)\),可以唯一确定 task。
    • 相关实验【】
  • Finn et al. (2017) and Rakelly et al. (2019) 这两篇文章提出了 meta-RL 的 benchmark,疑似重要,需要 check 一下。还需要 check 一下 offline maml。
  • focal 在优化 actor 和 critic 时,会把 z 冻结住,不会更新 \(q_\phi(z|c)\),论文在 4.3 节使用 disentangle 这个词来说明这件事。
    • 5.2.3 节通过实验说明了这种 disentangle 的必要性。
    • 同时,论文在附录 C 说明,若任务嵌入 \(z_i, z_j\) 过于接近,连续神经网络无法区分其价值函数。如果 Q 函数的 bootstrapping 误差反向传播到 \(q_\phi(z|c)\),会迫使编码器生成相近的的 z 来最小化TD误差,破坏任务可分性。【】没看懂

Unsupervised Behavior Extraction via Random Intent Priors

主要内容:

  • setting:我们拿到了 single-task 的没有 reward 的 offline 数据集,现在想基于这个数据集,学出来可以做相关 task 的策略。
  • method:直接给这个数据集标注 N 个随机 reward,然后训出来 N 个策略,最后使用 PEX 方法进行 offline-to-online。
  • 理论(根据印象 可能有幻觉):
    • Proposition 4.1 指的是,给定一个 policy,总能构造出来一个 reward,使得这个 policy 是这个 reward 下的最优 policy 之一。
    • Theorem 4.2 指的是,只要目标行为在数据集中有较好的覆盖,我们就能有效地学习它。使用大小为 N 的 offline dataset,这样学出来的最好性能与 optimal policy 的差距,可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套,我不懂这些理论。
    • Theorem 4.3 好像指的是,UBER 使用的构造 random reward 的方法可以离 true reward 足够近,是使用岭回归(ridge regression)来证明的,岭回归 我也不懂。
  • 实验:做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容:

结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:

  • 性能超越原始数据:特别是在原始数据质量不高时
  • 分布更加多样:回报分布的熵值显著高于原始数据集和行为克隆方法

结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:

  • 学习速度更快:在相同环境步数下获得更高回报
  • 最终性能更好:在多数任务中达到或接近专家水平

结果3:跨任务迁移能力。在 Meta-World 的多任务实验中,UBER 学到的行为策略能够成功迁移到不同的下游任务,证明了其跨任务泛化能力。可能的原因是,随机奖励产生了通用运动原语(如"接近物体"、“精确控制末端执行器”),这些原语在不同任务间可迁移。

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation

posted @ 2025-12-07 10:35  MoonOut  阅读(26)  评论(0)    收藏  举报