offline meta RL | 论文速读记录
目录
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization
- arxiv:https://arxiv.org/abs/2010.01112
- pdf:https://arxiv.org/pdf/2010.01112
- html:https://ar5iv.labs.arxiv.org/html/2010.01112
- GitHub:https://github.com/LanqingLi1993/FOCAL-latest
- 参考博客:CSDN | 【论文阅读笔记】FOCAL 离线元强化学习,从静态数据中快速适应新任务
- 来源:ICLR 2021,好像是 offline meta-RL 的经典文章。
主要内容:
- 这篇文章提出了 fully-offline context-based actor-critic meta-RL algorithm(FOCAL),声称是首个端到端的 model-free 的 offline meta RL 方法。
- preliminaries:TA-MDP,一个用 task embedding z 来表示 multi-task 的 MDP 定义。其中 state space 是 \(S \times Z\)(原始状态 + task embedding),transition 是 \(P_z(s'|s,a)\) 的形式,reward 是 \(R(s,a,z) = R_z(s,a)\) 的形式。
- setting:在训练时,给定 N 个 task 的带 reward 和 task 标签的 offline 数据集;在测试时,给出一些新任务的 offline 数据集。
- method:
- focal 训练一个 inference network \(q_\phi(z|c)\),用来从 context c 中猜出现在在做什么 task z,其中 context c 是一批 (s,a,s',r) 数据。
- 训练的方式是,希望相同 task 的 z 聚集,而不同 task 的 z 相互原理,focal 说这本质上是距离度量学习(这听起来像对比学习)。具体的,focal 提出了以下损失函数(Eq 13),第一项把相同 task 拉近,第二项把不同 task 推远:\[\mathcal{L}_{dml}(x_i, x_j; q) = \mathbb{1}\{y_i = y_j\} \|q_i - q_j\|^2 + \mathbb{1}\{y_i \neq y_j\} \cdot \frac{\beta}{\|q_i - q_j\|^n + \epsilon} \]
- Eq 13 是 Eq 12 的改进版,因为 Eq 12 的梯度在高维 z 空间中好像会不 work,而 Eq 13 则没有这种问题。
- focal 的算法流程:通过 Eq 13 训练 \(q_\phi(z|c)\),同时训练带 z 的 actor 和 critic。拿到新 task 之后,使用新 task 给定的 offline 数据集推断 z,然后使用 \(\pi_\theta(a | s, z)\) 作为策略。
- 所比较的 baseline:
- 实验结果:
其他信息:
- intro 的前两段,在讲 offline 和 meta RL 的动机和故事,第三段就直接提出 focal 了。
- related work 中提到了大量 meta RL 方法,不过看时间可能都是 19 年之前的,可能会比较老。focal 声称自己与 PEARL 最为相关。
- focal 只考虑确定性的 MDP,而不考虑状态转移具有随机性的 MDP。
- 在确定性 MDP 下,给定一个 (s,a) 和对应的 task,存在唯一的 (s', r)。Assumption 1 假设,如果两个 task 的 transition 和 reward 都是一样的,那么它们是同一个 task。由此可以推出,给定一个 \((s,a,s',r)\),可以唯一确定 task。
- 相关实验【】
- Finn et al. (2017) and Rakelly et al. (2019) 这两篇文章提出了 meta-RL 的 benchmark,疑似重要,需要 check 一下。还需要 check 一下 offline maml。
- focal 在优化 actor 和 critic 时,会把 z 冻结住,不会更新 \(q_\phi(z|c)\),论文在 4.3 节使用 disentangle 这个词来说明这件事。
- 5.2.3 节通过实验说明了这种 disentangle 的必要性。
- 同时,论文在附录 C 说明,若任务嵌入 \(z_i, z_j\) 过于接近,连续神经网络无法区分其价值函数。如果 Q 函数的 bootstrapping 误差反向传播到 \(q_\phi(z|c)\),会迫使编码器生成相近的的 z 来最小化TD误差,破坏任务可分性。【】没看懂
Unsupervised Behavior Extraction via Random Intent Priors
- arxiv:https://arxiv.org/abs/2310.18687
- 来源:师兄的工作。感谢师弟的讲解。
- 参考博客:直接看这个好了,CSDN | 【论文阅读笔记】UBER:用随机意图从无奖励数据中提取有用行为
主要内容:
- setting:我们拿到了 single-task 的没有 reward 的 offline 数据集,现在想基于这个数据集,学出来可以做相关 task 的策略。
- method:直接给这个数据集标注 N 个随机 reward,然后训出来 N 个策略,最后使用 PEX 方法进行 offline-to-online。
- 理论(根据印象 可能有幻觉):
- Proposition 4.1 指的是,给定一个 policy,总能构造出来一个 reward,使得这个 policy 是这个 reward 下的最优 policy 之一。
- Theorem 4.2 指的是,只要目标行为在数据集中有较好的覆盖,我们就能有效地学习它。使用大小为 N 的 offline dataset,这样学出来的最好性能与 optimal policy 的差距,可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套,我不懂这些理论。
- Theorem 4.3 好像指的是,UBER 使用的构造 random reward 的方法可以离 true reward 足够近,是使用岭回归(ridge regression)来证明的,岭回归 我也不懂。
- 实验:做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容:
结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:
- 性能超越原始数据:特别是在原始数据质量不高时
- 分布更加多样:回报分布的熵值显著高于原始数据集和行为克隆方法
结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:
- 学习速度更快:在相同环境步数下获得更高回报
- 最终性能更好:在多数任务中达到或接近专家水平
结果3:跨任务迁移能力。在 Meta-World 的多任务实验中,UBER 学到的行为策略能够成功迁移到不同的下游任务,证明了其跨任务泛化能力。可能的原因是,随机奖励产生了通用运动原语(如"接近物体"、“精确控制末端执行器”),这些原语在不同任务间可迁移。
Offline Meta Reinforcement Learning with In-Distribution Online Adaptation
- arxiv:https://arxiv.org/abs/2305.19529
- 来源:师弟推荐的工作。感谢师弟的讲解。
- 参考博客:直接看这个好了,【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应
- (就算有博客,也还是看不太懂,一是不太了解 multi-task 的具体 setting,二是不太能 get 到 offline 他们讲的 distribution shift 故事…… 找时间好好学一下,可能先看看 focal

浙公网安备 33010602011771号