offline meta-RL | 近期工作速读记录
目录
- 📌 近期工作 1
- (UBER) Unsupervised Behavior Extraction via Random Intent Priors [NeurIPS 2023]
- Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [AAAI 2025]
- (CORRO) Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning [ICML 2022]
- Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [NeurIPS 2024]
- Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [NeurIPS 2024]
- Skill-based Meta-Reinforcement Learning [ICLR 2022]
- Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [ICLR 2025]
- Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [AAAI 2024]
- Provably Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [ICLR 2022]
- (UDS) How to Leverage Unlabeled Data in Offline Reinforcement Learning [ICML 2022]
- 📌 近期工作 2
- (IDAQ) Offline Meta Reinforcement Learning with In-Distribution Online Adaptation [ICML 2023]
- Context Shift Reduction for Offline Meta-Reinforcement Learning [NeurIPS 2023]
- Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [NeurIPS 2025]
- Efficient Offline Meta-Reinforcement Learning via Robust Task Representations and Adaptive Policy Generation [IJCAI 2024]
- Meta-Reinforcement Learning via Exploratory Task Clustering [AAAI 2024]
- Contextual Transformer for Offline Meta Reinforcement Learning [NeurIPS 2022 workshop]
- Model-Based Offline Meta-Reinforcement Learning with Regularization
- Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [AAAI 2025]
- Offline Meta-Reinforcement Learning with Online Self-Supervision [ICML 2022]
也请参见:offline meta-RL | 经典论文速读记录
📌 近期工作 1
(UBER) Unsupervised Behavior Extraction via Random Intent Priors [NeurIPS 2023]
- arxiv:https://arxiv.org/abs/2310.18687
- pdf:https://arxiv.org/pdf/2310.18687
- html:https://ar5iv.labs.arxiv.org/html/2310.18687
- 来源:师兄的工作,NeurIPS 2023。感谢师弟的讲解。
- 参考博客:直接看这个好了,CSDN | 【论文阅读笔记】UBER:用随机意图从无奖励数据中提取有用行为
主要内容:
- setting:我们拿到了 single-task 的没有 reward 的 offline 数据集,现在想基于这个数据集,学出来可以做相关 task 的策略。
- method:直接给这个数据集标注 N 个随机 reward,然后训出来 N 个策略,最后使用 PEX 方法进行 offline-to-online。
- 理论(根据印象 可能有幻觉):
- Proposition 4.1 指的是,给定一个 policy,总能构造出来一个 reward,使得这个 policy 是这个 reward 下的最优 policy 之一。
- Theorem 4.2 指的是,只要目标行为在数据集中有较好的覆盖,我们就能有效地学习它。使用大小为 N 的 offline dataset,这样学出来的最好性能与 optimal policy 的差距,可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套,我不懂这些理论。
- Theorem 4.3 好像指的是,UBER 使用的构造 random reward 的方法可以离 true reward 足够近,是使用岭回归(ridge regression)来证明的,岭回归 我也不懂。
- 实验:做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容:
结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:
- 性能超越原始数据:特别是在原始数据质量不高时
- 分布更加多样:回报分布的熵值显著高于原始数据集和行为克隆方法
结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:
- 学习速度更快:在相同环境步数下获得更高回报
- 最终性能更好:在多数任务中达到或接近专家水平
结果3:跨任务迁移能力。在 Meta-World 的多任务实验中,UBER 学到的行为策略能够成功迁移到不同的下游任务,证明了其跨任务泛化能力。可能的原因是,随机奖励产生了通用运动原语(如"接近物体"、“精确控制末端执行器”),这些原语在不同任务间可迁移。
Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [AAAI 2025]
- arxiv:https://arxiv.org/abs/2412.14834
- GitHub:https://github.com/MohammadrezaNakhaei/ER-TRL
- 来源:之前的速读,AAAI 2025。
- 参考博客:论文速读记录 | 2024.12
主要内容:
- task encoder \(e(z|c)\) 可能会耦合 behavior policy \(\pi_\beta\)(即生成 offline dataset 的那些 policy)的信息,导致 inference 时,当 agent 遇到 OOD 的 transition 时,encoder 无法推断出正确的 task。
- 为此,我们希望去最小化 task encoder \(e(z|c)\) 和 behavior policy \(\pi_\beta\) 之间的互信息;通过一个 GAN 来模拟 behavior policy \(\pi_\beta\),其中 generator 用来生成以假乱真的 action, discriminator 用来区分真假 action。
- 最小化这个互信息,好像等于最大化 \(H(\pi_\beta | p(z_i))\) 的熵;具体细节还没看。
(CORRO) Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning [ICML 2022]
- arxiv:https://arxiv.org/abs/2206.10442
- pdf:https://arxiv.org/pdf/2206.10442
- html:https://ar5iv.labs.arxiv.org/html/2206.10442
- 来源:无意中搜到的,ICML 2022。
kimi 速读:
- 这篇文章似乎是 focal 的直接改进。
- corro 似乎有 3 个贡献:
- 声称 focal 用来得到 z 的 encoder \(q(z | \tau_{:t})\) 基于一整段轨迹,因此学到的 z 容易受行为策略影响。corro 使用 \(q(z | (s,a,r,s'))\) 这样的形式来得到 z,然后把每个 transition 的 z,使用一个极简版的 self-attention 加权求和,weights = softmax(MLP(z_i) for each i) ,z = sum(weights_i * z_i),得到最终的 z。
- 这个 encoder \(q(z | (s,a,r,s'))\) 的具体训练,与 focal 不同,使用了对比学习的 InfoNCE loss。正样本对是同一个 task 里的两个 transition,而负样本对是特意构造的难负样本,保持 (s,a) 相同,但从其他任务中采样对应的 (r,s')。
- 具体的,corro 提出两种方法得到 (r,s'):1 用条件 VAE 训练(没细看),2 直接对 reward 加高斯噪声 \(r^* = r + \nu\)。
- 似乎有一个值得看的理论,证明 InfoNCE loss 是什么互信息的下界,好奇这个理论具体证明了什么。
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [NeurIPS 2024]
- arxiv:https://arxiv.org/abs/2410.11448
- pdf:https://arxiv.org/pdf/2410.11448
- html:https://arxiv.org/html/2410.11448v2
- 来源:看起来是使用 DT 的 offline meta-RL,NeurIPS 2024。
kimi 速读:
- 之前已经有用 decision transformer 架构做 offline meta-RL 的工作,如 prompt-DT、generalized DT(即 HIM)等。DT 天生就是 offline 的。
- 但是,prompt-DT 在测试时需要专家轨迹作为 prompt,GDT 则需要预先提供 task 的统计信息做 hindsight。Meta-DT 声称,这些方法的共同问题是,测试时依赖领域知识或专家数据,这些数据现实中很难获取,而 meta-DT 在测试时只需要 agent 与 task 的交互数据,不需要这些专家数据或者领域知识。
- method:meta-DT 主要训了两个模块:
- off-policy 的预训练世界模型,使用 GRU + MLP 训一个 encoder,输入是 \(\tau_{:t}\),输出是 \(z_t\),然后使用 decoder 预测 (r,s')。训练完之后,这个 encoder-decoder 就冻结。
- meta-DT 的 DT 模型:对每个训练任务,选 offline 数据中 return 最高的几条轨迹作为"演示库",然后随机采样一条 K 步轨迹片段 \(\tau\),用冻结的 encoder 给这个轨迹标上 z 信息,把这两部分轨迹直接拼起来,构造出来 \((R^*_1, s^*_1, a^*_1, R^*_2, s^*_2, a^*_2, z_1, R_1, s_1, a_1, z_2, R_2, s_2, a_2)\) 这样的 sequence,输入给 DT,预测下一时刻 action。
- 测试环节:
- 在 few-shot 模式中,首先在新任务上瞎跑 1-5 个 episode,收集轨迹,然后把收集的轨迹喂给世界模型,选预测误差最大的 k 步,构造提示 τ,最后在正式评估中,每步用最近 K 步历史 + τ 做决策。
- 在 zero-shot 模式中,我们直接评估,不预先收集任何数据,不使用 τ* 的 prompt,只使用 \(\tau\) 作为 prompt。
- 实验:在 few-shot 的 setting 里,meta-DT 超过了 baseline。在 zero-shot setting(不允许提前收集任何数据,agent 直接在新环境上一边交互一边实时推断任务)里,meta-DT 相比 baseline 更加占优势。
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [NeurIPS 2024]
- arxiv:https://arxiv.org/abs/2402.02429
- pdf:https://arxiv.org/pdf/2402.02429
- html:https://arxiv.org/html/2402.02429
- 好像是提出了一个统一的框架,来总结现有的 offline meta-RL 方法。
Skill-based Meta-Reinforcement Learning [ICLR 2022]
- arxiv:https://arxiv.org/abs/2204.11828
- 看起来是使用跟 skill 有关的方法,从 offline dataset 里学一个 meta 策略。
Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [ICLR 2025]
- arxiv:https://arxiv.org/abs/2405.12001
- 有可能有点相关。
Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [AAAI 2024]
- arxiv:
- 有可能有点相关,是 OMRL 的最新工作。
Provably Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [ICLR 2022]
- arxiv:https://arxiv.org/abs/2102.10774
- pdf:https://arxiv.org/pdf/2102.10774
- html:https://ar5iv.labs.arxiv.org/html/2102.10774
- 来源:ICLR 2022。好像改进了 focal,使用任务内部的 attention 机制和任务间的对比学习,根据论文标题,还有理论证明。
(UDS) How to Leverage Unlabeled Data in Offline Reinforcement Learning [ICML 2022]
- arxiv:https://arxiv.org/abs/2202.01741
- pdf:https://arxiv.org/pdf/2202.01741
- html:https://ar5iv.labs.arxiv.org/html/2202.01741
- 来源:ICML 2022。跟我们关注的 setting 是像的,都关注没有 reward label 的 offline 数据集。好像直接拿 zero reward 来作为 reward。
好像基于 CDS 和 UDS,但听说这两个方法不太可复现。
📌 近期工作 2
(IDAQ) Offline Meta Reinforcement Learning with In-Distribution Online Adaptation [ICML 2023]
- arxiv:https://arxiv.org/abs/2305.19529
- pdf:https://arxiv.org/pdf/2305.19529
- html:https://ar5iv.labs.arxiv.org/html/2305.19529
- 来源:师弟推荐的工作,ICML 2023。
- 参考博客:CSDN |【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应
- (就算有博客,也还是看不太懂,一是不太了解 multi-task 的具体 setting,二是不太能 get 到 offline 他们讲的 distribution shift 故事…… 找时间好好学一下,可能先看看 focal
- baseline:FOCAL、MACAW、BOReL。
Context Shift Reduction for Offline Meta-Reinforcement Learning [NeurIPS 2023]
- arxiv:https://arxiv.org/abs/2311.03695
- 感觉想解决的问题,好像跟 IDAQ 是类似的,都是去 address offline dataset 和我们真正 rollout 出来的数据的分布不一致。
Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [NeurIPS 2025]
- arxiv:https://arxiv.org/abs/2504.15046
- 看起来是最新的结合 LLM 的 offline meta-RL 工作。
Efficient Offline Meta-Reinforcement Learning via Robust Task Representations and Adaptive Policy Generation [IJCAI 2024]
- 可以看 abstract 的网页:https://dl.acm.org/doi/10.24963/ijcai.2024/500
- pdf:https://www.ijcai.org/proceedings/2024/0500.pdf
- 来源:无意中搜到的,IJCAI 2024。看 abstract 感觉解决的不是很重要的问题,但好像是有趣的,不着急看。
Meta-Reinforcement Learning via Exploratory Task Clustering [AAAI 2024]
- arxiv:https://arxiv.org/abs/2302.07958
- pdf:https://arxiv.org/pdf/2302.07958
- html:https://ar5iv.labs.arxiv.org/html/2302.07958
- 来源:师弟的论文 list,AAAI 2024。看 abstract 感觉没有解决特别重要的问题,但因为是 task clustering,所以想看一下。
Contextual Transformer for Offline Meta Reinforcement Learning [NeurIPS 2022 workshop]
- arxiv:https://arxiv.org/abs/2211.08016
- 是 workshop 文章。简单看看吧。
Model-Based Offline Meta-Reinforcement Learning with Regularization
- arxiv:https://arxiv.org/abs/2202.02929
- model-based 的 offline meta-RL。
Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [AAAI 2025]
- arxiv:
- 可能有一点相关。
Offline Meta-Reinforcement Learning with Online Self-Supervision [ICML 2022]
- arxiv:https://arxiv.org/abs/2107.03974
- pdf:https://arxiv.org/pdf/2107.03974
- html:https://ar5iv.labs.arxiv.org/html/2107.03974
- 来源:疑似是 offline meta-RL + offline-to-online 的文章,ICML 2022。感觉不着急读。
感谢师弟和参考博客的讲解🍵

浙公网安备 33010602011771号