offline meta-RL | 近期工作速读记录

📌 近期工作 1
📌 近期工作 2

📌 近期工作 1

(UBER) Unsupervised Behavior Extraction via Random Intent Priors [NeurIPS 2023]

arxiv：https://arxiv.org/abs/2310.18687
pdf：https://arxiv.org/pdf/2310.18687
html：https://ar5iv.labs.arxiv.org/html/2310.18687
来源：师兄的工作，NeurIPS 2023。感谢师弟的讲解。
参考博客：直接看这个好了，CSDN | 【论文阅读笔记】UBER：用随机意图从无奖励数据中提取有用行为

主要内容：

setting：我们拿到了 single-task 的没有 reward 的 offline 数据集，现在想基于这个数据集，学出来可以做相关 task 的策略。
method：直接给这个数据集标注 N 个随机 reward，然后训出来 N 个策略，最后使用 PEX 方法进行 offline-to-online。
理论（根据印象可能有幻觉）：
- Proposition 4.1 指的是，给定一个 policy，总能构造出来一个 reward，使得这个 policy 是这个 reward 下的最优 policy 之一。
- Theorem 4.2 指的是，只要目标行为在数据集中有较好的覆盖，我们就能有效地学习它。使用大小为 N 的 offline dataset，这样学出来的最好性能与 optimal policy 的差距，可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套，我不懂这些理论。
- Theorem 4.3 好像指的是，UBER 使用的构造 random reward 的方法可以离 true reward 足够近，是使用岭回归（ridge regression）来证明的，岭回归我也不懂。
实验：做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容：

结果 1：随机意图确实产生多样且高质量行为。实验显示，UBER提取的行为策略：

性能超越原始数据：特别是在原始数据质量不高时

分布更加多样：回报分布的熵值显著高于原始数据集和行为克隆方法

结果 2：在线学习加速显著。在Mujoco运动任务中，UBER相比基线方法：

学习速度更快：在相同环境步数下获得更高回报

最终性能更好：在多数任务中达到或接近专家水平

结果3：跨任务迁移能力。在 Meta-World 的多任务实验中，UBER 学到的行为策略能够成功迁移到不同的下游任务，证明了其跨任务泛化能力。可能的原因是，随机奖励产生了通用运动原语（如"接近物体"、“精确控制末端执行器”），这些原语在不同任务间可迁移。

Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [AAAI 2025]

arxiv：https://arxiv.org/abs/2412.14834
GitHub：https://github.com/MohammadrezaNakhaei/ER-TRL
来源：之前的速读，AAAI 2025。
参考博客：论文速读记录 | 2024.12

主要内容：

task encoder \(e(z|c)\) 可能会耦合 behavior policy \(\pi_\beta\)（即生成 offline dataset 的那些 policy）的信息，导致 inference 时，当 agent 遇到 OOD 的 transition 时，encoder 无法推断出正确的 task。
为此，我们希望去最小化 task encoder \(e(z|c)\) 和 behavior policy \(\pi_\beta\) 之间的互信息；通过一个 GAN 来模拟 behavior policy \(\pi_\beta\)，其中 generator 用来生成以假乱真的 action， discriminator 用来区分真假 action。
最小化这个互信息，好像等于最大化 \(H(\pi_\beta | p(z_i))\) 的熵；具体细节还没看。

(CORRO) Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning [ICML 2022]

arxiv：https://arxiv.org/abs/2206.10442
pdf：https://arxiv.org/pdf/2206.10442
html：https://ar5iv.labs.arxiv.org/html/2206.10442
来源：无意中搜到的，ICML 2022。

kimi 速读：

这篇文章似乎是 focal 的直接改进。
corro 似乎有 3 个贡献：
1. 声称 focal 用来得到 z 的 encoder \(q(z | \tau_{:t})\) 基于一整段轨迹，因此学到的 z 容易受行为策略影响。corro 使用 \(q(z | (s,a,r,s'))\) 这样的形式来得到 z，然后把每个 transition 的 z，使用一个极简版的 self-attention 加权求和，weights = softmax(MLP(z_i) for each i) ，z = sum(weights_i * z_i)，得到最终的 z。
2. 这个 encoder \(q(z | (s,a,r,s'))\) 的具体训练，与 focal 不同，使用了对比学习的 InfoNCE loss。正样本对是同一个 task 里的两个 transition，而负样本对是特意构造的难负样本，保持 (s,a) 相同，但从其他任务中采样对应的 (r,s')。
3. 具体的，corro 提出两种方法得到 (r,s')：1 用条件 VAE 训练（没细看），2 直接对 reward 加高斯噪声 \(r^* = r + \nu\)。
似乎有一个值得看的理论，证明 InfoNCE loss 是什么互信息的下界，好奇这个理论具体证明了什么。

Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [NeurIPS 2024]

arxiv：https://arxiv.org/abs/2410.11448
pdf：https://arxiv.org/pdf/2410.11448
html：https://arxiv.org/html/2410.11448v2
来源：看起来是使用 DT 的 offline meta-RL，NeurIPS 2024。

kimi 速读：

之前已经有用 decision transformer 架构做 offline meta-RL 的工作，如 prompt-DT、generalized DT（即 HIM）等。DT 天生就是 offline 的。
但是，prompt-DT 在测试时需要专家轨迹作为 prompt，GDT 则需要预先提供 task 的统计信息做 hindsight。Meta-DT 声称，这些方法的共同问题是，测试时依赖领域知识或专家数据，这些数据现实中很难获取，而 meta-DT 在测试时只需要 agent 与 task 的交互数据，不需要这些专家数据或者领域知识。
method：meta-DT 主要训了两个模块：
1. off-policy 的预训练世界模型，使用 GRU + MLP 训一个 encoder，输入是 \(\tau_{:t}\)，输出是 \(z_t\)，然后使用 decoder 预测 (r,s')。训练完之后，这个 encoder-decoder 就冻结。
2. meta-DT 的 DT 模型：对每个训练任务，选 offline 数据中 return 最高的几条轨迹作为"演示库"，然后随机采样一条 K 步轨迹片段 \(\tau\)，用冻结的 encoder 给这个轨迹标上 z 信息，把这两部分轨迹直接拼起来，构造出来 \((R^*_1, s^*_1, a^*_1, R^*_2, s^*_2, a^*_2, z_1, R_1, s_1, a_1, z_2, R_2, s_2, a_2)\) 这样的 sequence，输入给 DT，预测下一时刻 action。
测试环节：
- 在 few-shot 模式中，首先在新任务上瞎跑 1-5 个 episode，收集轨迹，然后把收集的轨迹喂给世界模型，选预测误差最大的 k 步，构造提示 τ，最后在正式评估中，每步用最近 K 步历史 + τ 做决策。
- 在 zero-shot 模式中，我们直接评估，不预先收集任何数据，不使用 τ* 的 prompt，只使用 \(\tau\) 作为 prompt。
实验：在 few-shot 的 setting 里，meta-DT 超过了 baseline。在 zero-shot setting（不允许提前收集任何数据，agent 直接在新环境上一边交互一边实时推断任务）里，meta-DT 相比 baseline 更加占优势。

(UNICORN) Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [NeurIPS 2024]

arxiv：https://arxiv.org/abs/2402.02429
pdf：https://arxiv.org/pdf/2402.02429
html：https://arxiv.org/html/2402.02429
GitHub：https://github.com/betray12138/UNICORN
提出了一个统一的信息论框架，来总结现有的 offline meta-RL 方法。

定义 \(X_t = (s', r), X_b = (s, a), X = (X_b, X_t)\)。

focal 在最大化 \(I(Z, X)\)，corro 在最大化 \(I(Z, X_t | X_b)\)，然而我们真正想最大化的互信息 \(I(Z, M)\)（M 相当于是真的 task 信息），满足 \(I(Z, X_t | X_b) \le I(Z, M) \le I(Z, X)\)。

因此，unicorn 提出 \(\lambda I(Z, X) + (1-\lambda) I(Z, X_t | X_b)\) 的 loss。然而这个 loss 貌似无法直接优化，因此 unicorn 使用一个与 encoder \(q(z | c)\) 配套的 decoder \(p_\theta(x_t | z, x_b)\)，然后将以上加权 loss 的形式，转化为 \(L_\text{focal} + L_{recon}\)，其中 \(L_{recon}\) 是 decoder 的 reconstruction loss。

(SiMPL) Skill-based Meta-Reinforcement Learning [ICLR 2022]

arxiv：https://arxiv.org/abs/2204.11828
看起来是使用跟 skill 有关的方法，从 offline dataset 里学一个 meta 策略。
参考博客：CSDN | 【论文阅读笔记-meta rl】SiMPL：技能驱动的元强化学习

Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [ICLR 2025]

arxiv：https://arxiv.org/abs/2405.12001
有可能有点相关。
参考博客：CSDN | 【论文阅读笔记-meta rl】上下文离线元强化学习中的任务表征偏移控制 (Reining In Task Representation Shift Of COMRL)
这篇文章把 1. 学 task encoder 2. 学 condition on z 的 policy，建模为了一个双层优化问题，认为不能一味学 task encoder，这样可能导致 encoder 对后续的学 policy 来说是次优的。没太听明白这篇文章的出发点。这篇文章没有 baseline。

Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [AAAI 2024]

arxiv：https://arxiv.org/abs/2312.15909
有可能有点相关，是 OMRL 的最新工作。

(FOCAL++) Provably Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [ICLR 2022]

arxiv：https://arxiv.org/abs/2102.10774
pdf：https://arxiv.org/pdf/2102.10774
html：https://ar5iv.labs.arxiv.org/html/2102.10774
来源：ICLR 2022。好像改进了 focal，使用任务内部的 attention 机制和任务间的对比学习，根据论文标题，还有理论证明。

内容总结：

FOCAL++ 比 focal 主要做了两个改进：1. 注意力机制（自动关注重要数据），2. 改进的对比学习（更好地区分任务），解决了现有方法在奖励稀疏和数据分布不一致时效果差的问题。
故事：
- focal 可能面临三个问题：1. 稀疏奖励：数据中很多奖励 = 0 的样本，如果 transition 再不一样的话，编码器无法区分任务。2. MDP ambiguity：编码器把训练数据的特征（如状态分布）认为是 task 特征。3. 任务表示不准：编码器输出的任务向量方差大、不稳定，导致策略性能差。
- motivation：现有方法 focal 假设 "每个 (s,a,r,s') 数据点都能唯一对应一个任务" ，这在稀疏奖励下不成立。作者想让 encoder 更聪明地关注关键信息，并理论上保证学到的任务表示更好。
method：
- Batch-Wise Gated Attention：在计算 z = q(transition) 时，使用一个小网络，为每一个 transition 算一个权重，然后得到加权的 z。
- Sequence-wise Self-Attention：把 encoder q 的架构改成了 transformer，让 (s,a,r,s') 作为四个序列 token。
- encoder q 使用对比学习来学。focal++ 使用一种增强的对比学习：
- 首先，我们维护一个快编码器（query）和慢编码器（key，这个在技术上有点像 DDQN 中的 target 网络），其中 key 使用动量更新，key = 0.9 * key + 0.1 * query。
- 然后，我们做无监督对比学习时，一次让 encoder 去优化多个不同的 task。具体的，我们使用 T 个任务的 batch，每个任务的 batch 里有 N 个样本。然后我们对每个任务，用 Query 编码器得 T 个查询向量 z^q，用 Key 编码器得 T 个键向量 z^k，最后计算 T×T 相似度矩阵：M[i,j] = similarity(z^q_i, z^k_j)。
- 目标：矩阵对角线（i=j）的相似度最大化，非对角线最小化。
理论：
- focal++ 声称，这个矩阵形式的对比学习实际上在做 T-way 分类（一次区分 T 个任务），这等价于有监督学习。
- 定理 3.2 证明，L_sup(E) 理想有监督损失（需要全标签） ≤ L_sup^μ(E) 均值分类器损失（FOCAL++ 实际优化的）≤ L_un(E) 传统无监督对比损失（FOCAL 用的）。没细看是怎么证的。
- 定理 3.3 证明，attention 可以降低方差。看起来像是初等数学理论，应该能看懂。
实验：
- baseline：因为这篇文章比较早，只比 focal 晚一点点，所以 baseline 还是 focal、offline pearl、Contextual BCQ、mbml。
- metric：1. Testing Return，在测试任务上，用学习到的策略跑 100 条轨迹，计算平均 return。2. 嵌入方差（Embedding Variance），各类任务的向量 z 在 latent space 的方差，按维度平均。认为方差越小，表示越稳定，同类任务聚类越紧。3. 鲁棒性：训练集分布 ≠ 推断 task 用的数据分布时的性能下降 Δ，下降越小，说明越鲁棒，task encoder 里耦合的行为策略信息就越少。
- 所有方法都用相同离线数据集、相同训练步数、相同网络结构（除了编码器部分）。offline 数据看起来是自己收集的，有各种数据质量。做了训练集分布 ≠ 推断数据分布的分布偏移测试（table 3）。
- 感觉实验做的很有趣，设计了很多 distributional shift 的测试。

(UDS) How to Leverage Unlabeled Data in Offline Reinforcement Learning [ICML 2022]

arxiv：https://arxiv.org/abs/2202.01741
pdf：https://arxiv.org/pdf/2202.01741
html：https://ar5iv.labs.arxiv.org/html/2202.01741
来源：ICML 2022。跟我们关注的 setting 是像的，都关注没有 reward label 的 offline 数据集。好像直接拿 zero reward 来作为 reward。
好像提出了 UDS，但听说 CDS 和 UDS 不太可复现。

主要内容：

故事：
- 离线强化学习（Offline RL）依赖大量带奖励标签的静态数据集，但人工标注奖励成本极高，而收集无标签的交互数据却很便宜。如何利用这些未标记数据来辅助策略学习？
- 然而，这件事好像是很难的。标签缺失：offline RL 无法通过交互验证奖励正确性，错误奖励会误导策略。分布偏移：未标注数据来自不同任务/策略，直接混合会加剧分布不匹配。风险累积：奖励预测误差会在 Bellman 备份中累积，导致策略崩溃。
setting：
- 输入：少量标记 gt reward 的数据 DL + 未标记 reward 的数据 DU。输出：训练好的策略 π。
- DL 的数据质量相对较高，可能是 expert 或 medium。DU 里面可能包含好数据，但更多数据质量低、random，或根本不在做这个 task。
method：
- 极简版：1. 数据合并：把 DU 中所有 transition 的奖励 r 设为 0（或最小奖励），与 DL 合并成 Deff；2. 离线 RL 训练：在 Deff 上直接运行标准的保守离线 RL 算法（如 CQL），直接返回训练得到的策略。不过这里 CQL 约束 policy 贴近的行为策略，并不是 DL 的行为策略，而是 DL+DU 的。
- 进阶版：CDS + UDS，在 UDS 基础上，对未标记数据进行加权，根据 Q 值判断哪些未标记样本更有用，给它们更高权重。权重计算：w = σ((Q(s,a) - Q percentile) / τ)，其中 Q percentile 是标记数据 DL 上 Q 值的某个百分位数。如果 DU 中的 (s,a) 的 Q 值 < Q 的某个百分位数，相当于这个 (s,a) 是明显不好的，那么我们就不使用它。这个加权策略来自"Conservative Data Sharing"（CDS），原本用于全标记数据，现在直接套用到零奖励的未标记数据上。
实验：
- 貌似，UDS 超过了很多 reward learning 的 baseline（这听起来一点也不符合直觉），CDS + USD 可以进一步提高性能，性能甚至接近全部有 gt reward 的情况。
- multi-task：在 Meta-World 和视觉操控任务上，UDS 平均成功率提升 10-15%，CDS+UDS 进一步提升至与 Oracle 相当。
- 反直觉：即使 60% 的未标注数据实际是"成功"（奖励应为 1），设为零仍有效。
- 失败情况：当标记数据本身已足够好，且未标记数据质量也低时，UDS 可能引入噪声，性能下降。
讨论：
- 必须使用 CQL 等能控制分布偏移的算法，普通 off-policy 方法会失败。
- 未标注数据需足够大，才能抵消奖励偏差（理论要求 |Deff| = Ω(H²|DL|)，H 为任务长度）。
- 分布关系：当标注与未标注数据分布相似时最优；未标注数据质量越高，重加权越重要。
- （这篇文章是不是只能说明，offline RL 的性能如何，除了看算法设计、reward 标注，还很看数据集质量（）
理论：
- 论文的核心定理（Theorem 4.1）给出了一个性能保证：使用 UDS 学到的策略，比合并数据集的行为策略好多少。关键公式：J(π_UDS) ≥ J(π_β^eff) - [奖励偏差项(a)] - [采样误差项(b)] + [策略改进项(c)]
- 然后，把定理 4.1 的三项进行分解：对于奖励偏差项 (a)，如果 DU 数据质量差（r≈0）或策略很少访问这些状态，这项就很小。对于采样误差项 (b)，分母 |Deff(s)| 说明，合并后的数据量越大，误差越小，因此 UDS 希望用大量 DU 数据把这项压下去。对于策略改进项 (c)，UDS 声称，只要用的保守离线 RL 算法（如 CQL）正常工作，策略一定会比行为策略好。
- Theorem 4.2 & 4.3 好像是对 CDS+UDS 的支持。

kimi 对实验的总结：

1 实验 Setting（任务与 Benchmark）

单任务实验：

Hopper：2D弹跳机器人，目标是往前跳得远。输入是机器人11维状态（关节角度+速度），输出是3维动作（关节力矩）
AntMaze：四足蚂蚁在迷宫里导航。输入是27维状态（蚂蚁姿态+速度），输出是8维动作。目标是走到目标点

多任务实验：

Meta-World：机械臂开关门/抽屉。4个任务（开门/关门/开抽屉/关抽屉）。输入是9维状态（手臂位置+物体状态），输出是4维动作。奖励是0/1（成功/失败）
视觉操控：机器臂抓取7种物体放到3种容器。输入是472×472×3图像+状态，输出是6维动作。奖励0/1
Walker：2D人形机器人完成3个任务（往前跑/往后跑/跳）。奖励是密集奖励（速度+能量消耗）

数据构成：

标记数据DL：10k条专家演示（成功率近100%）
未标记数据DU：1M条随机或中等质量数据（成功率0%-60%）
关键挑战：DU中60%的数据实际该得奖励1，但被我们强行标为0

2 Baseline对比方法

方法	简介	是否用DU	是否需要真实奖励
No Sharing	只用 DL 训练，无视 DU	否	否（只用 DL）
Reward Predictor	用 DL 训练奖励模型，给 DU 打标签再训练	是	是（预测奖励）
VICE / RCE	逆强化学习方法，从 DL 学奖励函数	是	否（学奖励）
CDS	用 Q 值筛选 DU 共享（需真实奖励）	是	是（Oracle）
Sharing All	用真实奖励给 DU 打标签（上限）	是	是（Oracle）
COMBO	基于模型的离线 RL，学环境动态模型	是（间接）	否
ACL	用 DU 预训练表示，再跑 No Sharing	否（只用表示）	否

arxiv：https://arxiv.org/abs/2109.08128
pdf：https://arxiv.org/pdf/2109.08128
html：https://ar5iv.labs.arxiv.org/html/2109.08128
来源：上面那篇 UDS 提到的方法，一作是同一个人。NeurIPS 2021。

总结：

setting：offline multi-task RL。
故事：
- 在离线多任务强化学习中，如何智能地在不同任务间共享数据？直接把所有任务的数据混在一起用（重标记）会损害性能，但不共享又数据不足。
- 然而，可能会有两个问题。分布偏移：离线 RL 最怕策略偏离数据分布，导致Q值过估计。多任务共享会加剧这个问题：其他任务的数据分布可能与目标任务差异巨大。难以判断：哪些数据对目标任务真的有帮助？传统方法要么全用要么不用，缺乏智能筛选机制。
method：
- reward relabel：对于 task j 的 offline dataset，直接使用 task i 的 gt reward function 来标记 reward。假设可以访问各个 task 的 reward function。
- 保守 Q 估计：对于 task j 中的 (s,a,r_i,s')，Q̂(s,a,i) = Q(s,a,i) - α·D(π,πβ)，给 Q 函数减去一个 policy 间的 KL 散度，自动惩罚分布外动作。但 CDS 真的实现的时候，没有显式用这个技术，而是直接使用了 CQL。
- multi-task 数据的共享使用规则：对于 task j 中的 (s,a,r_i,s')，仅当 Q̂(s,a,i) ≥ 目标任务数据集 Di 中 Q 值的 top-k 分位数时，才共享。

📌 近期工作 2

(IDAQ) Offline Meta Reinforcement Learning with In-Distribution Online Adaptation [ICML 2023]

arxiv：https://arxiv.org/abs/2305.19529
pdf：https://arxiv.org/pdf/2305.19529
html：https://ar5iv.labs.arxiv.org/html/2305.19529
来源：师弟推荐的工作，ICML 2023。
参考博客：CSDN |【论文阅读笔记】IDAQ：离线元强化学习中的分布内在线适应
（就算有博客，也还是看不太懂，一是不太了解 multi-task 的具体 setting，二是不太能 get 到 offline 他们讲的 distribution shift 故事…… 找时间好好学一下，可能先看看 focal
baseline：FOCAL、MACAW、BOReL。

Context Shift Reduction for Offline Meta-Reinforcement Learning [NeurIPS 2023]

arxiv：https://arxiv.org/abs/2311.03695
感觉想解决的问题，好像跟 IDAQ 是类似的，都是去 address offline dataset 和我们真正 rollout 出来的数据的分布不一致。

Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [NeurIPS 2025]

arxiv：https://arxiv.org/abs/2504.15046
看起来是最新的结合 LLM 的 offline meta-RL 工作。

Efficient Offline Meta-Reinforcement Learning via Robust Task Representations and Adaptive Policy Generation [IJCAI 2024]

可以看 abstract 的网页：https://dl.acm.org/doi/10.24963/ijcai.2024/500
pdf：https://www.ijcai.org/proceedings/2024/0500.pdf
来源：无意中搜到的，IJCAI 2024。看 abstract 感觉解决的不是很重要的问题，但好像是有趣的，不着急看。

Meta-Reinforcement Learning via Exploratory Task Clustering [AAAI 2024]

arxiv：https://arxiv.org/abs/2302.07958
pdf：https://arxiv.org/pdf/2302.07958
html：https://ar5iv.labs.arxiv.org/html/2302.07958
来源：师弟的论文 list，AAAI 2024。看 abstract 感觉没有解决特别重要的问题，但因为是 task clustering，所以想看一下。

Contextual Transformer for Offline Meta Reinforcement Learning [NeurIPS 2022 workshop]

arxiv：https://arxiv.org/abs/2211.08016
是 workshop 文章。简单看看吧。

Model-Based Offline Meta-Reinforcement Learning with Regularization

arxiv：https://arxiv.org/abs/2202.02929
model-based 的 offline meta-RL。

Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [AAAI 2025]

arxiv：
可能有一点相关。

Offline Meta-Reinforcement Learning with Online Self-Supervision [ICML 2022]

arxiv：https://arxiv.org/abs/2107.03974
pdf：https://arxiv.org/pdf/2107.03974
html：https://ar5iv.labs.arxiv.org/html/2107.03974
来源：疑似是 offline meta-RL + offline-to-online 的文章，ICML 2022。感觉不着急读。

感谢师弟和参考博客的讲解🍵

posted @ 2025-12-13 17:36 MoonOut 阅读(138) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

offline meta-RL | 近期工作速读记录

📌 近期工作 1

(UBER) Unsupervised Behavior Extraction via Random Intent Priors [NeurIPS 2023]

Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [AAAI 2025]

(CORRO) Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning [ICML 2022]

Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [NeurIPS 2024]

(UNICORN) Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [NeurIPS 2024]

(SiMPL) Skill-based Meta-Reinforcement Learning [ICLR 2022]

Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [ICLR 2025]

Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [AAAI 2024]

(FOCAL++) Provably Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [ICLR 2022]

(UDS) How to Leverage Unlabeled Data in Offline Reinforcement Learning [ICML 2022]

📌 近期工作 2

(IDAQ) Offline Meta Reinforcement Learning with In-Distribution Online Adaptation [ICML 2023]

Context Shift Reduction for Offline Meta-Reinforcement Learning [NeurIPS 2023]

Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [NeurIPS 2025]

Efficient Offline Meta-Reinforcement Learning via Robust Task Representations and Adaptive Policy Generation [IJCAI 2024]

Meta-Reinforcement Learning via Exploratory Task Clustering [AAAI 2024]

Contextual Transformer for Offline Meta Reinforcement Learning [NeurIPS 2022 workshop]

Model-Based Offline Meta-Reinforcement Learning with Regularization

Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [AAAI 2025]

Offline Meta-Reinforcement Learning with Online Self-Supervision [ICML 2022]

公告

月出兮彩云归 🌙

offline meta-RL | 近期工作速读记录

📌 近期工作 1

(UBER) Unsupervised Behavior Extraction via Random Intent Priors [NeurIPS 2023]

Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [AAAI 2025]

(CORRO) Robust Task Representations for Offline Meta-Reinforcement Learning via Contrastive Learning [ICML 2022]

Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [NeurIPS 2024]

(UNICORN) Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [NeurIPS 2024]

(SiMPL) Skill-based Meta-Reinforcement Learning [ICLR 2022]

Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning [ICLR 2025]

Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations [AAAI 2024]

(FOCAL++) Provably Improved Context-Based Offline Meta-RL with Attention and Contrastive Learning [ICLR 2022]

(UDS) How to Leverage Unlabeled Data in Offline Reinforcement Learning [ICML 2022]

(CDS) Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [NeurIPS 2021]

📌 近期工作 2

(IDAQ) Offline Meta Reinforcement Learning with In-Distribution Online Adaptation [ICML 2023]

Context Shift Reduction for Offline Meta-Reinforcement Learning [NeurIPS 2023]

Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [NeurIPS 2025]

Efficient Offline Meta-Reinforcement Learning via Robust Task Representations and Adaptive Policy Generation [IJCAI 2024]

Meta-Reinforcement Learning via Exploratory Task Clustering [AAAI 2024]

Contextual Transformer for Offline Meta Reinforcement Learning [NeurIPS 2022 workshop]

Model-Based Offline Meta-Reinforcement Learning with Regularization

Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data [AAAI 2025]

Offline Meta-Reinforcement Learning with Online Self-Supervision [ICML 2022]

公告