论文速读记录 | 2025.04
目录
- Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
- Open-World Reinforcement Learning over Long Short-Term Imagination
- On the Role of Discount Factor in Offline Reinforcement Learning
- Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- Few-Shot Preference Learning for Human-in-the-Loop RL
- Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
- arxiv:https://arxiv.org/abs/2305.15260
- 来源:下面那篇 LS-Imagine 作者的另一篇文章,发表于 NeurIPS 2024。
- 主要内容:
- 这篇文章关注视觉强化学习(vision RL)中的迁移学习,即,如何从 source task 上进行训练,并迁移到 target task 上进行评测。
- 这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。
- 对于文章的 setting,deepseek 举了一个例子:
-
想象你要通过观看旧菜谱视频(target task 的 offline 数据)学习烹饪,但无法亲自下厨练习。直接模仿视频可能遇到两个问题:
- 过拟合:生搬硬套视频中的步骤,遇到新食材就手忙脚乱
- 盲目自信:误以为某种危险操作(如猛火炒菜)会有好效果
CoWorld 的解决方案是:用一个厨房模拟游戏(在线模拟器)作为试验场(即 source task)。虽然游戏里的灶台 / 厨具和现实不同,但你可以:
- 先在游戏中练习相似操作 → 获得更全面的经验
- 把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作
- 这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent,主要使用以下三种技术:
- ① Offline-to-Online State Alignment:目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs,编码的 representation 结果更接近,通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式,似乎是 model-based RL 中的常见做法,我看不太懂。
- 为什么需要 state encoder?因为输入是 pixel-based 的视觉信息,需要先转换成 representation。
- World model 的作用是什么?我理解为,它可以作为一个假环境来训练 agent,提供 observation、transition 和 reward。world model 不是马尔可夫的,会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似,world model 有可能是可微的,能提供梯度以用于梯度上升 discounted return。
- ② Online-to-Offline Reward Alignment:从 offline target dataset 中采样 transition,然后将 source task 的 world model 的奖励预测器训成 k * 真实 reward + (1-k) * target world model 计算的 reward。
- ③ Min-Max Value Constraint:对于 source 和 target task 的两个 agent,最小化两个 critic 中值较大的那个。
- ① Offline-to-Online State Alignment:目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs,编码的 representation 结果更接近,通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式,似乎是 model-based RL 中的常见做法,我看不太懂。
- 感觉方法很神秘,可能因为我没接触过 transfer RL 和 model-based RL。
- 感觉实验很有趣,source 和 target 甚至不是一个 domain 的 task(分别是 RoBoDesk 和 metaworld),但我不知道这是否是 transfer RL 中的常见做法。
- (无端,听说 model-based RL 很难调参数…
Open-World Reinforcement Learning over Long Short-Term Imagination
- arxiv:https://arxiv.org/abs/2410.03618
- 来源:ICLR 2025 oral。
- 主要内容:
- 这篇文章关注 在高维开放世界(open-world)中训练视觉强化学习(visual RL)策略,具体训练的环境是 minecraft。
- 现有工作的 gap:因为开放世界太复杂,所以 model-free RL 性能不好;model-based RL 基于的 model(如 DreamerV3 等)只能向后预测 15 步左右,虽然提高了 sample efficiency,但是不能支持 long-horizon 的规划和探索。
- 因此,这篇文章提出了一个支持长短期 state transition 的世界模型,长期 transition 指的是转换到关键 state,预测跳跃式状态转移。
- 这篇文章的关键 insight:
- 以 minecraft 视野中的一个小区域作为中心,不断放大视野图片并裁剪,这样形成 16 帧放大后的截图 组成伪视频,用这个伪视频来模拟 agent 不断走向那个方向的行为。
- 我们有一个叫做 MineCLIP 的多模态模型,它可以输入一个游戏视频片段 + 一个自然语言的任务描述,计算这两者的相似度。
- 如果对视野中的每一个点,都计算伪视频与 task 描述的 MineCLIP 相似度,就可以得到一张热力图,表示视野上每个点的关键程度。这篇文章将其称为 affordance map,affordance 的意思为“可执行动作的”,比如在 robotics 里,一个水杯的把手和杯沿是可抓握的;在 minecraft 里,树是能砍的。
- (affordance map 需要遍历训练,复杂度 o(n^2),所以训练了一个 U-map 来模拟这一过程,直接生成一整个 affordance map)
- 将 affordance map 与一个视野中心值最大的高斯分布 map 进行点乘,可以计算得到一个 intrinsic reward,这个 reward 会引导 agent 把关键点放在视野中心,并不断向关键点走去。
- 具体 method:
- 训练 long short-term 的世界模型:首先,定义一个 jump flag,如果 affordance map 里有峰值,则激活 jump flag,进行 long-term 的 state transition。使用收集的 env 轨迹训世界模型,如果在轨迹里的 jump flag 被激活了,则采样未来的 state 训 long-term 世界模型。
- 基于 long short-term 世界模型,训练 agent:貌似就是正常训练。如果世界模型跳跃到 long-term,那么世界模型会返回跳跃 \(\Delta\) 步里的 discounted reward 求和。
- 总结:method 分为两部分,基于伪视频的 intrinsic reward + long short-term 的世界模型。
- 实验结果:相比基于 DreamerV3 的 model-based RL 方法,任务成功率提升,执行任务所需 step 数量减少,并且移除 1. 基于 affordance 的 intrinsic reward,2. long-term 的想象模块,都会导致性能下降。
- Lee et al. (2024b) 提出了时间平滑奖励的预测,以解决长期稀疏奖励任务。Dreamsmooth: Improving model-based reinforcement learning via reward smoothing.,ICLR 2024。
On the Role of Discount Factor in Offline Reinforcement Learning
- arxiv:https://arxiv.org/abs/2206.03383
- 来源:师兄的 ICML 2022 文章。
- 主要内容:
- 理论看不懂。deepseek 读的理论:
-
γ 具有双重作用:
- 正则化:调节学习偏差与方差(小数据时更关键)。
- 悲观性:等价于在模型不确定性下优化最坏情况(大数据时有效)。
- method:直接把所有 gamma 改低,而非把 reward / return 低的 transition / 轨迹的 gamma 改低。
- 实验显示,比 0.99 更低的 γ 在 tabular 环境和 d4rl 上的性能都更好。
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
- arxiv:https://arxiv.org/abs/1703.03400
- GitHub:https://github.com/cbfinn/maml , https://github.com/cbfinn/maml_rl
- 来源:这篇工作(MAML,Model-Agnostic Meta-Learning)是一个非常著名的 meta learning 方法,也是下一篇 few-shot preference learning 主要使用的技术。
- (发现 MAML 的三位作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine…
- 主要内容:
- MAML 训练模型的初始参数,使其面对新任务时,只需少量数据 + 几步梯度更新便能快速学习。
- MAML 的主要思想:
- 模拟快速学习:
- 拿多个任务(如识别不同符号、控制不同机器人)同时训练。
- 对每个任务:使用当前参数计算梯度 → 假装更新一次参数。
- 关键:不直接用这次更新,而是看“更新后的参数”在新数据上的表现。
- 反复调整初始参数,使得经过上述“假装更新”后的参数,在所有任务上都表现更好。也就是说,把模型的初始参数 \(\theta\) 调整到一个位置,从这里出发,对任何新任务只需“迈一小步”就能达到好效果。
- 模拟快速学习:
- 具体 method:
- 内循环:对每个任务 \(T_i\),用当前 \(\theta\) 计算梯度,得到新参数 \(\theta'_i = \theta- \alpha∇\theta L_{T_i}(f_\theta)\),其中,\(\alpha\) 是学习率,\(L_{T_i}(f_\theta)\) 是模型在任务 \(T_i\) 上的损失函数(如分类错误率)。我们通常执行好几步这个更新,得到新参数 \(\theta'_i\)。
- 外循环:优化初始 \(\theta\),使得所有新参数 \(\theta'_i\) 的性能更好:\(\theta \leftarrow \theta - \beta\nabla\theta \sum L_{T_i}(f_{\theta'_i})\),其中 \(\beta\) 是元学习率。
- 换句话说,MAML 希望在初始参数 \(\theta\) 经过几步更新后,新参数 \(\theta'_i\) 的表现更好,它在寻找满足这个条件的初始化参数 \(\theta\)。
- 优势:不限制模型结构(CNN、RNN、transformer),能处理分类、回归、RL 控制等不同问题。
- 缺点:需计算“梯度的梯度”,但可用一阶近似来加速。
- 实验结果:在图像识别、机器人控制等任务中,MAML 能在仅有 1-5 个样本的情况下迅速适应新任务。
- Way 和 Shot 解释(以图像分类为例):
- Way = 任务类别数(如 5-way 表示分 5 类)。
- Shot = 每类训练样本数(如 1-shot 表示每类只给 1 张图练习)。
- 举例:5-way 1-shot = 给 5 类物品,每类只展示 1 张图,模型需学会分类新图片。
Few-Shot Preference Learning for Human-in-the-Loop RL
- arxiv:https://arxiv.org/abs/2212.03363
- 来源:原来读过的文章。
- 作者:Joey Hejna 和 Dorsa Sadigh。
- 主要内容:
- 这是一篇 CoRL 2022 的 8 页论文,关注传统的 PbRL,具体 method 是 MAML + PbRL。
- setting:多个 source task 的带 reward 的轨迹 + 与 goal task 交互并获得 preference。
- 使用 MAML 做 meta-learning 的模块是 reward model,去找一个足够好的 reward model 初始化。做 meta-learning 的 task 是一些轨迹 + 相应的奖励函数,使用现有的奖励函数,用 scripted teacher 的方法生成每个 task 的 preference 数据;每个 task 的损失函数 \(L_{T_i}\) 是 PbRL 的交叉熵损失。
- 在 meta-learning 快速适应新任务的阶段,收集几百个 preference 即可训练 PbRL;因为数据效率很高,所以可以让 human 打 preference。
Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- arxiv:https://arxiv.org/abs/2502.03717
- 来源:关注了 Joey Hejna 和 Dorsa Sadigh 的 Google scholar。好像还是 arxiv,没有发表。
- 网站:https://lgpl-gaits.github.io/
- 主要内容:
- 故事讲得好,从“卖机器人给不同的人群,小孩子需要机器人平稳缓慢,而成年人可能追求机器人动作比较迅速;让用户做传统 PbRL 需要成百上千个 query,太慢,用户会失去耐心、不再玩机器人,而 LLM 生成的行为不够精确。”到让机器人表现出开心、害怕等不同步态。
- 具体 method:发现是非常 naive 的 A + B。
- 首先,为“让四足机器人表现出开心、害怕等行为”任务定义了一个奖励空间 \(\Omega\),reward function 由机器人步速、移动速度等项组成。这篇论文的任务是 确定每项前面的系数 \(\omega\) 应该是多少。
- 然后用自然语言给 LLM 描述任务(开心 / 害怕),让 LLM 生成一组系数。
- 最后让 human 比较不同系数的 reward 生成的行为,打出 preference,并对 \(\omega\) 使用 Bradley-Terry model 和交叉熵 loss、定义一个评价指标,最终寻找最大化这个评价指标的 \(\omega^*\)。

浙公网安备 33010602011771号