论文速读记录 | 2025.04

Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning
Open-World Reinforcement Learning over Long Short-Term Imagination
On the Role of Discount Factor in Offline Reinforcement Learning
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
Few-Shot Preference Learning for Human-in-the-Loop RL
Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning

arxiv：https://arxiv.org/abs/2305.15260
- GitHub：https://github.com/qiwang067/CoWorld
- open review：https://openreview.net/pdf?id=ucxQrked0d
- 网站：https://qiwang067.github.io/coworld
- YouTube 视频：https://www.youtube.com/watch?v=ZDoS0df39W0
来源：下面那篇 LS-Imagine 作者的另一篇文章，发表于 NeurIPS 2024。
主要内容：
- 这篇文章关注视觉强化学习（vision RL）中的迁移学习，即，如何从 source task 上进行训练，并迁移到 target task 上进行评测。
- 这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。
- 对于文章的 setting，deepseek 举了一个例子：
- 想象你要通过观看旧菜谱视频（target task 的 offline 数据）学习烹饪，但无法亲自下厨练习。直接模仿视频可能遇到两个问题：
  1. 过拟合：生搬硬套视频中的步骤，遇到新食材就手忙脚乱
  2. 盲目自信：误以为某种危险操作（如猛火炒菜）会有好效果
  CoWorld 的解决方案是：用一个厨房模拟游戏（在线模拟器）作为试验场（即 source task）。虽然游戏里的灶台 / 厨具和现实不同，但你可以：
  1. 先在游戏中练习相似操作 → 获得更全面的经验
  2. 把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作
- 这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent，主要使用以下三种技术：
  - ① Offline-to-Online State Alignment：目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs，编码的 representation 结果更接近，通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式，似乎是 model-based RL 中的常见做法，我看不太懂。
    - 为什么需要 state encoder？因为输入是 pixel-based 的视觉信息，需要先转换成 representation。
    - World model 的作用是什么？我理解为，它可以作为一个假环境来训练 agent，提供 observation、transition 和 reward。world model 不是马尔可夫的，会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似，world model 有可能是可微的，能提供梯度以用于梯度上升 discounted return。
  - ② Online-to-Offline Reward Alignment：从 offline target dataset 中采样 transition，然后将 source task 的 world model 的奖励预测器训成 k * 真实 reward + (1-k) * target world model 计算的 reward。
  - ③ Min-Max Value Constraint：对于 source 和 target task 的两个 agent，最小化两个 critic 中值较大的那个。
- 感觉方法很神秘，可能因为我没接触过 transfer RL 和 model-based RL。
- 感觉实验很有趣，source 和 target 甚至不是一个 domain 的 task（分别是 RoBoDesk 和 metaworld），但我不知道这是否是 transfer RL 中的常见做法。
- （无端，听说 model-based RL 很难调参数…

Open-World Reinforcement Learning over Long Short-Term Imagination

arxiv：https://arxiv.org/abs/2410.03618
- GitHub：https://github.com/qiwang067/LS-Imagine
- open review：https://openreview.net/forum?id=vzItLaEoDa
- 网站：https://qiwang067.github.io/ls-imagine
- b 站的 talk：https://www.bilibili.com/video/BV1pyQ6YdEz6/
- 作者写的知乎博客：https://zhuanlan.zhihu.com/p/29450658588
来源：ICLR 2025 oral。
主要内容：
- 这篇文章关注在高维开放世界（open-world）中训练视觉强化学习（visual RL）策略，具体训练的环境是 minecraft。
- 现有工作的 gap：因为开放世界太复杂，所以 model-free RL 性能不好；model-based RL 基于的 model（如 DreamerV3 等）只能向后预测 15 步左右，虽然提高了 sample efficiency，但是不能支持 long-horizon 的规划和探索。
- 因此，这篇文章提出了一个支持长短期 state transition 的世界模型，长期 transition 指的是转换到关键 state，预测跳跃式状态转移。
- 这篇文章的关键 insight：
  - 以 minecraft 视野中的一个小区域作为中心，不断放大视野图片并裁剪，这样形成 16 帧放大后的截图组成伪视频，用这个伪视频来模拟 agent 不断走向那个方向的行为。
  - 我们有一个叫做 MineCLIP 的多模态模型，它可以输入一个游戏视频片段 + 一个自然语言的任务描述，计算这两者的相似度。
  - 如果对视野中的每一个点，都计算伪视频与 task 描述的 MineCLIP 相似度，就可以得到一张热力图，表示视野上每个点的关键程度。这篇文章将其称为 affordance map，affordance 的意思为“可执行动作的”，比如在 robotics 里，一个水杯的把手和杯沿是可抓握的；在 minecraft 里，树是能砍的。
  - （affordance map 需要遍历训练，复杂度 o(n^2)，所以训练了一个 U-map 来模拟这一过程，直接生成一整个 affordance map）
  - 将 affordance map 与一个视野中心值最大的高斯分布 map 进行点乘，可以计算得到一个 intrinsic reward，这个 reward 会引导 agent 把关键点放在视野中心，并不断向关键点走去。
- 具体 method：
  - 训练 long short-term 的世界模型：首先，定义一个 jump flag，如果 affordance map 里有峰值，则激活 jump flag，进行 long-term 的 state transition。使用收集的 env 轨迹训世界模型，如果在轨迹里的 jump flag 被激活了，则采样未来的 state 训 long-term 世界模型。
  - 基于 long short-term 世界模型，训练 agent：貌似就是正常训练。如果世界模型跳跃到 long-term，那么世界模型会返回跳跃 \(\Delta\) 步里的 discounted reward 求和。
- 总结：method 分为两部分，基于伪视频的 intrinsic reward + long short-term 的世界模型。
- 实验结果：相比基于 DreamerV3 的 model-based RL 方法，任务成功率提升，执行任务所需 step 数量减少，并且移除 1. 基于 affordance 的 intrinsic reward，2. long-term 的想象模块，都会导致性能下降。
- Lee et al. （2024b）提出了时间平滑奖励的预测，以解决长期稀疏奖励任务。Dreamsmooth: Improving model-based reinforcement learning via reward smoothing.，ICLR 2024。

On the Role of Discount Factor in Offline Reinforcement Learning

arxiv：https://arxiv.org/abs/2206.03383
来源：师兄的 ICML 2022 文章。
主要内容：
- 理论看不懂。deepseek 读的理论：
- γ 具有双重作用：
  - 正则化：调节学习偏差与方差（小数据时更关键）。
  - 悲观性：等价于在模型不确定性下优化最坏情况（大数据时有效）。
- method：直接把所有 gamma 改低，而非把 reward / return 低的 transition / 轨迹的 gamma 改低。
- 实验显示，比 0.99 更低的 γ 在 tabular 环境和 d4rl 上的性能都更好。

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

arxiv：https://arxiv.org/abs/1703.03400
GitHub：https://github.com/cbfinn/maml ， https://github.com/cbfinn/maml_rl
来源：这篇工作（MAML，Model-Agnostic Meta-Learning）是一个非常著名的 meta learning 方法，也是下一篇 few-shot preference learning 主要使用的技术。
（发现 MAML 的三位作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine…
主要内容：
- MAML 训练模型的初始参数，使其面对新任务时，只需少量数据 + 几步梯度更新便能快速学习。
- MAML 的主要思想：
  1. 模拟快速学习：
    - 拿多个任务（如识别不同符号、控制不同机器人）同时训练。
    - 对每个任务：使用当前参数计算梯度 → 假装更新一次参数。
    - 关键：不直接用这次更新，而是看“更新后的参数”在新数据上的表现。
  2. 反复调整初始参数，使得经过上述“假装更新”后的参数，在所有任务上都表现更好。也就是说，把模型的初始参数 \(\theta\) 调整到一个位置，从这里出发，对任何新任务只需“迈一小步”就能达到好效果。
- 具体 method：
  - 内循环：对每个任务 \(T_i\)，用当前 \(\theta\) 计算梯度，得到新参数 \(\theta'_i = \theta- \alpha∇\theta L_{T_i}(f_\theta)\)，其中，\(\alpha\) 是学习率，\(L_{T_i}(f_\theta)\) 是模型在任务 \(T_i\) 上的损失函数（如分类错误率）。我们通常执行好几步这个更新，得到新参数 \(\theta'_i\)。
  - 外循环：优化初始 \(\theta\)，使得所有新参数 \(\theta'_i\) 的性能更好：\(\theta \leftarrow \theta - \beta\nabla\theta \sum L_{T_i}(f_{\theta'_i})\)，其中 \(\beta\) 是元学习率。
  - 换句话说，MAML 希望在初始参数 \(\theta\) 经过几步更新后，新参数 \(\theta'_i\) 的表现更好，它在寻找满足这个条件的初始化参数 \(\theta\)。
- 优势：不限制模型结构（CNN、RNN、transformer），能处理分类、回归、RL 控制等不同问题。
- 缺点：需计算“梯度的梯度”，但可用一阶近似来加速。
- 实验结果：在图像识别、机器人控制等任务中，MAML 能在仅有 1-5 个样本的情况下迅速适应新任务。
- Way 和 Shot 解释（以图像分类为例）：
  - Way = 任务类别数（如 5-way 表示分 5 类）。
  - Shot = 每类训练样本数（如 1-shot 表示每类只给 1 张图练习）。
  - 举例：5-way 1-shot = 给 5 类物品，每类只展示 1 张图，模型需学会分类新图片。

Few-Shot Preference Learning for Human-in-the-Loop RL

arxiv：https://arxiv.org/abs/2212.03363
来源：原来读过的文章。
作者：Joey Hejna 和 Dorsa Sadigh。
主要内容：
- 这是一篇 CoRL 2022 的 8 页论文，关注传统的 PbRL，具体 method 是 MAML + PbRL。
- setting：多个 source task 的带 reward 的轨迹 + 与 goal task 交互并获得 preference。
- 使用 MAML 做 meta-learning 的模块是 reward model，去找一个足够好的 reward model 初始化。做 meta-learning 的 task 是一些轨迹 + 相应的奖励函数，使用现有的奖励函数，用 scripted teacher 的方法生成每个 task 的 preference 数据；每个 task 的损失函数 \(L_{T_i}\) 是 PbRL 的交叉熵损失。
- 在 meta-learning 快速适应新任务的阶段，收集几百个 preference 即可训练 PbRL；因为数据效率很高，所以可以让 human 打 preference。

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

arxiv：https://arxiv.org/abs/2502.03717
来源：关注了 Joey Hejna 和 Dorsa Sadigh 的 Google scholar。好像还是 arxiv，没有发表。
网站：https://lgpl-gaits.github.io/
主要内容：
- 故事讲得好，从“卖机器人给不同的人群，小孩子需要机器人平稳缓慢，而成年人可能追求机器人动作比较迅速；让用户做传统 PbRL 需要成百上千个 query，太慢，用户会失去耐心、不再玩机器人，而 LLM 生成的行为不够精确。”到让机器人表现出开心、害怕等不同步态。
- 具体 method：发现是非常 naive 的 A + B。
  - 首先，为“让四足机器人表现出开心、害怕等行为”任务定义了一个奖励空间 \(\Omega\)，reward function 由机器人步速、移动速度等项组成。这篇论文的任务是确定每项前面的系数 \(\omega\) 应该是多少。
  - 然后用自然语言给 LLM 描述任务（开心 / 害怕），让 LLM 生成一组系数。
  - 最后让 human 比较不同系数的 reward 生成的行为，打出 preference，并对 \(\omega\) 使用 Bradley-Terry model 和交叉熵 loss、定义一个评价指标，最终寻找最大化这个评价指标的 \(\omega^*\)。

posted @ 2025-04-01 15:10 MoonOut 阅读(170) 评论(2) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.04

Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning

Open-World Reinforcement Learning over Long Short-Term Imagination

On the Role of Discount Factor in Offline Reinforcement Learning

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

Few-Shot Preference Learning for Human-in-the-Loop RL

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

公告