论文速读记录 | 2025.04




Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2305.15260
  • 来源:下面那篇 LS-Imagine 作者的另一篇文章,发表于 NeurIPS 2024。
  • 主要内容:
    • 这篇文章关注视觉强化学习(vision RL)中的迁移学习,即,如何从 source task 上进行训练,并迁移到 target task 上进行评测。
    • 这篇文章的 setting 是 ① 能使用 target task 的 offline 数据集 + ② 可以 online 访问 source task → ③ 最后在 target task 上 evaluation。这篇文章使用的方法是 model-based RL。
    • 对于文章的 setting,deepseek 举了一个例子:
    • 想象你要通过观看旧菜谱视频(target task 的 offline 数据)学习烹饪,但无法亲自下厨练习。直接模仿视频可能遇到两个问题:

      1. 过拟合:生搬硬套视频中的步骤,遇到新食材就手忙脚乱
      2. 盲目自信:误以为某种危险操作(如猛火炒菜)会有好效果

      CoWorld 的解决方案是:用一个厨房模拟游戏(在线模拟器)作为试验场(即 source task)。虽然游戏里的灶台 / 厨具和现实不同,但你可以:

      1. 先在游戏中练习相似操作 → 获得更全面的经验
      2. 把游戏中学到的技巧谨慎地应用到真实菜谱中 → 避免危险操作
    • 这篇文章为 source 和 target 任务分别维护两个 world model 和两个 agent,主要使用以下三种技术:
      • ① Offline-to-Online State Alignment:目的是让两个 world model 的 state encoder 对于 offline target dataset 中的 obs,编码的 representation 结果更接近,通过最小化两个编码器输出的 KL 散度。原文中还有一些复杂公式,似乎是 model-based RL 中的常见做法,我看不太懂。
        • 为什么需要 state encoder?因为输入是 pixel-based 的视觉信息,需要先转换成 representation。
        • World model 的作用是什么?我理解为,它可以作为一个假环境来训练 agent,提供 observation、transition 和 reward。world model 不是马尔可夫的,会通过循环网络等方法维护一个包含历史信息的 hidden 变量 h。貌似,world model 有可能是可微的,能提供梯度以用于梯度上升 discounted return。
      • ② Online-to-Offline Reward Alignment:从 offline target dataset 中采样 transition,然后将 source task 的 world model 的奖励预测器训成 k * 真实 reward + (1-k) * target world model 计算的 reward。
      • ③ Min-Max Value Constraint:对于 source 和 target task 的两个 agent,最小化两个 critic 中值较大的那个。
    • 感觉方法很神秘,可能因为我没接触过 transfer RL 和 model-based RL。
    • 感觉实验很有趣,source 和 target 甚至不是一个 domain 的 task(分别是 RoBoDesk 和 metaworld),但我不知道这是否是 transfer RL 中的常见做法。
    • (无端,听说 model-based RL 很难调参数…

Open-World Reinforcement Learning over Long Short-Term Imagination

  • arxiv:https://arxiv.org/abs/2410.03618
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 在高维开放世界(open-world)中训练视觉强化学习(visual RL)策略,具体训练的环境是 minecraft。
    • 现有工作的 gap:因为开放世界太复杂,所以 model-free RL 性能不好;model-based RL 基于的 model(如 DreamerV3 等)只能向后预测 15 步左右,虽然提高了 sample efficiency,但是不能支持 long-horizon 的规划和探索。
    • 因此,这篇文章提出了一个支持长短期 state transition 的世界模型,长期 transition 指的是转换到关键 state,预测跳跃式状态转移。
    • 这篇文章的关键 insight:
      • 以 minecraft 视野中的一个小区域作为中心,不断放大视野图片并裁剪,这样形成 16 帧放大后的截图 组成伪视频,用这个伪视频来模拟 agent 不断走向那个方向的行为。
      • 我们有一个叫做 MineCLIP 的多模态模型,它可以输入一个游戏视频片段 + 一个自然语言的任务描述,计算这两者的相似度。
      • 如果对视野中的每一个点,都计算伪视频与 task 描述的 MineCLIP 相似度,就可以得到一张热力图,表示视野上每个点的关键程度。这篇文章将其称为 affordance map,affordance 的意思为“可执行动作的”,比如在 robotics 里,一个水杯的把手和杯沿是可抓握的;在 minecraft 里,树是能砍的。
      • (affordance map 需要遍历训练,复杂度 o(n^2),所以训练了一个 U-map 来模拟这一过程,直接生成一整个 affordance map)
      • 将 affordance map 与一个视野中心值最大的高斯分布 map 进行点乘,可以计算得到一个 intrinsic reward,这个 reward 会引导 agent 把关键点放在视野中心,并不断向关键点走去。
    • 具体 method:
      • 训练 long short-term 的世界模型:首先,定义一个 jump flag,如果 affordance map 里有峰值,则激活 jump flag,进行 long-term 的 state transition。使用收集的 env 轨迹训世界模型,如果在轨迹里的 jump flag 被激活了,则采样未来的 state 训 long-term 世界模型。
      • 基于 long short-term 世界模型,训练 agent:貌似就是正常训练。如果世界模型跳跃到 long-term,那么世界模型会返回跳跃 \(\Delta\) 步里的 discounted reward 求和。
    • 总结:method 分为两部分,基于伪视频的 intrinsic reward + long short-term 的世界模型。
    • 实验结果:相比基于 DreamerV3 的 model-based RL 方法,任务成功率提升,执行任务所需 step 数量减少,并且移除 1. 基于 affordance 的 intrinsic reward,2. long-term 的想象模块,都会导致性能下降。
    • Lee et al. (2024b) 提出了时间平滑奖励的预测,以解决长期稀疏奖励任务。Dreamsmooth: Improving model-based reinforcement learning via reward smoothing.,ICLR 2024。

On the Role of Discount Factor in Offline Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2206.03383
  • 来源:师兄的 ICML 2022 文章。
  • 主要内容:
    • 理论看不懂。deepseek 读的理论:
    • γ 具有双重作用:

      • 正则化:调节学习偏差与方差(小数据时更关键)。
      • 悲观性:等价于在模型不确定性下优化最坏情况(大数据时有效)。
    • method:直接把所有 gamma 改低,而非把 reward / return 低的 transition / 轨迹的 gamma 改低。
    • 实验显示,比 0.99 更低的 γ 在 tabular 环境和 d4rl 上的性能都更好。

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

  • arxiv:https://arxiv.org/abs/1703.03400
  • GitHub:https://github.com/cbfinn/mamlhttps://github.com/cbfinn/maml_rl
  • 来源:这篇工作(MAML,Model-Agnostic Meta-Learning)是一个非常著名的 meta learning 方法,也是下一篇 few-shot preference learning 主要使用的技术。
  • (发现 MAML 的三位作者是 Chelsea Finn、Pieter Abbeel 和 Sergey Levine…
  • 主要内容:
    • MAML 训练模型的初始参数,使其面对新任务时,只需少量数据 + 几步梯度更新便能快速学习。
    • MAML 的主要思想:
      1. 模拟快速学习:
        • 拿多个任务(如识别不同符号、控制不同机器人)同时训练。
        • 对每个任务:使用当前参数计算梯度 → 假装更新一次参数。
        • 关键:不直接用这次更新,而是看“更新后的参数”在新数据上的表现。
      2. 反复调整初始参数,使得经过上述“假装更新”后的参数,在所有任务上都表现更好。也就是说,把模型的初始参数 \(\theta\) 调整到一个位置,从这里出发,对任何新任务只需“迈一小步”就能达到好效果。
    • 具体 method:
      • 内循环:对每个任务 \(T_i\),用当前 \(\theta\) 计算梯度,得到新参数 \(\theta'_i = \theta- \alpha∇\theta L_{T_i}(f_\theta)\),其中,\(\alpha\) 是学习率,\(L_{T_i}(f_\theta)\) 是模型在任务 \(T_i\) 上的损失函数(如分类错误率)。我们通常执行好几步这个更新,得到新参数 \(\theta'_i\)
      • 外循环:优化初始 \(\theta\),使得所有新参数 \(\theta'_i\) 的性能更好:\(\theta \leftarrow \theta - \beta\nabla\theta \sum L_{T_i}(f_{\theta'_i})\),其中 \(\beta\) 是元学习率。
      • 换句话说,MAML 希望在初始参数 \(\theta\) 经过几步更新后,新参数 \(\theta'_i\) 的表现更好,它在寻找满足这个条件的初始化参数 \(\theta\)
    • 优势:不限制模型结构(CNN、RNN、transformer),能处理分类、回归、RL 控制等不同问题。
    • 缺点:需计算“梯度的梯度”,但可用一阶近似来加速。
    • 实验结果:在图像识别、机器人控制等任务中,MAML 能在仅有 1-5 个样本的情况下迅速适应新任务。
    • Way 和 Shot 解释(以图像分类为例):
      • Way = 任务类别数(如 5-way 表示分 5 类)。
      • Shot = 每类训练样本数(如 1-shot 表示每类只给 1 张图练习)。
      • 举例:5-way 1-shot = 给 5 类物品,每类只展示 1 张图,模型需学会分类新图片。

Few-Shot Preference Learning for Human-in-the-Loop RL

  • arxiv:https://arxiv.org/abs/2212.03363
  • 来源:原来读过的文章。
  • 作者:Joey Hejna 和 Dorsa Sadigh。
  • 主要内容:
    • 这是一篇 CoRL 2022 的 8 页论文,关注传统的 PbRL,具体 method 是 MAML + PbRL。
    • setting:多个 source task 的带 reward 的轨迹 + 与 goal task 交互并获得 preference。
    • 使用 MAML 做 meta-learning 的模块是 reward model,去找一个足够好的 reward model 初始化。做 meta-learning 的 task 是一些轨迹 + 相应的奖励函数,使用现有的奖励函数,用 scripted teacher 的方法生成每个 task 的 preference 数据;每个 task 的损失函数 \(L_{T_i}\) 是 PbRL 的交叉熵损失。
    • 在 meta-learning 快速适应新任务的阶段,收集几百个 preference 即可训练 PbRL;因为数据效率很高,所以可以让 human 打 preference。

Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

  • arxiv:https://arxiv.org/abs/2502.03717
  • 来源:关注了 Joey Hejna 和 Dorsa Sadigh 的 Google scholar。好像还是 arxiv,没有发表。
  • 网站:https://lgpl-gaits.github.io/
  • 主要内容:
    • 故事讲得好,从“卖机器人给不同的人群,小孩子需要机器人平稳缓慢,而成年人可能追求机器人动作比较迅速;让用户做传统 PbRL 需要成百上千个 query,太慢,用户会失去耐心、不再玩机器人,而 LLM 生成的行为不够精确。”到让机器人表现出开心、害怕等不同步态。
    • 具体 method:发现是非常 naive 的 A + B。
      • 首先,为“让四足机器人表现出开心、害怕等行为”任务定义了一个奖励空间 \(\Omega\),reward function 由机器人步速、移动速度等项组成。这篇论文的任务是 确定每项前面的系数 \(\omega\) 应该是多少。
      • 然后用自然语言给 LLM 描述任务(开心 / 害怕),让 LLM 生成一组系数。
      • 最后让 human 比较不同系数的 reward 生成的行为,打出 preference,并对 \(\omega\) 使用 Bradley-Terry model 和交叉熵 loss、定义一个评价指标,最终寻找最大化这个评价指标的 \(\omega^*\)

posted @ 2025-04-01 15:10  MoonOut  阅读(170)  评论(2)    收藏  举报