RL | AIR-DREAM Lab 最新论文的速读


一直对这个组的方向很感兴趣,于是速读一下这个组的最新文章。

(这篇笔记仅存档自用。以下论文完全是速读,没有进行任何精读,记录的笔记全都是 给我输入文章摘要 + 框图之后,我输出出来的幻觉,没有什么参考价值;还可能有少量 deepseek 速读)

AIR-DREAM Lab 主页:https://air-dream.netlify.app/


  • Efficient Robotic Policy Learning via Latent Space Backward Planning - 通过 latent space 的 backward planning 实现机器人策略高效学习
    • 信息:2025.05,ICML 2025,https://air-dream.netlify.app/publication/liu-2025-lbp/
    • 理解:是 robotics 的工作,我不懂这种工作。latent 里的递归 planning,感觉有趣。粗看跟这个挺像的:HIQL: Offline Goal-Conditioned RL with Latent States as Action(arxiv),但这篇我也还没读。
    • 现有的 robot 做事情需要 planning,一般是做 model-based planning,其中 state 通常是 pixel-based 的高清图像。然而,这种 pixel-based 世界模型计算成本大,还会有 accumulation errors,导致 planning 不准确,影响性能。
    • 有一些方法会用粗粒度(coarse-grained)subgoals 来 planning,但好像仍然有问题,这一句没看懂。
    • 这篇文章提出了 a Backward Planning scheme in Latent space(LBP),从 latent space 里 planning。先把最终目标搞到 latent 里,然后在 latent space 里递归地预测 更接近我们当前 state 的 subgoal。
  • Universal Actions for Enhanced Embodied Foundation Models - 为 enhanced 的具身 foundation model 而打造的 universal actions
  • Diffusion-Based Planning for Autonomous Driving with Flexible Guidance - 为自动驾驶设计的、带有柔性引导的基于 diffusion 的 planning
  • Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning - 通过单模态学习实现机器人多模态任务 specification
    • 信息:2025.01,ICRA 2025,https://air-dream.netlify.app/publication/li-2025-robo/
    • 理解:我其实也不太懂多模态。感觉 representation learning 有趣,之前还看过 cross-embodiment 的 representation 对齐的工作(XSkill,arxiv),不过那个对齐的是轨迹的 embedding。
    • 这篇文章希望可以只用一种模态(比如图片 / 文字指令)来训练,测试时使用另一种模态来告诉 agent 它要执行的任务。
    • 这篇文章首先用大量 out-of-domain 数据进行 pretrain(我也不懂 out-of-domain 是什么),训一个 DecisionNCE 来让同一任务的图片 / 文字指令的 embedding 的余弦相似度高。
    • 然后,采用两个不用训练的 Collapse 和 Corrupt 操作,进一步缩小多模态 representation 中模态之间的 gap。
    • Collapse:发现鸿沟主要体现在少数几个维度上,所以要么删除这些差异大的维度 (delete),要么把所有维度减去各自模态的平均值 (centralize)。这样处理后,同任务的图片和文字向量就基本对齐了。
    • Corrupt:为了增强策略的泛化能力(理解指令的多种说法),在对齐后的向量上加可控噪声。他们提出余弦相似度噪声:在保持向量方向基本不变(即语义不变)的前提下进行扰动(S(新向量, 原向量) >= α),这比简单加高斯噪声更稳定有效。
  • Skill Expansion and Composition in Parameter Space - 参数空间中的 skill 扩展与组合
    • 信息:2025.01,ICLR 2025,https://air-dream.netlify.app/publication/liu-2025-skill/
    • 理解:有趣,有时间去读一下。
    • 故事:human 可以不断学习新 skill,但一个神经网络很难学习新 skill,扩展性有限,并且不会利用已有 skill 的知识促进新 skill 学习。
    • 这篇文章提出了 Parametric Skill Expansion and Composition(PSEC),它维护一个技能库,其中每个 skill 用少量数据(例如 10 条轨迹)训练,训练一个 LoRA,可以装载到原有的 policy 网络上。
    • 然后,还能加权合并不同 skill 的 LoRA,搞出来 A+B 的 skill。对于一个新 scenario,这篇文章可以用少量数据(例如 10 条轨迹),训练各个 skill 的权重。
    • 在 d4rl、DSRL(不知道是什么)和 DMControl 上做了实验。
  • H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps - 一个改进的具有 dynamics gap 的 hybrid offline-and-online 框架
    • 信息:2025.01,ICRA 2025,https://air-dream.netlify.app/publication/niu-2023-h-2-o/
    • 理解:看名字貌似是 H2O 的升级版(?)
    • setting:使用 offline 数据 + online 的 imperfect simulator。做了真机实验。单看摘要,看不出具体 method 在做什么。
  • Are Expressive Models Truly Necessary for Offline RL? - Expressive(有表达力的)models 在 offline RL 中真的必要吗?
    • 信息:2024.12,AAAI 2025 oral,https://air-dream.netlify.app/publication/wang-niu-2024-rsp/
    • 理解:有趣。又出现了递归 planning,听起来跟这篇博客所介绍的第一篇文章很像。
    • goal-conditioned supervised learning (GCSL) 是一种 offline RL 的方法,它把 offline RL 变成了 sequence modeling 任务,听起来 decision transformer 和 HIM 都属于这种方法。然而,这种方法需要捕捉 trajectory 里的长时间跨度的信息,所以应该用 expressive 的模型。
    • 这篇文章提出了 Recursive Skip-Step Planning(RSP),可以使用像两层 mlp 这样的小模型 + 简单的递归 planning,实现准确的 sequence modeling。它先基于当前信息和目标信息 递归地规划粗粒度的未来 subgoal,然后使用这些 subgoal 的 goal-conditioned policy 来执行 action。
    • 首先,给每条 trajectory 标注 subgoal(如当前步 → 32 步 → 64 步后的状态)。然后,训练一个 subgoal 预测器,递归学习跳步的状态(如 f1 预测 32 步状态,f2 基于 f1 预测 64 步状态)。再训练一个 policy,输入当前状态 + 所有子目标,输出动作。
    • 实验声称这个方法简单而有效,能在 d4rl 里取得 sota,特别在 multi-stage long-horizon task 里。看摘要想象不出来 multi-stage long-horizon task 具体是什么。
  • Instruction-Guided Visual Masking - 使用 instruction 指导的视觉 masking
    • 信息:2024.09,NeurIPS 2024,https://air-dream.netlify.app/publication/zheng-2024-instructionguided/
    • 理解:没太看懂。
    • 好像是多模态的 LLM。想把视觉信息中,与 task 无关的部分 mask 掉,这篇文章将其称为 Instruction-guided Visual Masking (IVM)。
    • 这篇文章建立了生成相关训练数据的流程,生成了一个包含 1e6 个 image-instrunction pair 的相关数据集。并且,这篇文章提出了 Discriminator Weighted Supervised Learning (DWSL) 的技术,用来训练相关 method。
    • 使用热力图来表示与 task 相关的区域。
  • Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning - 为 offline RL 设计的 in-sample diffusion 引导
    • 信息:2024.09,NeurIPS 2024,https://air-dream.netlify.app/publication/mao-2024-diffusiondice/
    • 理解:不太明白 DICE,也不懂 diffusion。可能是有趣的。
    • DIstribution Correction Estimation (DICE) 可能是一种 offline RL 方法,它学习最优 policy \(\pi^*(a|s)\) 和 behavioral policy \(\pi_\beta(a|s)\) 之间的比率。
    • 这篇工作发现,DICE 本质上在学习如何把 behavioral policy 转换成最优 policy,并发现,可以直接用 diffusion 实现这种转换。
  • DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning - 通过隐式 preference learning 实现具身的多模态 representation
    • 信息:2024.02,ICML 2024,https://air-dream.netlify.app/publication/li-2024-decisionnce/
    • 理解:有趣,找时间看。
    • 这篇文章希望,可以从 image sequence 里学一个 embedding,并且这个 embedding 与 language instruction 是对齐的。
    • 这篇文章提出了 DecisionNCE,重参数化了 BT 模型,把它变成对比学习和 representation learning,核心思想是让 vision sequence 与其对应 language instruction 的匹配度优于不对应的 pair。
    • 并且,这篇文章还用 implicit 的 time contrastive learning 保证时间的一致性,并且还用了一个多模态联合 encoding 的技术。
  • A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents - 具身 agent 的 cross-domain policy transfer 的全面综述
  • ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update - 揭示正交梯度更新下的分布校正估计(Distribution Correction Estimation,DICE)之谜
    • 信息:2024.01,ICLR 2024 spotlight,https://air-dream.netlify.app/publication/mao-2024-odice/
    • 理解:感觉有趣,摘要写的很好。
    • DICE 是 offline RL 和 imitation learning 中的方法。主流方法(如 TD3+BC、CQL)仅约束 action distribution,限制 policy 输出接近数据集中的 action,因此,它们可能无法处理未见过的 state,如机器人偏离轨迹后,走到了 OOD 的 state。DICE 约束了 state-action 的联合分布,但实际效果差于主流方法。
    • 这篇文章发现,这是因为 DICE 更新 value function 的梯度分为两项:前向梯度(在当前状态上计算)和后向梯度(在下一个状态上计算)。
    • 其中,前向梯度跟目前的 offline RL 方法很相像,负责优化 action 的分布。后向梯度貌似负责约束 state 分布,但如果与前向梯度方向冲突,直接添加后向梯度 可能会导致前向梯度的效果被抵消。
    • 这篇文章提出了简单的方法,把后向梯度投影到前向梯度的法平面上,从而得到正交梯度更新。进一步的理论分析发现,投影后的后向梯度可以作为 state-level 的行为正则化。
  • When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning - 何时信任你的 simulator:具有动态感知的 hybrid offline-to-online
    • 信息:2022.11,NeurIPS 2023,https://air-dream.netlify.app/publication/niu-2022-when/
    • 理解:感觉这篇文章对于这种 setting 的处理 值得看一下。
    • 这篇文章关注 offline dataset + imperfect online env 的 setting。这篇文章提出了 Hybrid Offline-and-Online RL(H2O)method,它貌似从 online env 里学 Q function,并自适应地惩罚有 large dynamics gap 的 Q(s,a)。并且,这种方法也能从 offline dataset 里学习。
    • 感觉有点复杂,用 deepseek 也没有很快看懂。
    • 这篇文章可能有理论分析。
  • Discriminator-Guided Model-Based Offline Imitation Learning - discriminator 引导的 model-based 的 offline imitation learning
    • 信息:2022.09,CoRL 2022,https://air-dream.netlify.app/publication/zhang-2022-discriminatorguided/
    • 理解:看起来创新性一般,可能是有点有趣的。可能是已经知道它发表在 CoRL 上,有一些先入为主的 bias 了()
    • 这篇文章关注 offline imitation learning,希望在小数据集上搞一个 world model 来进行数据增强,生成更多的训练数据。为了让生成数据的精度更高,使用生成-对抗的方法来学习 world model,分辨生成的数据的正确性和是否 optimal。
    • 并且,生成-对抗方法里的 discriminator 也可以用来指导 policy 学习。
    • 这篇文章的实验在小 expert 数据集上做。


posted @ 2025-06-13 22:15  MoonOut  阅读(108)  评论(0)    收藏  举报