RL | AIR-DREAM Lab 最新论文的速读

一直对这个组的方向很感兴趣，于是速读一下这个组的最新文章。

（这篇笔记仅存档自用。以下论文完全是速读，没有进行任何精读，记录的笔记全都是给我输入文章摘要 + 框图之后，我输出出来的幻觉，没有什么参考价值；还可能有少量 deepseek 速读）

AIR-DREAM Lab 主页：https://air-dream.netlify.app/

Efficient Robotic Policy Learning via Latent Space Backward Planning - 通过 latent space 的 backward planning 实现机器人策略高效学习
- 信息：2025.05，ICML 2025，https://air-dream.netlify.app/publication/liu-2025-lbp/
- 理解：是 robotics 的工作，我不懂这种工作。latent 里的递归 planning，感觉有趣。粗看跟这个挺像的：HIQL: Offline Goal-Conditioned RL with Latent States as Action（arxiv），但这篇我也还没读。
- 现有的 robot 做事情需要 planning，一般是做 model-based planning，其中 state 通常是 pixel-based 的高清图像。然而，这种 pixel-based 世界模型计算成本大，还会有 accumulation errors，导致 planning 不准确，影响性能。
- 有一些方法会用粗粒度（coarse-grained）subgoals 来 planning，但好像仍然有问题，这一句没看懂。
- 这篇文章提出了 a Backward Planning scheme in Latent space（LBP），从 latent space 里 planning。先把最终目标搞到 latent 里，然后在 latent space 里递归地预测更接近我们当前 state 的 subgoal。
Universal Actions for Enhanced Embodied Foundation Models - 为 enhanced 的具身 foundation model 而打造的 universal actions
- 信息：2025.02，CVPR 2025，https://air-dream.netlify.app/publication/zheng-2025-universal/
- 理解：具身的工作，没看懂，不了解。
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance - 为自动驾驶设计的、带有柔性引导的基于 diffusion 的 planning
- 信息：2025.01，ICLR 2025 oral，https://air-dream.netlify.app/publication/zheng-2025-diffusion/
- 理解：diffusion + transformer 工作，我不懂 diffusion，不太了解。这篇工作做了真实世界的自动驾驶。
Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning - 通过单模态学习实现机器人多模态任务 specification
- 信息：2025.01，ICRA 2025，https://air-dream.netlify.app/publication/li-2025-robo/
- 理解：我其实也不太懂多模态。感觉 representation learning 有趣，之前还看过 cross-embodiment 的 representation 对齐的工作（XSkill，arxiv），不过那个对齐的是轨迹的 embedding。
- 这篇文章希望可以只用一种模态（比如图片 / 文字指令）来训练，测试时使用另一种模态来告诉 agent 它要执行的任务。
- 这篇文章首先用大量 out-of-domain 数据进行 pretrain（我也不懂 out-of-domain 是什么），训一个 DecisionNCE 来让同一任务的图片 / 文字指令的 embedding 的余弦相似度高。
- 然后，采用两个不用训练的 Collapse 和 Corrupt 操作，进一步缩小多模态 representation 中模态之间的 gap。
- Collapse：发现鸿沟主要体现在少数几个维度上，所以要么删除这些差异大的维度 (delete)，要么把所有维度减去各自模态的平均值 (centralize)。这样处理后，同任务的图片和文字向量就基本对齐了。
- Corrupt：为了增强策略的泛化能力（理解指令的多种说法），在对齐后的向量上加可控噪声。他们提出余弦相似度噪声：在保持向量方向基本不变（即语义不变）的前提下进行扰动（S(新向量, 原向量) >= α），这比简单加高斯噪声更稳定有效。
Skill Expansion and Composition in Parameter Space - 参数空间中的 skill 扩展与组合
- 信息：2025.01，ICLR 2025，https://air-dream.netlify.app/publication/liu-2025-skill/
- 理解：有趣，有时间去读一下。
- 故事：human 可以不断学习新 skill，但一个神经网络很难学习新 skill，扩展性有限，并且不会利用已有 skill 的知识促进新 skill 学习。
- 这篇文章提出了 Parametric Skill Expansion and Composition（PSEC），它维护一个技能库，其中每个 skill 用少量数据（例如 10 条轨迹）训练，训练一个 LoRA，可以装载到原有的 policy 网络上。
- 然后，还能加权合并不同 skill 的 LoRA，搞出来 A+B 的 skill。对于一个新 scenario，这篇文章可以用少量数据（例如 10 条轨迹），训练各个 skill 的权重。
- 在 d4rl、DSRL（不知道是什么）和 DMControl 上做了实验。
H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps - 一个改进的具有 dynamics gap 的 hybrid offline-and-online 框架
- 信息：2025.01，ICRA 2025，https://air-dream.netlify.app/publication/niu-2023-h-2-o/
- 理解：看名字貌似是 H2O 的升级版（？）
- setting：使用 offline 数据 + online 的 imperfect simulator。做了真机实验。单看摘要，看不出具体 method 在做什么。
Are Expressive Models Truly Necessary for Offline RL? - Expressive（有表达力的）models 在 offline RL 中真的必要吗？
- 信息：2024.12，AAAI 2025 oral，https://air-dream.netlify.app/publication/wang-niu-2024-rsp/
- 理解：有趣。又出现了递归 planning，听起来跟这篇博客所介绍的第一篇文章很像。
- goal-conditioned supervised learning (GCSL) 是一种 offline RL 的方法，它把 offline RL 变成了 sequence modeling 任务，听起来 decision transformer 和 HIM 都属于这种方法。然而，这种方法需要捕捉 trajectory 里的长时间跨度的信息，所以应该用 expressive 的模型。
- 这篇文章提出了 Recursive Skip-Step Planning（RSP），可以使用像两层 mlp 这样的小模型 + 简单的递归 planning，实现准确的 sequence modeling。它先基于当前信息和目标信息递归地规划粗粒度的未来 subgoal，然后使用这些 subgoal 的 goal-conditioned policy 来执行 action。
- 首先，给每条 trajectory 标注 subgoal（如当前步 → 32 步 → 64 步后的状态）。然后，训练一个 subgoal 预测器，递归学习跳步的状态（如 f1 预测 32 步状态，f2 基于 f1 预测 64 步状态）。再训练一个 policy，输入当前状态 + 所有子目标，输出动作。
- 实验声称这个方法简单而有效，能在 d4rl 里取得 sota，特别在 multi-stage long-horizon task 里。看摘要想象不出来 multi-stage long-horizon task 具体是什么。
Instruction-Guided Visual Masking - 使用 instruction 指导的视觉 masking
- 信息：2024.09，NeurIPS 2024，https://air-dream.netlify.app/publication/zheng-2024-instructionguided/
- 理解：没太看懂。
- 好像是多模态的 LLM。想把视觉信息中，与 task 无关的部分 mask 掉，这篇文章将其称为 Instruction-guided Visual Masking (IVM)。
- 这篇文章建立了生成相关训练数据的流程，生成了一个包含 1e6 个 image-instrunction pair 的相关数据集。并且，这篇文章提出了 Discriminator Weighted Supervised Learning (DWSL) 的技术，用来训练相关 method。
- 使用热力图来表示与 task 相关的区域。
Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning - 为 offline RL 设计的 in-sample diffusion 引导
- 信息：2024.09，NeurIPS 2024，https://air-dream.netlify.app/publication/mao-2024-diffusiondice/
- 理解：不太明白 DICE，也不懂 diffusion。可能是有趣的。
- DIstribution Correction Estimation (DICE) 可能是一种 offline RL 方法，它学习最优 policy \(\pi^*(a|s)\) 和 behavioral policy \(\pi_\beta(a|s)\) 之间的比率。
- 这篇工作发现，DICE 本质上在学习如何把 behavioral policy 转换成最优 policy，并发现，可以直接用 diffusion 实现这种转换。
DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning - 通过隐式 preference learning 实现具身的多模态 representation
- 信息：2024.02，ICML 2024，https://air-dream.netlify.app/publication/li-2024-decisionnce/
- 理解：有趣，找时间看。
- 这篇文章希望，可以从 image sequence 里学一个 embedding，并且这个 embedding 与 language instruction 是对齐的。
- 这篇文章提出了 DecisionNCE，重参数化了 BT 模型，把它变成对比学习和 representation learning，核心思想是让 vision sequence 与其对应 language instruction 的匹配度优于不对应的 pair。
- 并且，这篇文章还用 implicit 的 time contrastive learning 保证时间的一致性，并且还用了一个多模态联合 encoding 的技术。
A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents - 具身 agent 的 cross-domain policy transfer 的全面综述
- 信息：2024.02，IJCAI 2024，https://air-dream.netlify.app/publication/niu-2024-comprehensive/
- 理解：总之就是综述，摘要没有什么信息量。
ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update - 揭示正交梯度更新下的分布校正估计（Distribution Correction Estimation，DICE）之谜
- 信息：2024.01，ICLR 2024 spotlight，https://air-dream.netlify.app/publication/mao-2024-odice/
- 理解：感觉有趣，摘要写的很好。
- DICE 是 offline RL 和 imitation learning 中的方法。主流方法（如 TD3+BC、CQL）仅约束 action distribution，限制 policy 输出接近数据集中的 action，因此，它们可能无法处理未见过的 state，如机器人偏离轨迹后，走到了 OOD 的 state。DICE 约束了 state-action 的联合分布，但实际效果差于主流方法。
- 这篇文章发现，这是因为 DICE 更新 value function 的梯度分为两项：前向梯度（在当前状态上计算）和后向梯度（在下一个状态上计算）。
- 其中，前向梯度跟目前的 offline RL 方法很相像，负责优化 action 的分布。后向梯度貌似负责约束 state 分布，但如果与前向梯度方向冲突，直接添加后向梯度可能会导致前向梯度的效果被抵消。
- 这篇文章提出了简单的方法，把后向梯度投影到前向梯度的法平面上，从而得到正交梯度更新。进一步的理论分析发现，投影后的后向梯度可以作为 state-level 的行为正则化。
When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning - 何时信任你的 simulator：具有动态感知的 hybrid offline-to-online
- 信息：2022.11，NeurIPS 2023，https://air-dream.netlify.app/publication/niu-2022-when/
- 理解：感觉这篇文章对于这种 setting 的处理值得看一下。
- 这篇文章关注 offline dataset + imperfect online env 的 setting。这篇文章提出了 Hybrid Offline-and-Online RL（H2O）method，它貌似从 online env 里学 Q function，并自适应地惩罚有 large dynamics gap 的 Q(s,a)。并且，这种方法也能从 offline dataset 里学习。
- 感觉有点复杂，用 deepseek 也没有很快看懂。
- 这篇文章可能有理论分析。
Discriminator-Guided Model-Based Offline Imitation Learning - discriminator 引导的 model-based 的 offline imitation learning
- 信息：2022.09，CoRL 2022，https://air-dream.netlify.app/publication/zhang-2022-discriminatorguided/
- 理解：看起来创新性一般，可能是有点有趣的。可能是已经知道它发表在 CoRL 上，有一些先入为主的 bias 了（）
- 这篇文章关注 offline imitation learning，希望在小数据集上搞一个 world model 来进行数据增强，生成更多的训练数据。为了让生成数据的精度更高，使用生成-对抗的方法来学习 world model，分辨生成的数据的正确性和是否 optimal。
- 并且，生成-对抗方法里的 discriminator 也可以用来指导 policy 学习。
- 这篇文章的实验在小 expert 数据集上做。

posted @ 2025-06-13 22:15 MoonOut 阅读(108) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

RL | AIR-DREAM Lab 最新论文的速读

公告