RL & VLA & WM

RL & VLA

Dual-System
Each module performs its designated role, endowing the system with generalization capabilities for training-free execution in unseen environments

VLA-Planner + RL-Controller(vlp-humanoid)
residual RL（PLD，self-improved VLA）
VLA as Router，dynamically activate diverse RL skill policies(vlp-humanoid)

RL in training pipeline
Leveraging RL to address compounding errors and OOD challenges in VLA models during long-horizon tasks.

online/offline fine-tuning for auto-regression-based VLA（RL4VLA）
preference optimization for diffusion-based VLA（DPPO）
fine-tune flow-based VLA（πRL，Flow-noise/Flow-SDE）

RL in inference
Leveraging RL to mitigate hallucinations and prevent hazardous actions in VLA models during critical physical contact phases

Similar to MCTS, select actions with higher Q-values(V-VLAPS)

VLA reversely empowers RL
VLA does not directly control, only guides RL

VLA as reward design(Eureka)
VLA as world model(RL in Latent Space)
VLA as critic

WM & VLA

World Planner（世界规划器 - 引导交互）： WM作为前向动力学模型，根据历史和指令“想象”出未来的状态（无论是像素图像还是Latent特征）。VLA策略（\(\pi_\theta\)）则将这些预测的未来状态作为条件（Condition），据此生成动作。（交互方式：WM前向输出 \(\rightarrow\) VLA条件输入）
World Action Model（世界动作模型 - 融合交互）： 将WM和VLA彻底缝合在一个网络里（如Cosmos Policy）。用自回归或扩散模型同时预测“未来观测”和“动作”。（交互方式：架构级深度融合，联合分布输出）
World Synthesizer（世界合成器 - 数据交互）： WM作为数据引擎，纯粹在线下生成海量的“观察-动作”合成轨迹（Synthetic Data），用来解决真实机器人数据稀缺的问题，喂给VLA做模仿学习。（交互方式：离线单向数据投喂）
World Simulator（世界模拟器 - 评估/训练交互）： WM充当一个虚拟环境（Simulator）。VLA在这个虚拟环境里输出动作，WM反馈下一步状态和奖励。主要用于评估VLA的成功率，或者作为RL微调的模拟器。（交互方式：闭环的环境与Agent交互，主要在Offline阶段）

目前纯端到端VLA无创新，基本被学术和工业界弃用，个人认为几个原因1. 只能做pick&place，自由度、任务难度一上去维度爆炸，无法sim2real 2. VL到A的跨度太大，中间缺失了任务逻辑、物理约束、空间几何等关键桥梁 3. 黑盒，毫无可解释性，不可能大规模投入物理世界使用 4. 一味把gpt堆数据堆算力式的成功套用到VLA上 5. 高质量数据不够。
之前就一直在提vlp-humanoid的工作，我觉得大体上的架构是没问题的，仅保留VL的部分，VLM作为Planner来做子任务拆解、技能选择等工作，A的部分还是需要RL以及WorldModel的辅助（参考Nvidia的Cosmos Policy，挺有意思的工作）。这样才能真正要在物理世界走通，越往底层越靠RL，底层策略必须能被调试、重用，而不是黑盒token序列，最后sim2real控制闭环则可以靠分层RL来实现。其实和之前类脑的思想差不多。

posted @ 2026-03-11 07:09 kirin-dev 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

kirin-dev

RL & VLA & WM

RL & VLA

WM & VLA

公告