RL & VLA & WM
RL & VLA
- Dual-System
Each module performs its designated role, endowing the system with generalization capabilities for training-free execution in unseen environments
- VLA-Planner + RL-Controller(vlp-humanoid)
- residual RL(PLD,self-improved VLA)
- VLA as Router,dynamically activate diverse RL skill policies(vlp-humanoid)
- RL in training pipeline
Leveraging RL to address compounding errors and OOD challenges in VLA models during long-horizon tasks.
- online/offline fine-tuning for auto-regression-based VLA(RL4VLA)
- preference optimization for diffusion-based VLA(DPPO)
- fine-tune flow-based VLA(πRL,Flow-noise/Flow-SDE)
- RL in inference
Leveraging RL to mitigate hallucinations and prevent hazardous actions in VLA models during critical physical contact phases
- Similar to MCTS, select actions with higher Q-values(V-VLAPS)
- VLA reversely empowers RL
VLA does not directly control, only guides RL
- VLA as reward design(Eureka)
- VLA as world model(RL in Latent Space)
- VLA as critic
WM & VLA
- World Planner(世界规划器 - 引导交互): WM作为前向动力学模型,根据历史和指令“想象”出未来的状态(无论是像素图像还是Latent特征)。VLA策略(\(\pi_\theta\))则将这些预测的未来状态作为条件(Condition),据此生成动作。(交互方式:WM前向输出 \(\rightarrow\) VLA条件输入)
- World Action Model(世界动作模型 - 融合交互): 将WM和VLA彻底缝合在一个网络里(如Cosmos Policy)。用自回归或扩散模型同时预测“未来观测”和“动作”。(交互方式:架构级深度融合,联合分布输出)
- World Synthesizer(世界合成器 - 数据交互): WM作为数据引擎,纯粹在线下生成海量的“观察-动作”合成轨迹(Synthetic Data),用来解决真实机器人数据稀缺的问题,喂给VLA做模仿学习。(交互方式:离线单向数据投喂)
- World Simulator(世界模拟器 - 评估/训练交互): WM充当一个虚拟环境(Simulator)。VLA在这个虚拟环境里输出动作,WM反馈下一步状态和奖励。主要用于评估VLA的成功率,或者作为RL微调的模拟器。(交互方式:闭环的环境与Agent交互,主要在Offline阶段)
目前纯端到端VLA无创新,基本被学术和工业界弃用,个人认为几个原因1. 只能做pick&place,自由度、任务难度一上去维度爆炸,无法sim2real 2. VL到A的跨度太大,中间缺失了任务逻辑、物理约束、空间几何等关键桥梁 3. 黑盒,毫无可解释性,不可能大规模投入物理世界使用 4. 一味把gpt堆数据堆算力式的成功套用到VLA上 5. 高质量数据不够。
之前就一直在提vlp-humanoid的工作,我觉得大体上的架构是没问题的,仅保留VL的部分,VLM作为Planner来做子任务拆解、技能选择等工作,A的部分还是需要RL以及WorldModel的辅助(参考Nvidia的Cosmos Policy,挺有意思的工作)。这样才能真正要在物理世界走通,越往底层越靠RL,底层策略必须能被调试、重用,而不是黑盒token序列,最后sim2real控制闭环则可以靠分层RL来实现。其实和之前类脑的思想差不多。

浙公网安备 33010602011771号