$\pi$系列
第一步:架构解构与横向对比 (Architecture Dissection)
Physical Intelligence 的核心技术路线是以预训练视觉语言模型(VLM)为骨架,通过引入“动作专家”(Action Expert)和流匹配(Flow Matching)技术,实现高频、连续的动作控制。
横向对比表格
| 论文名称 | 最主要创新点 | 模型架构 | 训练 Pipeline | 关键技术 | RL 的使用 | 与前作/同类的提升 |
|---|---|---|---|---|---|---|
| \(\pi_0\) | 首个将 VLM 与流匹配结合的具身基础模型 | PaliGemma 骨干 + 动作专家(Action Expert) | 大规模跨具身预训练 + 任务特定后训练 | 流匹配(Flow Matching)、动作分块(Action Chunking) | 主要为离线模仿学习,无显式 RL | 解决了自回归 VLA 在高频、灵巧任务上的局限 |
| FAST | 基于时间序列压缩的动作令牌化(Tokenization) | 基于自回归变换器(Transformer) | 将连续动作压缩为离散 Token 进行预训练 | 离散余弦变换(DCT)压缩动作轨迹 | 无显式 RL | 训练速度提升 5 倍,且在灵巧任务上匹配流匹配性能 |
| \(\pi_{0.5}\) | 异构数据联合训练(Co-training)实现跨场景泛化 | 统一架构处理视觉、语言及离散/连续动作 | 结合 Web 数据、多机器人数据及高层语义预测 | 高层子任务预测(Subtask Prediction) | 引入子任务预测,类似于 RL 中的分层思想 | 首次在完全陌生的家庭环境中实现长程灵巧操作 |
| Hi Robot | 分层 VLA 架构处理复杂、开放指令 | 系统 1(低层 \(\pi_0\))与系统 2(高层 VLM)分层推理 | 使用合成数据标注复杂指令和人机互动 | 合成数据生成(Synthetic Data Generation) | 无显式 RL | 能够理解“不要放西红柿”等复杂约束并进行实时纠错 |
| RTC | 实时分块(Real-Time Chunking)解决推理延迟 | 基于流匹配的异步执行架构 | 训练流匹配策略以支持在线引导补全 | 指导性补全(Guidance-based Inpainting) | 引入价值函数引导(Value Guidance)进行推理增强 | 在高动态、高延迟环境下性能远超同步推理 |
| \(\pi_{0.5}\) KI | 知识隔离(Knowledge Insulation)保护 VLM 背景知识 | 引入停止梯度(Stop-gradient)的混合专家架构 | 离散/连续动作联合训练 + 梯度流控制 | 梯度隔离技术、混合损失函数(Co-loss) | 无显式 RL | 防止了新参数训练对 VLM 预训练知识的破坏,提升语言遵循能力 |
| \(\pi^*_{0.6}\) (RECAP) | 通过 RECAP 算法实现具身 VLA 的自我进化 | 优势条件策略(Advantage-conditioned VLA) | 离线 RL 预训练 + 在线迭代(收集中间干预数据) | 价值函数训练、优势阈值选择 | 核心创新点:使用优势加权进行强化学习迭代 | 使任务吞吐量翻倍,失败率减半,实现自我改进 |
第二步:RL 与具身智能的融合 (RL and Embodied Intelligence)
结合 Physical Intelligence 的最新进展 \(\pi^*_{0.6}\) (RECAP) 和 RTC,具身智能与 RL 的融合正在向微观层面深入:
-
优势引导的策略提取(Advantage-Conditioned Extraction):
- RECAP 论文提出训练一个语言条件的分布式价值函数(Value Function),用于评估当前动作对任务成功的“优势”。
- 通过在策略输入中加入“优势指示符”(Advantage Indicator \(I_t\)),模型在推理时可以被显式地要求生成“高优势”的动作。这种做法比传统的 PPO 更适合大规模 VLA,因为它能利用所有离线和在线数据,而不需要复杂的在线策略更新。
-
引导补全与实时纠错(Inpainting Guidance):
- RTC 论文提出利用价值函数作为“引导力”(Guidance),在流匹配的去噪过程中不断修正动作分块。
- 这种微观层面的融合允许机器人在动作执行的中途,根据价值函数的反馈实时调整轨迹,而不需要等待下一个完整的推理周期。
-
分层强化学习与子任务对齐:
- 在 \(\pi_{0.5}\) 和 Hi Robot 中,高层策略预测子任务指令。未来的创新可以引入 RL 中的“内部奖励”(Intrinsic Reward),当低层 \(\pi_0\) 策略成功完成高层指定的子任务时给予奖励,从而实现端到端的层次化优化。
第三步:工程实现中的挑战 (Engineering Reality Check)
-
计算开销与推理延迟:
- 引入 RL 尤其是在线价值引导(RTC)时,由于需要在流匹配的每个集成步骤计算梯度,计算成本会显著增加。
- 虽然 \(\pi_0\) 系列通过“动作专家”将灵巧控制频率提升至 10Hz-50Hz,但在复杂的 System 2 推理下,维持这种实时性极具挑战。
-
数据效率与探索难题:
- 真实世界的 RL 极度依赖高质量的负面反馈和纠错数据。RECAP 依赖于人类专家的干预(Interventions)来提供高质量的修正样本。如何在没有人类持续监督的情况下,利用世界模型(World Model)生成真实的合成失败案例进行自主探索,是迈向 AGI 的关键障碍。
-
奖励函数的设计(Reward Design):
- 对于长程任务(如打扫厨房),稀疏奖励(Sparse Reward)难以引导学习。\(\pi_{0.5}\) 尝试通过子任务标注来提供“伪奖励”,但这种人工标注难以规模化。






浙公网安备 33010602011771号