$\pi$系列

第一步：架构解构与横向对比 (Architecture Dissection)

Physical Intelligence 的核心技术路线是以预训练视觉语言模型（VLM）为骨架，通过引入“动作专家”（Action Expert）和流匹配（Flow Matching）技术，实现高频、连续的动作控制。

横向对比表格

论文名称	最主要创新点	模型架构	训练 Pipeline	关键技术	RL 的使用	与前作/同类的提升
$\pi_0$	首个将 VLM 与流匹配结合的具身基础模型	PaliGemma 骨干 + 动作专家（Action Expert）	大规模跨具身预训练 + 任务特定后训练	流匹配（Flow Matching）、动作分块（Action Chunking）	主要为离线模仿学习，无显式 RL	解决了自回归 VLA 在高频、灵巧任务上的局限
FAST	基于时间序列压缩的动作令牌化（Tokenization）	基于自回归变换器（Transformer）	将连续动作压缩为离散 Token 进行预训练	离散余弦变换（DCT）压缩动作轨迹	无显式 RL	训练速度提升 5 倍，且在灵巧任务上匹配流匹配性能
$\pi_{0.5}$	异构数据联合训练（Co-training）实现跨场景泛化	统一架构处理视觉、语言及离散/连续动作	结合 Web 数据、多机器人数据及高层语义预测	高层子任务预测（Subtask Prediction）	引入子任务预测，类似于 RL 中的分层思想	首次在完全陌生的家庭环境中实现长程灵巧操作
Hi Robot	分层 VLA 架构处理复杂、开放指令	系统 1（低层 $\pi_0$）与系统 2（高层 VLM）分层推理	使用合成数据标注复杂指令和人机互动	合成数据生成（Synthetic Data Generation）	无显式 RL	能够理解“不要放西红柿”等复杂约束并进行实时纠错
RTC	实时分块（Real-Time Chunking）解决推理延迟	基于流匹配的异步执行架构	训练流匹配策略以支持在线引导补全	指导性补全（Guidance-based Inpainting）	引入价值函数引导（Value Guidance）进行推理增强	在高动态、高延迟环境下性能远超同步推理
$\pi_{0.5}$ KI	知识隔离（Knowledge Insulation）保护 VLM 背景知识	引入停止梯度（Stop-gradient）的混合专家架构	离散/连续动作联合训练 + 梯度流控制	梯度隔离技术、混合损失函数（Co-loss）	无显式 RL	防止了新参数训练对 VLM 预训练知识的破坏，提升语言遵循能力
*$\pi^_{0.6}$ (RECAP)**	通过 RECAP 算法实现具身 VLA 的自我进化	优势条件策略（Advantage-conditioned VLA）	离线 RL 预训练 + 在线迭代（收集中间干预数据）	价值函数训练、优势阈值选择	核心创新点：使用优势加权进行强化学习迭代	使任务吞吐量翻倍，失败率减半，实现自我改进

第二步：RL 与具身智能的融合 (RL and Embodied Intelligence)

结合 Physical Intelligence 的最新进展 $\pi^*_{0.6}$ (RECAP) 和 RTC，具身智能与 RL 的融合正在向微观层面深入：

优势引导的策略提取（Advantage-Conditioned Extraction）：
- RECAP 论文提出训练一个语言条件的分布式价值函数（Value Function），用于评估当前动作对任务成功的“优势”。
- 通过在策略输入中加入“优势指示符”（Advantage Indicator $I_t$），模型在推理时可以被显式地要求生成“高优势”的动作。这种做法比传统的 PPO 更适合大规模 VLA，因为它能利用所有离线和在线数据，而不需要复杂的在线策略更新。
引导补全与实时纠错（Inpainting Guidance）：
- RTC 论文提出利用价值函数作为“引导力”（Guidance），在流匹配的去噪过程中不断修正动作分块。
- 这种微观层面的融合允许机器人在动作执行的中途，根据价值函数的反馈实时调整轨迹，而不需要等待下一个完整的推理周期。
分层强化学习与子任务对齐：
- 在 $\pi_{0.5}$ 和 Hi Robot 中，高层策略预测子任务指令。未来的创新可以引入 RL 中的“内部奖励”（Intrinsic Reward），当低层 $\pi_0$ 策略成功完成高层指定的子任务时给予奖励，从而实现端到端的层次化优化。

第三步：工程实现中的挑战 (Engineering Reality Check)

计算开销与推理延迟：
- 引入 RL 尤其是在线价值引导（RTC）时，由于需要在流匹配的每个集成步骤计算梯度，计算成本会显著增加。
- 虽然 $\pi_0$ 系列通过“动作专家”将灵巧控制频率提升至 10Hz-50Hz，但在复杂的 System 2 推理下，维持这种实时性极具挑战。
数据效率与探索难题：
- 真实世界的 RL 极度依赖高质量的负面反馈和纠错数据。RECAP 依赖于人类专家的干预（Interventions）来提供高质量的修正样本。如何在没有人类持续监督的情况下，利用世界模型（World Model）生成真实的合成失败案例进行自主探索，是迈向 AGI 的关键障碍。
奖励函数的设计（Reward Design）：
- 对于长程任务（如打扫厨房），稀疏奖励（Sparse Reward）难以引导学习。$\pi_{0.5}$ 尝试通过子任务标注来提供“伪奖励”，但这种人工标注难以规模化。

Hi Robot

$$\pi_{0.6}^{*}$1$

$$\pi_{0.6}^{*}$2$

posted @ 2026-02-22 17:23 kirin-dev 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

论文名称	最主要创新点	模型架构	训练 Pipeline	关键技术	RL 的使用	与前作/同类的提升
\(\pi_0\)	首个将 VLM 与流匹配结合的具身基础模型	PaliGemma 骨干 + 动作专家（Action Expert）	大规模跨具身预训练 + 任务特定后训练	流匹配（Flow Matching）、动作分块（Action Chunking）	主要为离线模仿学习，无显式 RL	解决了自回归 VLA 在高频、灵巧任务上的局限
FAST	基于时间序列压缩的动作令牌化（Tokenization）	基于自回归变换器（Transformer）	将连续动作压缩为离散 Token 进行预训练	离散余弦变换（DCT）压缩动作轨迹	无显式 RL	训练速度提升 5 倍，且在灵巧任务上匹配流匹配性能
\(\pi_{0.5}\)	异构数据联合训练（Co-training）实现跨场景泛化	统一架构处理视觉、语言及离散/连续动作	结合 Web 数据、多机器人数据及高层语义预测	高层子任务预测（Subtask Prediction）	引入子任务预测，类似于 RL 中的分层思想	首次在完全陌生的家庭环境中实现长程灵巧操作
Hi Robot	分层 VLA 架构处理复杂、开放指令	系统 1（低层 \(\pi_0\)）与系统 2（高层 VLM）分层推理	使用合成数据标注复杂指令和人机互动	合成数据生成（Synthetic Data Generation）	无显式 RL	能够理解“不要放西红柿”等复杂约束并进行实时纠错
RTC	实时分块（Real-Time Chunking）解决推理延迟	基于流匹配的异步执行架构	训练流匹配策略以支持在线引导补全	指导性补全（Guidance-based Inpainting）	引入价值函数引导（Value Guidance）进行推理增强	在高动态、高延迟环境下性能远超同步推理
\(\pi_{0.5}\) KI	知识隔离（Knowledge Insulation）保护 VLM 背景知识	引入停止梯度（Stop-gradient）的混合专家架构	离散/连续动作联合训练 + 梯度流控制	梯度隔离技术、混合损失函数（Co-loss）	无显式 RL	防止了新参数训练对 VLM 预训练知识的破坏，提升语言遵循能力
*\(\pi^_{0.6}\) (RECAP)**	通过 RECAP 算法实现具身 VLA 的自我进化	优势条件策略（Advantage-conditioned VLA）	离线 RL 预训练 + 在线迭代（收集中间干预数据）	价值函数训练、优势阈值选择	核心创新点：使用优势加权进行强化学习迭代	使任务吞吐量翻倍，失败率减半，实现自我改进

kirin-dev

$\pi$系列

第一步：架构解构与横向对比 (Architecture Dissection)

横向对比表格

第二步：RL 与具身智能的融合 (RL and Embodied Intelligence)

第三步：工程实现中的挑战 (Engineering Reality Check)

公告