Pi0.5:具有开放世界泛化能力的视觉-语言-动作模型

摘要

为了让机器人真正有用，它们必须能够在现实世界中执行实际相关的任务，而不仅仅是在实验室中。尽管视觉-语言-动作（VLA）模型在端到端机器人控制方面取得了令人瞩目的进展，我们提出了\(\pi_{0.5}\)，这是一个基于\(\pi_0\)的新模型，通过在异构任务上的协同训练，实现了广泛的泛化能力。\(\pi_{0.5}\)利用来自多种机器人、高层语义预测、网络数据等多种来源的数据，使其具备了广泛泛化的现实世界机器人操作能力。我们的系统结合了协同训练和多模态混合示例，将图像观测、语言指令、物体检测、语义子任务预测和低层动作结合在一起。实验表明，这种知识迁移对于实现有效泛化至关重要。我们首次展示了一个端到端学习驱动的机器人系统能够在全新家庭环境中执行长时序且灵巧的操作任务，例如清理厨房或卧室。

引言

开放世界泛化是物理智能领域最大的未解难题之一：只有当机器人手臂、人形机器人和自动驾驶汽车等具身系统能够走出实验室，处理现实世界中多样化的场景和突发事件时，它们才真正变得有用。基于学习的系统为实现广泛泛化提供了一条路径，尤其是近年来在自然语言处理和计算机视觉等领域，规模化学习系统取得了突破性进展。然而，机器人在现实世界中可能遇到的情境极其多样，仅靠规模化还远远不够：我们需要设计能够提供广泛知识的训练方案，使机器人在多个抽象层面实现泛化。例如，当一台移动机器人被要求清理一个它从未见过的厨房时，有些行为如果在数据中涵盖了足够多的场景和物体，便能很好地泛化（如捡起刀具或盘子）；有些则需要将已有技能进行适应或重组，以适应新的顺序或环境；还有一些则需要基于先验知识理解场景语义（比如该打开哪个抽屉，或者判断台面上的哪个物体最可能是沥水架）。我们该如何为机器人学习系统设计训练方案，以实现这种灵活的泛化能力？

人类可以凭借一生的经验，综合应对上述各种挑战。这些经验并非全部来自亲身实践，也不仅仅是机械重复——比如，我们可能会用到别人告诉我们的事实、书本中学到的知识，以及在不同情境下完成其他任务时获得的见解，再结合在目标领域的直接经验。类似地，我们可以假设，具备泛化能力的机器人学习系统也必须能够从多种信息源迁移经验和知识。这些信息源有些是与当前任务直接相关的第一手经验，有些则需要从其他机器人形态、环境或领域迁移，还有一些则属于完全不同的数据类型，比如口头指令、基于网络数据的感知任务，或高层语义命令的预测。这些数据源的异质性带来了巨大挑战，但幸运的是，近期视觉-语言-动作（VLA）模型的进展为我们提供了工具：通过将不同模态统一到序列建模框架中，VLA 可以适配机器人数据、语言数据、计算机视觉任务，甚至它们的任意组合。

本文正是基于这一观察，设计了一种 VLA 协同训练框架，能够利用异构且多样的知识源，实现广泛泛化。在 \(\pi_0\) VLA 的基础上，我们提出了 \(\pi_{0.5}\) 模型（“pi oh five”），它能够控制移动机械臂，在训练时从未见过的家庭环境中完成多种家务任务。\(\pi_{0.5}\) 汲取了多种经验来源：除了直接用移动机械臂在真实家庭中采集的中等规模数据集（约400小时），还包括其他非移动机器人的数据、实验室条件下采集的相关任务数据、需要根据机器人观测预测“高层”语义任务的训练样本、人类监督者为机器人提供的口头语言指令，以及来自网络数据的多模态样本，如图像描述、问答和目标定位（见图1）。在 \(\pi_{0.5}\) 的第一阶段训练中，绝大多数训练样本（97.6%）并非来自移动机械臂执行家务任务，而是来自其他机器人或网络数据等其他来源。尽管如此，\(\pi_{0.5}\) 依然能够在训练时未见过的全新家庭中控制移动机械臂，完成如挂毛巾、整理床铺等复杂任务，并能执行长达10到15分钟的长时序操作，仅凭高层指令即可清理整个厨房或卧室。

\(\pi_{0.5}\) 的设计遵循简单的分层架构：我们首先在异构任务混合数据上对模型进行预训练，然后通过低层动作样本和高层“语义”动作（即预测子任务标签，如“捡起菜板”或“整理枕头”）对其进行专门微调。在推理阶段，每一步模型首先预测语义子任务，根据任务结构和场景语义推断下一步应执行的行为，然后基于该子任务预测低层机器人动作片段。这一简单架构既能让模型对长时序多阶段任务进行推理，又能让不同层级的推理过程受益于不同知识源：低层动作推理可以充分利用其他机器人采集的动作数据，包括在其他环境中的静态机器人；而高层推理则受益于网络语义样本、高层注释预测，甚至是人类“监督者”通过口头指令一步步引导机器人完成复杂任务（如清理房间）时提供的语言命令。我们在图1中对这一设计进行了说明。

我们的核心贡献是提出了一套训练高度泛化 VLA 的系统 \(\pi_{0.5}\)，并通过实验证明，只要训练数据足够多样，泛化能力就能在该模型中自然涌现。我们对 \(\pi_{0.5}\) 的泛化能力及不同协同训练要素的作用进行了详细实证评估。据我们所知，这是首次展示端到端学习驱动的机器人系统能够在全新家庭环境中执行长时序且灵巧的操作任务（如清理厨房或卧室）。我们的实验和对比进一步表明，这一能力的实现依赖于从其他机器人、高层语义预测、人类监督者的口头指令、网络数据等多种来源迁移知识。

预备知识

视觉-语言-动作模型（VLA）通常采用模仿学习方法，在多样化的机器人演示数据集 \(\mathcal{D}\) 上进行训练。其目标是在给定观测 \(o_t\) 和自然语言任务指令 \(\ell\) 的条件下，最大化动作 \(a_t\)（或更一般地，一个动作片段 \(a_{t:t+H}\)）的对数似然：

\[\max_\theta \ \mathbb{E}_{(a_{t:t+H}, o_t, l) \sim \mathcal{D}} \ \log \big(\pi_\theta(a_{t:t+H} \mid o_t, \ell)\big) \]

其中，观测 \(o_t\) 通常包括一张或多张图像 \(I^1_t, ..., I^n_t\) 以及本体状态 \(q_t\)，本体状态记录了机器人关节的位置等信息。

VLA 架构遵循现代语言和视觉-语言模型的设计，采用模态特定的分词器，将输入和输出映射为离散（“硬”）或连续（“软”）的 token 表示，并使用大型自回归 Transformer 主干网络，将输入 token 映射到输出 token。这些模型的权重初始化自预训练的视觉-语言模型。通过将策略输入和输出编码为 token 化表示，上述模仿学习问题可以转化为一个简单的序列观测、指令和动作 token 的下一个 token 预测问题，从而可以利用现代机器学习的可扩展工具进行优化。实际上，图像和文本输入的分词器选择遵循现代视觉-语言模型的做法。对于动作，已有工作提出了基于压缩的高效 token 化方法，我们在预训练阶段采用了这些方法。近期一些 VLA 模型还提出用扩散或流匹配来表示动作分布，从而对连续值动作片段提供更具表现力的建模。在我们模型的后训练阶段，将基于 \(\pi_0\) 模型的设计，用流匹配来表示动作分布。在这种设计中，与动作相关的 token 接收流匹配上一步的部分去噪动作作为输入，并输出流匹配的向量场。这些 token 还会使用一组不同的模型权重，我们称之为“动作专家”，类似于专家混合架构。该动作专家可以专门用于基于流匹配的动作生成，并且可以比主干 LLM 更小。

模型与训练方案

我们在图3中给出了 \(\pi_{0.5}\) 模型及其训练方案的概览。模型权重初始化自在网络数据上训练的标准 VLM，训练分为两个阶段：预训练阶段旨在让模型适应多样化的机器人任务，后训练阶段则专注于移动操作，并为高效推理提供机制。在预训练阶段，所有任务（包括机器人动作任务）都用离散 token 表示，这带来了简单、可扩展且高效的训练。在后训练阶段，我们让模型也拥有一个动作专家，类似于 \(\pi_0\)，以便更细粒度地表示动作，并实现实时控制所需的高效推理。在推理时，模型首先生成一个高层子任务，然后在该子任务的条件下，通过动作专家预测低层动作。我们将在下文介绍模型架构，并依次描述每个阶段及其对应的训练任务。

模型架构

\(\pi_{0.5}\) 架构能够灵活地同时建模动作片段分布和 token 化文本输出。文本输出既可用于协同训练任务（如视觉-语言问答），也可在分层推理时输出高层子任务预测。模型学习的联合分布可表示为：

\[\pi_\theta(a_{t:t+H}, \mid o_t, \ell) \]

其中，\(o_t = [I^1_t, ..., I^n_t, q_t]\) 包含所有摄像头的图像和机器人的本体状态（如关节角度、夹爪姿态、升降机构姿态和底盘速度），\(\ell\) 是整体任务提示（如“收拾餐具”），\(\hat{\ell}\) 表示模型的 token 化文本输出（如预测的高层子任务“捡起盘子”或视觉-语言问答），\(a_{t:t+H}\) 是预测的动作片段。

该联合分布可以分解为：

\[\pi_\theta(a_{t:t+H}, \hat{\ell} \mid o_t, \ell) = \pi_\theta(a_{t:t+H} \mid o_t, \hat{\ell})\;\pi_\theta(\hat{\ell} \mid o_t, \ell) \]

其中，动作分布 \(\pi_\theta(a_{t:t+H} \mid o_t, \hat{\ell})\) 仅依赖于观测和高层文本输出，不直接依赖于原始任务提示 \(\ell\)。因此，高层推理对应 \(\pi_\theta(\hat{\ell} \mid o_t, \ell)\)，低层推理对应 \(\pi_\theta(a_{t:t+H} \mid o_t, \hat{\ell})\)，两者均由同一个模型统一建模。

该模型本质上是一个 Transformer，输入为 \(N\) 个多模态 token \(x_{1:N}\)（这里 token 泛指离散和连续输入），输出为一系列多模态输出 \(y_{1:N}\)，可表示为：

\[y_{1:N} = f\big(x_{1:N}, A(x_{1:N}), \rho(x_{1:N})\big) \]

其中，每个 \(x_i\) 可以是文本 token（\(x_i^w \in \mathbb{N}\)）、图像 patch（\(x_i^I \in \mathbb{R}^{p \times p \times 3}\)），或流匹配中的机器人动作中间去噪值（\(x_i^a \in \mathbb{R}^d\)）。观测 \(o_t\) 和 \(\ell\) 构成 \(x_{1:N}\) 的前缀部分。

根据 token 类型（由 \(\rho(x_i)\) 指示），每个 token 不仅可以由不同的编码器处理，还可以由 Transformer 内部的不同专家权重处理。例如，图像 patch 通过视觉编码器，文本 token 用嵌入矩阵编码。参考 \(\pi_0\)，我们将动作 token \(x_i^a\) 线性投影到 Transformer 嵌入空间，并在 Transformer 内部用独立的专家权重处理动作 token。

注意力矩阵 \(A(x_{1:N}) \in [0,1]^{N \times N}\) 指示一个 token 是否可以关注另一个 token。与标准 LLM 的因果注意力不同，图像 patch、文本提示和连续动作 token 使用双向注意力。

由于我们希望模型既能输出文本（用于场景问答或输出下一个要完成的任务），也能输出动作（用于实际操作），\(f\) 的输出被分为文本 token logits 和动作输出 token，分别为 \(\big(y^\ell_{1:M}, y^a_{1:H}\big)\)。前 \(M\) 个是文本 token logits，可用于采样 \(\hat{\ell}\)，后 \(H\) 个 token 由独立的动作专家生成，并通过线性映射解码为连续输出，得到 \(a_{t:t+H}\)（见下一节）。注意 \(M + H \le N\)，即并非所有输出都参与损失计算。机器人本体状态被离散化后以文本 token 形式输入模型。

结合离散与连续动作表示

\(\pi_{0.5}\) 在预训练阶段使用来自移动机械臂（MM）、非移动机器人多环境数据（ME）、实验室条件下的跨形态数据（CE）、高层子任务预测数据（HL）以及多模态网络数据（WD）。在后训练阶段，额外引入了口头指令数据（VI），并省略了实验室跨形态数据（CE），以便模型专注于移动操作和多样环境。下图展示了每类数据中的部分任务示例。

与 \(\pi_0\) 类似，最终模型采用流匹配方法预测连续动作。给定 \(a_{t:t+H}^{\tau, \omega} = \tau a_{t:t+H} + (1-\tau)\omega\)，其中 \(\omega \sim \mathcal{N}(0,I)\)，\(\tau\in[0,1]\) 为流匹配时间索引，模型训练目标是预测流向量场 \(\omega - a_{t}\)。已有研究表明，若动作通过离散 token（如 FAST 编码器）表示，VLA 训练速度可大幅提升，但这种离散表示在实时推理时表现不佳，因为需要昂贵的自回归解码。因此，理想的模型应在训练时用离散动作表示，推理时则通过流匹配生成连续动作。

为此，我们设计的模型可同时通过自回归采样 token（FAST 编码器）和流场迭代积分预测动作，兼具两者优势。注意力矩阵确保不同动作表示间不会相互关注。模型优化目标为最小化以下联合损失：

\[\mathbb{E}_{\mathcal{D}, \tau, \omega} \Big[ H\big(x_{1:M}, f^\ell_\theta(o_t, \ell)\big) + \alpha \left\|\omega - a_{t:t+H} - f^a_\theta(a^{\tau, \omega}_{t:t+H}, o_t, \ell)\right\|^2 \Big], \]

其中 \(H(x_{1:M}, y^\ell_{1:M})\) 是文本 token 与预测 logits（包括 FAST 编码动作 token）间的交叉熵损失，\(y^a_{1:H} = f^a_\theta(a^{\tau, \omega}_{t:t+H}, o_t, \ell)\) 为（较小的）动作专家输出，\(\alpha\) 为权衡参数。

该方案允许我们先用动作文本 token（\(\alpha=0\)）将模型预训练为标准 VLM Transformer，再在后训练阶段添加动作专家权重，以非自回归方式预测连续动作，实现快速推理。实验证明，这一流程可实现稳定预训练，并显著提升 VLA 的语言跟随能力。推理时，先对文本 token \(\hat{\ell}\) 进行自回归解码，再以文本 token 为条件执行 10 次去噪，生成动作 \(a_{t:t+H}\)。

预训练

在第一阶段训练中，\(\pi_{0.5}\) 使用了广泛的机器人和非机器人数据，具体如下，并在图4中进行了展示。模型以标准自回归 Transformer 方式训练，进行文本、物体位置和 FAST 编码动作 token 的下一个 token 预测。

多样化的移动机械臂数据（MM）
我们收集了约400小时的移动机械臂数据，涵盖了约100个不同家庭环境中的家务任务，这些环境部分展示于图7，所用机器人见第IV-E节。这部分数据与我们的评测任务最为相关，评测任务同样是在全新、未见过的家庭环境中进行清洁和整理。

多样化的多环境非移动机器人数据（ME）
我们还收集了非移动机器人的数据，这些机器人可能是单臂或双臂，被固定在桌面或其他平台上。由于这些机械臂更轻便、易于运输，我们能够在更多家庭环境中采集更丰富的数据集。不过，这些 ME 数据来自与移动机器人不同的形态。

跨形态实验室数据（CE）
我们在实验室中采集了涵盖多种任务（如收拾餐具、叠衣服等）的数据，环境更为简单，机器人类型多样，包括单臂、双臂、静态和移动底座。有些任务与评测高度相关（如将餐具放入收纳箱），有些则无关（如研磨咖啡豆）。此外还包含了开源 OXE 数据集。这部分数据是 \(\pi_0\) 所用数据集的扩展版本。

高层子任务预测（HL）
将“清理卧室”等高层任务命令分解为“整理被子”“捡起枕头”等短子任务，类似于语言模型的链式思维，有助于策略推理当前场景并确定下一步行动。对于 MM、ME、CE 中涉及多子任务的机器人数据，我们为所有数据手动标注了语义子任务描述，并训练 \(\pi_{0.5}\) 同时预测子任务标签（文本）和基于子任务标签的动作（以当前观测和高层命令为条件）。这样模型既能作为高层策略输出子任务，也能作为低层策略执行具体动作。我们还为当前观测中的相关目标标注了边界框，并训练模型在预测子任务前先预测这些框。

多模态网络数据（WD）
最后，我们引入了多样化的网络数据，包括图像描述、问答和目标定位等任务。目标定位部分还扩展了标准数据集，补充了更多室内场景和家庭物体的边界框标注。

对于所有动作数据，我们训练模型预测目标关节和末端执行器的位姿。为区分两者，我们在文本提示中加入“\(<\)control_mode\(>\) joint/end effector \(<\)control_mode\(>\)”。所有动作数据均归一化到 \([-1,1]\) 区间，采用各数据集每个动作维度的1%和99%分位数。动作 \(a\) 的维度设为固定值，以适配所有数据集中最大的动作空间。对于配置和动作空间维度较低的机器人，动作向量采用零填充。

后训练

在使用离散token进行28万步梯度预训练后，我们进行第二阶段的训练，称为后训练（post-training）。

这一阶段的目的是让模型专注于我们的应用场景（家庭中的移动操作），并添加一个动作专家（action expert），通过流匹配（flow matching）生成连续的动作片段（action chunks）。该阶段联合训练了下一个token的预测（next-token prediction）以保持文本预测能力，同时对动作专家进行流匹配训练（在后训练开始时动作专家的权重为随机初始化）。

我们优化公式1中的目标函数，\(\alpha = 10.0\)，训练8万步。后训练阶段的动作数据集包括MM和ME机器人的数据，筛选出成功且长度低于固定阈值的片段。我们还加入了网页数据（WD），以保持模型的语义和视觉能力，以及与多环境数据集相关的HL数据部分。此外，为了提升模型预测合适高层子任务的能力，我们收集了“口头指令”演示（\VI），即由专家用户通过“语言演示”逐步为机器人提供合适的子任务命令，指导机器人一步步完成移动操作任务。这些示例是通过专家实时用语言“远程操作”机器人，配合已训练的低层策略完成任务，实质上为已训练策略提供了高质量高层子任务输出的演示。

机器人系统细节

我们在移动操作实验中使用的机器人系统如图5所示。所有实验均采用了两种类型的移动操作机器人。这两种平台都配备了两个6自由度机械臂（带有平行夹爪和腕部单目RGB相机）、一个全向轮式底盘和一个躯干升降机构。底盘的状态和动作空间包括线速度（二维）和角速度（一维），躯干升降机构为一维（上下）或二维（上下和前后）。除了两个腕部相机外，机器人还在两臂之间安装了前向和后向相机。高层推理时使用全部四个相机，低层推理时使用腕部和前向相机。根据平台不同，状态和动作空间的总维度为18或19。

控制系统非常简单：\(\pi_{0.5}\) 模型以50Hz（带动作分块）直接输出机械臂、夹爪、躯干升降的目标位姿，以及底盘的目标速度。这些目标通过简单的PD控制器进行跟踪，没有额外的轨迹规划或避障模块。所有操作和导航控制均为端到端实现。

实验评估

\(\pi_{0.5}\) 模型旨在实现对新环境的广泛泛化。虽然通常会在与训练数据相匹配的环境中评估 VLA 模型，但我们所有实验均在训练中未见过的新环境中进行。为了进行定量对比，我们使用了一组模拟家庭环境，以提供可控且可复现的实验设置；而最真实的最终评测则在三个位于真实家庭中的环境中进行，这些家庭均未包含在训练集中（见图6）。我们的实验聚焦于以下几个问题：

\(\pi_{0.5}\) 能否在全新家庭环境中有效泛化，完成复杂的多阶段任务？
\(\pi_{0.5}\) 的泛化能力如何随着训练数据中不同环境数量的增加而变化？
\(\pi_{0.5}\) 训练混合配方中的各个协同训练成分对最终性能有何贡献？
\(\pi_{0.5}\) 与 \(\pi_0\) VLA 相比表现如何？
\(\pi_{0.5}\) 的高层推理组件有多重要？它与仅低层推理以及“高层oracle”基线相比如何？

\(\pi_{0.5}\) 能否泛化到真实家庭？

为回答问题(1)，我们在三个位于真实家庭中的环境中评估了\(\pi_{0.5}\)，这些家庭在训练集中未出现，并使用了两种类型的机器人。在每个家庭中，机器人都被要求执行卧室和厨房的清洁任务。每项任务的评测标准详见附录，大致对应于每项任务成功完成的步骤百分比（例如，将一半的餐具放入水槽大约对应50%）。如图7所示，\(\pi_{0.5}\) 能够在每个家庭中稳定地完成多种任务（此外，模型还能够完成远超定量评测范围的更多任务）。许多任务包含多个阶段（如搬运多个物体），持续时间约为2到5分钟。在这些实验中，模型仅接收一个简单的高层指令（如“把餐具放进水槽”），高层推理过程会自主决定合适的子步骤（如“捡起杯子”）。这种“野外”泛化能力远超以往视觉-语言-动作模型的结果，无论是在模型需要应对的新颖性程度，还是在任务的持续时间和复杂性方面。

泛化能力如何随场景数量扩展？

在接下来的实验中，我们旨在衡量泛化能力如何随着训练数据中环境数量的增加而变化。我们通过调整移动操作数据中环境的数量，并测量其对泛化能力的影响，具体训练数据分别包含3、12、22、53、82和104个不同地点的数据。由于对每个数据集都完整应用预训练和后训练配方在计算上极为昂贵，因此在这些实验中，我们首先在不包含移动操作数据的机器人动作预测数据混合集上进行预训练，然后对包含不同数量环境的移动操作数据进行后训练。虽然按地点划分的数据集在理论上大小不同，但实际上每个模型训练的步数（40k）都经过调整，使其看到的独立数据样本数量相同，从而在后训练实验中控制了数据集规模对结果的影响。

每个模型都在图6所示的模拟环境中进行评估，这些环境在训练中未出现。我们进行了两类评测。首先，为了评估多阶段任务的整体表现，我们采用附录B中的标准评分方式，并在模拟测试家庭中评估每个模型在“将餐具放入水槽”、“将物品收纳进抽屉”、“收拾衣物进篮子”和“整理床铺”四项任务上的端到端表现。其次，我们还对模型根据语言指令操作新物体的能力进行了更细致的评测，要求机器人根据语言命令从厨房台面上挑选特定物品。这些实验既包含了训练数据中出现过类别（但实例不同）的物体，也包含了从未见过类别的“分布外”物体，后者对模型的语义泛化能力提出了更高要求。

第一次实验的结果如图8所示。随着训练环境数量的增加，四项任务的平均表现整体提升。为了量化最终模型（104个环境）在泛化能力上的提升，我们引入了一个对照组（绿色），该组直接在测试家庭的数据上训练。该对照组与最终的104环境模型表现相近，说明我们的协同训练配方能够实现广泛泛化，其性能接近于直接在测试环境上训练的模型。为了进一步验证这种泛化能力确实依赖于完整的协同训练配方，我们还加入了两个基线：它们在预训练阶段不使用任何其他协同训练任务，而是直接在测试环境数据（浅绿色）或104个训练环境的移动操作数据（浅黄色）上训练。两种基线的表现都明显较差——这表明，完整训练配方中利用的其他数据源对于实现良好的泛化能力至关重要，即使策略已经见过测试家庭的机器人数据。如果不使用测试家庭的数据，采用我们的协同训练配方进行预训练尤为重要，这一点可以从图8中绿色和浅黄色柱之间的巨大差距看出。

第二个实验（语言跟随）的结果如图9所示。我们报告了语言跟随率（即机器人选择与语言指令相符物体的频率）和成功率（即机器人成功将该物体放入正确位置——抽屉或水槽——的频率）。我们分别统计了在训练中见过的物体类别（但为新实例）和未见过的“分布外”物体类别上的表现。该实验的详细内容见附录C。图9显示，随着训练数据中环境数量的增加，语言跟随表现和成功率均有所提升。正如预期，分布内物体的表现提升更快，而分布外物体提升较慢。随着每个新环境引入新的家庭物品，模型整体变得更加健壮，并开始泛化到训练数据中未出现过的任务类别。

我们协同训练配方中的每一部分有多重要？

为研究问题(3)，我们将完整的 \(\pi_{0.5}\) 模型与不同训练混合方式进行对比，分析每个混合成分的重要性。评测方式依然采用模拟家庭中的端到端任务表现和描述的语言跟随评测。

回顾一下，我们的完整训练配方包含以下数据源：

多环境的移动操作数据（MM）
多环境的静态机械臂数据（ME）
实验室收集的多样化跨形态数据（CE）
高层数据（HL）：模型需要预测高层语言指令
网页数据（WD）：包括图像描述、视觉问答和目标定位任务

后训练阶段还使用了口头指令数据（VI），其作用将在后文分析。在这些实验中，我们对不同混合成分进行了消融实验，具体如下：

无 WD：不包含网页数据。
无 ME：不包含多环境静态机械臂数据。
无 CE：不包含实验室跨形态数据。
无 ME 或 CE：同时去除来自其他机器人的两类数据，仅保留目标移动操作平台的数据和网页数据。

通过这些消融实验，我们可以定量分析每个数据源对模型泛化能力的贡献。

完整的模拟家庭任务结果如图10所示（每个任务的详细分解见附录D）。首先可以看到，去除任一类跨形态数据源（ME 或 CE）都会显著降低性能，说明\(\pi_{0.5}\)从跨形态迁移中获益良多，无论是来自其他环境（ME）还是其他任务（CE）。同时去除这两类数据源会进一步加剧性能下降。有趣的是，在本实验中，去除网页数据（no WD）的性能差异并不显著，但我们将在后文看到，网页数据对语言跟随（见下文）和高层子任务推理有重要影响。

语言跟随实验的结果如图11所示，趋势与图10类似——去除ME 或/和 CE 数据会显著降低性能。不同的是，去除网页数据（no WD）会导致在分布外（OOD）物体上的表现明显变差——我们推测，网页数据包含了丰富的物理对象知识，使模型能够理解并跟随涉及“未见过”物体类别的语言指令。

\(\pi_{0.5}\) 与其他 VLA 的对比

我们将\(\pi_{0.5}\)与原始\(\pi_0\) VLA 以及一个改进版本\(\pi_0\)-FAST+Flow 进行了对比。后者采用了公式1中的联合扩散与FAST动作预测方法进行训练，但仅使用动作数据，不包含HL或WD数据。这些模型为对比提供了有力的基线，因为\(\pi_0\)已被证明在复杂灵巧的移动操作任务中表现出色，而\(\pi_0\)-FAST+Flow的增强使其尽可能接近\(\pi_{0.5}\)。\(\pi_{0.5}\)在此基础上引入了协同训练任务。为公平对比，所有模型都使用相同的跨形态机器人训练集，并训练了相近步数。不同之处在于：（1）\(\pi_{0.5}\)额外使用了HL和WD数据；（2）\(\pi_{0.5}\)采用了混合训练流程，预训练阶段使用离散token，后训练阶段仅用流匹配动作专家，而\(\pi_0\)始终使用动作专家。Piz-FAST+Flow 采用混合训练流程，但只用含机器人动作的数据，因此无法进行高层推理。图12的结果显示，\(\pi_{0.5}\)显著优于\(\pi_0\)及其增强版。即使将\(\pi_0\)的训练步数延长至30万步，这一结果依然成立，这也印证了仅用扩散训练不如FAST token训练在计算效率上的优势。

高层推理有多重要？

最后，我们评估高层推理的重要性，并比较几种不同高层推理方法的性能。\(\pi_{0.5}\) 的高层推理机制接收一个高层指令（如“清理卧室”），并输出需要完成的子任务（如“捡起枕头”），然后将该子任务作为上下文用于低层动作推理，这类似于“思维链”推理方式。虽然 \(\pi_{0.5}\) 使用统一架构（同一个模型同时执行高层和低层推理），但我们也可以构建一些基线方法：要么在推理时完全不使用高层推理，直接将任务提示输入低层系统（这是标准VLA模型的常见做法），要么用其他模型来做高层推理，从而分析不同数据集成分对高层策略的影响。我们考虑了以下方法和消融实验，这些方法都使用完整的 \(\pi_{0.5}\) 低层推理流程，但高层策略不同：

\(\pi_{0.5}\)：高层和低层推理都用 \(\pi_{0.5}\) 模型。
无 WD：消融掉网页数据的 \(\pi_{0.5}\) 版本。
无 VI：消融掉口头指令（VI）数据的 \(\pi_{0.5}\) 版本。
隐式 HL：推理时不做高层推理，但训练时包含高层数据，这可能让模型隐式学到子任务。
无 HL：推理和训练时都不包含高层推理和高层数据。
GPT-4：用 GPT-4 作为高层策略，评估高层策略是否需要用机器人数据训练。为适配本领域，我们给 GPT-4 提供任务描述和常用标签列表作为提示。
人工 HL：由专家人工作为“oracle”高层策略，提供性能上限参考。

这些实验的结果如下图13所示。可以看到，完整的 \(\pi_{0.5}\) 模型表现最佳，甚至超过了 人工 HL “oracle”基线。令人惊讶的是，第二好的模型是 隐式 HL 消融版本，它在推理时并不执行高层推理，但训练时包含了完整的数据混合（包括子任务预测）。这强烈说明我们模型采用的协同训练配方非常重要：虽然显式地推理高层子任务有益，但仅仅在训练中加入子任务预测数据就能获得很大一部分收益。无 HL 消融（训练时也不包含高层任务）表现明显更差。结果还显示，虽然口头指令数据只占高层移动操作示例的约11%，但对强性能至关重要，无 VI 消融明显更弱。无 WD 消融也表现较差，说明网页数据的主要作用在于提升高层策略。最后，零样本的 GPT-4 消融表现最差，说明将视觉语言模型适配到机器人数据是非常必要的。

讨论与未来工作

我们介绍了 \(\pi_{0.5}\)，这是一种基于 \(\pi_0\) VLA 的协同训练模型，能够整合多种数据源，实现对新环境的泛化。 \(\pi_{0.5}\) VLA 能够控制移动操作机器人，在训练数据中从未见过的家庭环境中执行任务，包括清洁厨房和卧室、整理床铺、悬挂毛巾以及完成其他多阶段和灵巧操作。 \(\pi_{0.5}\) 主要在约400小时的移动操作数据上训练，但还包含了来自其他机器人的大量数据，包括多环境下的非移动机械臂数据和实验室条件下收集的数据。此外，模型还与网页数据以及基于机器人观测输出语言指令的高层预测数据进行联合训练。 \(\pi_{0.5}\) 的泛化能力表明，这种协同训练配方能够实现有效的知识迁移，使得仅用中等规模的移动操作数据集就能实现高度泛化的移动操作控制。

当然，\(\pi_{0.5}\) 也存在一些局限性。虽然我们的VLA展现了广泛的泛化能力，但它仍然会犯错。有些环境会带来持续性的挑战（例如抽屉上陌生的把手，或者机器人难以打开的柜门），有些行为则受限于部分可观测性（比如机器人手臂遮挡了需要擦拭的污渍），在某些情况下高层子任务推理也容易受到干扰（例如在收纳物品时反复开关抽屉）。通过更好的协同训练、知识迁移和更大规模的数据集来解决这些挑战，是未来值得探索的方向。其他未来工作还可以关注我们方法的技术限制。虽然 \(\pi_{0.5}\) 能够执行多种厨房和卧室清洁行为，但它目前处理的指令相对简单。模型能够理解的指令复杂度取决于训练数据，未来可以通过人工或合成方式，制作更复杂和多样化的标注，来提升模型对复杂偏好和指令的理解能力。此外，模型当前使用的上下文较为有限，若能引入更丰富的上下文和记忆机制，将有助于模型在部分可观测场景下（如需要在不同房间间导航或记住物品存放位置的任务）表现得更为出色。从更广泛的角度来看，\(\pi_{0.5}\) 探索了一种特定的异构数据源组合，但未来还可以进一步拓展数据来源。例如，我们的系统能够从口头指令中学习，这为机器人提供了一种强大的新型监督方式，未来可以探索更多人类为机器人提供上下文知识的方式。我们希望本工作能够为新一代具备广泛泛化能力的视觉-语言-动作模型（VLA）奠定基础，使其能够适应多样化的真实世界环境。

posted @ 2025-07-04 14:50 一介布衣、阅读(1114) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、