Robobench：一个全面评估多模态大语言模型作为具身智能的基准

摘要

构建能够在动态、非结构化环境中感知、推理和行动的机器人仍然是一个核心挑战。近期的具身系统通常采用双系统范式，其中系统2（System 2）处理高层推理，而系统1（System 1）执行底层控制。在这项工作中，我们将系统2称为 “具身大脑”，强调其在操作任务中作为推理和决策的认知核心的角色。鉴于此角色，对“具身大脑”进行系统性评估对于推动机器人智能至关重要。然而，现有的基准测试要么只强调执行成功率，要么在针对高层推理时存在维度不完整和任务真实性有限的问题，只能提供对认知能力的部分评估。为了弥补这一差距，我们引入了 RoboBench，一个系统性评估多模态大语言模型（MLLM）作为“具身大脑”的基准测试。受整个操作流程中关键角色的启发，RoboBench 定义了五个维度——指令理解、感知推理、泛化规划、功能可见性预测和失败分析——涵盖了14种能力、25项任务和6092个问答对。为了确保真实性，我们从大规模真实机器人数据和内部收集中整理了涵盖不同具身形态、富含属性的物体、多视角场景和记忆驱动导航的数据集。在规划方面，RoboBench 引入了一个使用 MLLM 作为世界模拟器的评估框架。它超越了符号匹配，通过模拟预测的计划是否能在物理和视觉约束下实现关键的物体状态变化，来评估具身可行性，从而能够对长时程推理进行忠实的评估。对14个当前最先进的 MLLM进行的实验揭示了其根本性的局限：在隐式指令理解、时空推理、跨场景规划、细粒度功能可见性理解以及执行失败诊断方面存在困难。RoboBench 提供了一个全面的框架，用以量化高层认知，明确“具身大脑”的角色，并指导下一代 MLLM 的发展，以实现更鲁棒的机器人智能。

引言

在动态、非结构化环境中进行操作，仍然是构建通用具身智能的核心挑战。这类任务不仅需要精确的运动控制，还需要高层次的认知能力：理解指令、感知周围环境、制定长远规划、推断功能可见性（affordances）以及反思失败。在这种情况下，多模态大语言模型（MLLMs）因其在指令遵循、常识推理和通用规划方面的优势，在这些角色中展现出巨大潜力。
为了利用这些能力，近期的具身系统通过双系统设计来集成多模态大语言模型，其中系统2（System2）执行高层推理，而系统1（System1）处理低层控制。在视觉-语言-动作（VLA）模型中，多模态大语言模型被微调作为骨干网络；而在多智能体框架中，它们作为高层规划器来指导专门的执行器。在本文中，我们将系统2称为具身大脑，以强调其作为推理和决策的认知核心的角色。

基于这种设计，对具身大脑进行系统性评估至关重要，但现有的基准测试仍有不足。大多数现有工作仅狭隘地关注整体任务成功率，而对其底层的推理过程提供的洞见甚少。即使是那些明确针对具身认知的基准测试，也存在三个主要缺陷：

认知能力的覆盖范围零散，通常孤立地评估感知、规划或错误反思，而不是将它们作为一个整体进行评估；
任务的真实性和复杂性有限，严重依赖模拟环境，或忽略了如多样化的具身形态、物体属性和遮挡等实际挑战；
规划评估方法过于简单，通常简化为多项选择或文本相似度指标（如BLEU）以及通用的LLM评分，未能捕捉到具身先验知识，例如技能与物体的依赖关系、执行顺序的灵活性以及具身可行性。

为了弥补这些不足，我们引入了 RoboBench，这是一个系统性设计的基准测试，旨在评估多模态大语言模型（MLLM）作为机器人操控的认知核心。具体来说，我们强调 RoboBench 的三个主要贡献：

全面的评估维度。 RoboBench 定义了五个维度——指令理解、感知推理、泛化规划、功能可见性预测和失败分析——这些维度共同捕捉了具身认知所需的相互依赖的能力。这些维度源于具身大脑在操控中的关键角色，通过追踪图1所示的完整执行流程得出。在行动之前，它应在上下文中解释人类意图。然后，它感知环境以收集与任务相关的信息。在执行过程中，大脑将长远目标分解为顺序步骤，并在闭环中进行调整。每个子目标被进一步细化为空间对齐的线索，以指导低层控制器。当发生失败时，系统应诊断、分析和调整错误以保持鲁棒性。
真实且多样化的任务。 我们构建了涵盖单臂、双臂和移动操控的任务设置；具有材料属性、物理特性和世界知识的物体；以及带有遮挡和记忆驱动导航的多视角场景。数据结合了大规模真实世界机器人数据集和精心策划的内部收集，缩小了模拟与现实之间的差距。
用于规划评估的世界模拟推演。 超越符号匹配，我们提出了一种新颖的“MLLM即世界模拟器”框架来评估长远规划。评估器从初始场景图像、参考计划列表和捕捉步骤间依赖关系的人工标注的有向无环图出发，构建一个结构化的任务表示，识别关键的物体状态里程碑，并在视觉和物理约束下逐步推演预测的计划。这评估了具身可行性——即计划是否能在现实世界中成功执行。

我们对14个最先进的多模态大语言模型（MLLM）在五个具身维度上的表现进行了评估，并发现了以下几个关键局限性：

隐式指令理解能力弱： 模型在处理隐式指令时表现出严重的性能下降，平均得分下降了30%，这表明它们对间接人类目标的理解能力较弱。
时空感知能力脆弱： 模型在机器人视角识别和时间定位方面表现不佳，揭示了其脆弱的时空感知能力和有限的具身意识。
复杂规划是主要瓶颈： 模型在双臂协调和稀有物体推理方面遇到困难。尽管多视角输入带来了一些适度提升（例如，GPT-4o 从 33.66 提升到 38.51，Claude-3.7-Sonnet 从 44.51 提升到 48.19），但仍未能缩小与人类表现的差距。
功能可见性预测肤浅： 模型在功能可见性预测方面表现肤浅——Gemini-2.5-Pro 达到 65.21，虽然优于其他模型，但仍比人类（82.63）低17个百分点。
执行失败诊断困难： 执行层面的失败诊断仍然是最困难的维度，得分仅为10-20，而规划错误分析的得分为40-60，甚至人类评估者也只达到47.30，这凸显了其内在的难度。

这些发现表明，尽管当前的多模态大语言模型作为具身大脑展现出潜力，但它们仅表现出肤浅的具身推理和世界建模能力。

总结来说，我们的贡献如下：

我们引入了 RoboBench，这是一个全面的基准测试，用于评估多模态大语言模型（MLLM）作为具身大脑在5个关键维度、14种能力、25个任务和6092个问答对上的表现。
我们设计了跨越不同具身形态、物体、视角和任务设置的真实数据集和任务，精确反映了真实世界的具身交互。
我们提出了“MLLM即世界模拟器”评估框架，通过模拟计划是否能达到关键的物体状态里程碑，来忠实地评估长远规划能力。
我们对最先进的多模态大语言模型进行了大规模的系统性评估，建立了一个排行榜，并为推动机器人人工智能中具身大脑的发展提供了可行的见解。

Robobench

核心能力

通过详细分析，我们确定了由多模态大语言模型（MLLM）驱动的具身大脑的五个关键维度，每个维度都与任务执行流程相对应：理解人类意图、感知环境、制定和调整计划、通过功能可见性（affordance）预测来优化动作，以及诊断失败。RoboBench 评估这些能力，旨在揭示具身认知中的瓶颈。

具身指令理解

具身大脑能否理解人类意图？ 大多数具身任务依赖于明确指定动作和目标的显式指令。相比之下，现实世界的指令通常是隐式的（例如，“我渴了”而不是“去拿一杯饮料”）。该维度评估模型是否能将显式和隐式指令都推断为可执行的计划。

具身感知推理

具身大脑能否感知环境以收集与任务相关的信息？ 可靠的规划和执行依赖于准确的感知。RoboBench 通过四个方面对此进行评估：以机器人为中心，考虑机器人类型和视角。以物体为中心，检查静态和功能属性。以场景为中心，评估空间关系、时间定位和因果分析。以任务为中心，评估识别与指令相关的对象。

具身泛化规划

具身大脑能否在不同的机器人形态、物体、视角和任务之间泛化规划能力？ 规划始于将长远目标分解为子目标，并在执行过程中通过预测下一个子任务、监控完成情况和调整后续步骤来持续进行。我们评估了四个方面的泛化规划能力：机器人形态（单臂、双臂、移动操纵器和人形机器人）、物体（材料属性、物理属性和常识知识）、视角（遮挡下的多视角融合）以及任务（利用视频中的空间线索进行导航规划）。

具身功能可见性预测

具身大脑能否通过空间功能可见性（affordance）来优化子任务计划？ 除了高层规划，每个子目标都应被转化为空间线索以指导底层执行。功能可见性预测将子目标与机器人形态、物体和环境联系起来，使系统2能够更有效地指导系统1。RoboBench 评估三种类型：静态功能可见性，识别接触点（例如，抓住一个苹果）；动态功能可见性，预测运动轨迹（例如，打开一个抽屉）；导航功能可见性，确定机器人基座位置（例如，靠近远处桌子上的微波炉）。

具身失败分析

具身大脑能否检测并纠正失败？ 开放世界中的操作不可避免地会引入错误，这要求大脑不仅能识别错误，还要能诊断原因并提出纠正建议。RoboBench 评估了底层执行错误（例如，位置未对准、轨迹偏差、夹爪故障和动作未完成）和高层规划错误（例如，错误的对象、缺失的步骤、错误的顺序），为更鲁棒和更具泛化性的执行提供见解。

基准构建

数据集收集与处理流程

为了评估这五个认知维度，我们利用开源和内部的机器人数据构建数据集，并通过多模态大语言模型（MLLM）和人工提供的标注来丰富数据，使每个子基准与具身任务流程保持一致，以确保真实性。示例和构建流程分别如图2和图3所示。

指令理解：该维度通过规划任务进行评估，采用显式-隐式配对设计。显式指令来源于日常生活场景，明确指定了动作和目标；而隐式指令则是通过使用大语言模型（LLM）将其改写为基于需求的请求而获得。这种对比测试了模型解释人类意图的能力。

感知推理：准确的感知对于可靠的规划和执行至关重要。我们从四个方面构建数据集：以机器人为中心，使用带有类型和视角元数据的真实机器人数据，用于基于模板的问答；以物体为中心，结合精选的静态属性与GPT生成的功能属性和干扰项；以场景为中心，利用Gemini分割的视频步骤进行时间定位，并结合人工标注的相对位置和关键点变化，用于空间和因果推理；以任务为中心，通过人工标记的边界框将长时程指令与目标物体关联起来。所有数据都标准化为多项选择问答格式。

泛化规划：
我们从高质量的机器人视频中构建一个规划池，提取帧序列作为标准化输入。Gemini生成结构化标注——任务摘要、带时间戳的步骤指令以及元数据（物体、动作、场景、机器人形态）——这些标注由人工标注员进行优化。然后，每个步骤被映射到函数模板（例如，pick_up(object)、move_to(object, target)），并分组到操作或导航技能列表中，以引导模型生成结构化的计划。
评估涵盖三种类型：
（1）Q1：长时程规划，根据第一帧和指令预测完整的动作序列；
（2）Q2：下一步规划，根据之前的步骤预测第(n+1)步；
（3）Q3：任务状态估计，判断给定的子任务是否已完成。

功能可见性预测：
功能可见性将高层子目标细化为用于底层执行的空间线索。我们从规划池中采样代表性帧，并标注三种类型的功能可见性：静态（接触点）、动态（运动轨迹）和移动（基座位置）。模型需要根据任务指令预测相应的点或轨迹。

失败分析：
该部分评估模型是否能检测并推理执行过程中的错误。执行层面的失败（例如，位置未对准、轨迹偏差、夹爪错误）从RoboMIND中收集并由专家标记，而规划层面的失败则是通过扰动正确的指令（错误的对象、缺失的步骤、错误的顺序）来合成，因为缺乏真实的规划失败数据。

质量控制

我们采用两阶段的质量控制流程来确保基准的质量：构建过程中的数据筛选和构建后的验证。在构建阶段，我们应用了通用和任务特定的筛选器。通用标准涉及图像质量和任务有效性，而子基准则有定制的规则——例如，从双臂任务中排除单臂数据。数据构建完成后，我们招募了20名经过专业培训的标注员进行全面的质量检查，验证语言的清晰度、可回答性和正确性。我们进一步采用了多数投票策略：所有模型都能正确解决的项目被移除，而所有模型都无法解决的项目则进行人工审查和修正。

数据集统计

RoboBench 包含 6092 个样本和 4333 个独立项目，提供了多样性和复杂性的均衡组合，以评估具身大脑的能力。它涵盖了5个主要维度、14个二级元任务和25个子任务，确保了全面且具有挑战性的评估。详细的分布如图4所示。不同维度下详细的问题统计数据见表2。

评估指标

为了捕捉具身操作中多样化的认知需求，我们为每个维度量身定制了评估指标。感知推理和失败分析通过多项选择的准确率进行评估。功能可见性（Affordance）预测采用欧几里得距离进行点预测，采用均方根误差（RMSE）进行轨迹预测。为了与其他越高越好的指标保持一致，我们使用公式 \(score = 100 \times (1-d)^\alpha\)（其中 \(\alpha=2.5\)）将距离误差转换为分数。规划能力通过三个任务（Q1-Q3）进行评估。Q1是核心任务，它利用一个多模态大语言模型（MLLM）世界模拟器来评估结构正确性和具身可行性。

Q1 —— 长时序规划

我们将一个任务建模为一个由原子动作参数化的部分有序集合，其参数为 \(\langle \text{技能}, \text{对象}, \text{参数} \rangle\)。步骤间的约束由一个有向无环图（DAG）\(G=(V,E)\) 编码，其中每个 \(v \in V\) 是一个动作节点，每条边 \((u \to v) \in E\) 强制规定了先后顺序。DAG揭示了里程碑（例如，抽屉=打开），同时允许有效的排列组合。手动标注的 \(G\) 作为评估的参考；评估流程如图5所示。

然而，这种方法存在局限性。简单的节点正确性指标（Node Correctness）无法捕捉规划的结构和物理可行性，可能对逻辑上合理但表述不同的计划产生误判。为了解决这个问题，我们引入了一个基于世界模拟推演的评估框架，该框架评估计划的 具身可行性（Embodied Feasibility）。

该框架通过模拟预测的计划是否能在物理和视觉约束下实现关键的物体状态变化，来评估其可行性。评估流程如下：

视觉约束分析：
从 \(I_0\) 中识别对象、空间关系和物理约束，形成初始世界 \(W_0\)（例如，抽屉=关闭，苹果在桌子上）。
关键对象状态检测：
解析 \(A^\star\) 和 \(G=(V,E)\)，从动作效果中提取状态转换谓词，然后聚合成 \(S^\star\)。
状态顺序与并发性验证：
使用 \(G\) 来强制执行 \(S^\star\) 中状态的先后顺序和允许的并行性，并建立因果联系。
推演模拟：
逐步执行预测的动作，对照 \(W_t\) 检查前置条件，更新为 \(W_{t+1}\)，
当某个 \(s \in S^\star\) 变为真并且在其最后一个消费者之前保持有效时，将其标记为已达成并受保护，
累积成 \(\hat S \subseteq S^\star\)。

计算方式如下：

\[\mathrm{TaskCompletion} =\left\lfloor \frac{|\hat S|}{|S^\star|}\times 10 \right\rfloor . \]

Q2 —— 下一步规划

给定一个观测 \(I_{t}\)，模型预测下一个动作 \(\hat a_{t+1}\)。一个MLLM对照基准真相 \(a^\star_{t+1}\) 进行评判：技能必须完全匹配（\(s_{\text{skill}} \in \{0,1\}\)）；对象和参数根据视觉约束下的合理性进行评分（\(s_{\text{obj}}, s_{\text{param}} \in \{0,0.5,1\}\)）。每个样本的分数：

\[\mathrm{NextStep}=(s_{\text{skill}}+s_{\text{obj}}+s_{\text{param}})/3 \in [0,1] \]

Q3 —— 任务状态估计

给定 \(I_{t-1}\) 或 \(I_{t}\)，模型判断一个给定的子任务 \(\hat a_{t}\) 是否已完成：\(\hat y \in \{0,1\}\)。与基准真相 \(y\) 对比，我们报告二进制准确率：

\[\mathrm{StateAcc}=\mathbb{1}\{\hat y_i=y_i\}. \]

实验

我们在 RoboBench 上评估了若干多模态大模型（MLLMs），包括闭源 MLLMs、开源多图像 MLLMs 以及开源的具身（embodied）MLLMs。模型的详细说明见补充材料。除此之外，我们还引入了纯文本 LLM 和人工评估作为参考基线。

整体结果

Gemini-2.5-Pro 领先但仍落后于人类
在所有被评估的模型中，Gemini-2.5-Pro 在各维度上表现最为稳定，明显优于其他闭源和开源模型。例如，在表3中在感知推理项上其得分为 62.96，显著高于大多数模型（多数在 30–45 之间），但仍低于人类的 74.30。在可供性预测与失效分析中，Gemini-2.5-Pro 的得分分别为 65.21 和 45.14，而多数其他模型则集中在 40–50 和 30–40 的区间。人类在这些维度上的得分分别为 82.63 和 63.99，凸显当前 MLLMs 与稳健的人类级具身智能之间仍存在明显差距。

闭源模型普遍优于开源模型
闭源模型在五个评测维度中的四个上占据明显优势，性能差距常常达 10–15%。只有在感知推理方面，开源模型才接近部分闭源模型；而在指令理解、规划、可供性推理和失效分析上，开源与闭源的差距依然显著。在同一模型家族内部，模型规模越大性能越好，例如表4中 GPT 系列中从 GPT-4o-Mini 到 GPT-4o 的规划得分有所上升；Claude 系列和 Gemini 系列在更大模型或更高配置下也呈现相似的提升趋势。

具身 MLLMs 超越通用开源模型
具身方向训练的模型（例如 RoboBrain-2.0-7B）在感知推理、广义规划和可供性预测等任务上，优于相同规模的一般通用开源模型，说明面向具身场景的专门训练能有效提升多模态推理与规划性能。

不同维度间的性能差异显著
RoboBench 的结果显示不同任务类别间存在较大差异：感知推理的总体准确率相对较高，而广义规划仍然是最具挑战性的方向。这些差异反映了各维度对认知能力的不同要求，也指出了当前评测和模型能力的局限，提示未来研究应重点突破规划与复杂任务执行能力。

各子任务的细分结果

我们进一步细分了各个子任务的结果，揭示了模型在指令理解、感知、规划和失效分析方面的明显弱点。

隐式与显式指令理解：
即使在图像和基准真相保持不变的情况下，模型在处理隐式指令时的表现也明显差于显式指令。在表4中，对于显式指令，模型得分通常在 40-50 之间，而对于隐式指令，得分则降至 10-20，平均下降约 30%。这表明模型在将间接的人类需求转化为可执行目标方面存在明显弱点。一个可能的原因是，当前的多模态大模型在推断任务意图时未能充分整合场景上下文。未来的改进需要模型能够联合考虑语言、感知和上下文，以准确推断和执行人类意图。

感知挑战：
尽管模型在物体属性分析方面表现尚可，但在基础的机器人感知和时空推理方面却表现不佳。常见的失败包括错误识别机器人类型或视角，以及无法准确定位事件发生的时间。在表 3中，机器人视角识别的成功率仅为 43.48，而时间定位的准确率仅达到 49.68。此外，跨时间的因果推理能力仍然薄弱，大多数模型的得分仅在 30-40 之间，Gemini 系列是明显的例外。这些结果表明，未来的模型应集成更强的具身感知模块和显式的时空推理机制，以实现更稳健的具身理解。

规划局限：
模型在复杂规划场景中的能力有限。
(1) 跨形态规划：当前模型常常无法协调双臂操作或执行移动操作，导致次优的空间搜索和移动决策。我们认为这是由于现有的规划数据主要关注具体的动作执行，而没有明确区分左右臂的分配或位置移动。
(2) 跨物体规划：当任务涉及不常见的物体、符号推理或世界知识时，模型性能急剧下降，这表明模型对异构信息的整合能力较弱。相比之下，对于常见、熟悉的物体，其表现相对可以接受。
(3) 跨视角规划：当前置摄像头被遮挡时，多视角输入能有效提升模型性能。例如，在桌面上重新排列字母积木时，前置摄像头可能无法捕捉到朝上的字母，导致错误的左右手分配。引入手腕摄像头视角可以让模型做出更准确的抓取决策。这证明了多视角推理的优势：在表4 中，使用多图像输入使 GPT-4o 的规划得分从 33.66 提升至 38.51，Claude-3.7-Sonnet 从 44.51 提升至 48.19，凸显了其在真实世界环境中增强规划鲁棒性的潜力。

失效分析：
分析执行层面的错误比诊断规划层面的错误要困难得多，这体现在得分持续偏低上——如表6 所示，执行错误的得分通常在 10-20 之间，而规划错误的得分则在 40-60 之间。执行层面的失败通常需要进行细粒度的区分，例如区分位置错误和旋转错误（如位置正确但夹爪角度错误），这需要专家级的具身理解能力。即使是人类在处理这类任务时，表现也相对较低——执行错误得分为 47.30，而规划错误为 80.67——凸显了这项任务的内在难度。这些发现表明，提升细粒度感知能力对于改善模型在执行层面错误诊断中的表现至关重要。

规划错误分析

我们进一步分析了基准测试中观察到的规划失败案例，以理解具身模型的典型错误模式。错误被分为执行（Execution）、识别（Identification）、常识（Common Sense）和模式特定（Mode-Specific）四种类型，每种类型都反映了具身推理中的一个明显局限。

执行错误 占了失败的大部分，主要由动作缺失或冗余以及函数选择不当引起。这表明模型在程序性推理和任务序列的落地方面存在不足。
识别错误 源于视觉混淆、参数不匹配或对象引用错误，揭示了模型在精确的对象-动作绑定上的困难。
常识错误 反映了物理和空间推理的缺乏，模型经常生成不可行或方向不一致的动作。
模式特定错误 由格式化或符号引用违规引起，显示出模型对结构化任务需求的遵守度较差。

总的来说，这些发现揭示了当前模型在长时程规划中难以维持逻辑一致性、对象落地和物理可行性。改进这些方面对于实现稳健的具身智能至关重要。各类错误类型的比例分布如图 6a 所示。

对所设计指标的人工评估

为了评估我们评估指标的有效性，我们对规划数据进行了一项人工研究。我们从 Q1 规划推理集中均匀抽样了 438 个长时程任务，涵盖了不同的维度和模型输出。经过事先培训的专家标注员参考基准真相规划列表，并考虑技能选择、对象识别和计划可执行性等多个因素，给出了 0-20 范围内的综合评分。

然后，我们比较了人工评分与两种自动化方法之间的一致性：（i）MLLM-作为-世界模拟器的方法，以及（ii）一个基于 LLM 的成对轨迹评分基线。如图 6b 和 6c 所示，我们的方法与人类判断达到了更高的皮尔逊相关系数，表明其具有更强的一致性，并验证了所提出指标的有效性。

结论

我们提出了 RoboBench，一个用于系统性评估多模态大语言模型（MLLM）作为机器人操控的“具身大脑”的基准。它追踪了完整的执行流程，涵盖五个维度——指令理解、感知推理、泛化规划、功能可见性预测和失败分析——包含了25项任务和6092个问答对。一项核心贡献是提出了一个“MLLM即世界模拟器”框架，该框架不仅评估符号化规划的忠实度，还评估其具身可行性。实验揭示了模型在隐式指令理解、感知、长时程规划、功能可见性推理和失败诊断方面存在重大差距。因此，RoboBench 提供了一个统一的框架，用于衡量具身认知，并指导开发更鲁棒、更具泛化能力的具身智能。

posted @ 2025-10-28 10:45 一介布衣、阅读(113) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、