EmbodiedBench:面向视觉驱动具身代理的多模态大语言模型综合评估体系

https://arxiv.org/abs/2502.09560

https://embodiedbench.github.io/

摘要

利用多模态大语言模型(MLLMs)构建具身智能体为解决现实世界任务提供了有前景的途径。尽管以语言为中心的具身智能体已受到广泛关注,但由于缺乏全面的评测框架,基于MLLM的具身智能体仍然研究不足。为弥补这一空白,我们提出了EmbodiedBench,这是一个用于评估视觉驱动具身智能体的全面基准。
EmbodiedBench具有以下特点:(1)涵盖四个环境、共1128个测试任务,任务类型多样,既包括高层次语义任务(如家庭场景),也包括涉及原子动作的低层次任务(如导航和操作);(2)精心设计的六个子集,评估智能体在常识推理、复杂指令理解、空间感知、视觉感知和长期规划等核心能力。
通过大量实验,我们在EmbodiedBench上评测了24个主流的专有和开源MLLM。结果表明:MLLM在高层次任务上表现优异,但在低层次操作任务上存在明显短板,最佳模型GPT-4o的平均得分仅为\(28.9\%\)。 EmbodiedBench为MLLM具身智能体提供了多维度、标准化的评测平台,不仅揭示了当前的挑战,也为推动该领域发展提供了有价值的见解。

引言

开发能够在现实世界中解决复杂任务的具身智能体仍然是一项重大挑战。近年来,基础模型的进步,包括大语言模型(LLMs)和多模态大语言模型(MLLMs),为实现这一目标带来了前所未有的潜力。这些模型在大规模互联网数据集上训练,展现出卓越的人类知识理解和类人推理能力。基于这些能力,研究者现在可以设计智能体,利用现成的基础模型,通过与环境的交互来解决复杂任务。

鉴于大量算法的提出,亟需标准化和自动化的评测框架,以实现全面的评估与对比。为此,一些工作已开始探索基于LLM的具身智能体评测。尽管这些努力极大推动了LLM智能体设计的理解,但MLLM具身智能体的评测仍然研究不足,这对打造更通用的智能体构成了挑战。VisualAgentBench 是首个用于评估MLLM智能体的基准,涵盖了家庭和Minecraft等具身任务。然而,其范围有限,仅关注高层次规划,未能解答诸如“视觉在具身任务中的作用以及MLLM智能体在导航和操作等低层次任务中的表现”等关键问题。

为了解决这些问题,我们提出了EmbodiedBench,这是一个包含四个环境、共1128个测试实例的全面基准。EmbodiedBench具有两大核心特性,使其区别于现有基准:

1. 多样化任务与分层动作级别。 四个环境中,EB-ALFRED和EB-Habitat侧重于高层次任务分解与规划(如“把书放在桌子上”),而EB-Navigation和EB-Manipulation则要求通过低层次动作(如平移/旋转控制)进行规划,并需要精确的感知与空间推理。

2. 面向能力的评测。 不同于以往主要关注整体准确率或模块性能的基准,EmbodiedBench引入了细粒度的评测框架,考察具身智能体的六项关键能力,包括基础任务解决、常识推理、复杂指令理解、空间感知、视觉感知和长期规划。

为促进MLLM作为具身智能体的评测,我们设计了统一的智能体框架,融合了自我中心视觉感知、少样本上下文示例、交互历史和环境反馈进行决策。该强大框架能够充分释放现有MLLM的潜力,有效应对高层次和低层次任务。基于EmbodiedBench和我们的智能体流程,我们评测了24个主流闭源MLLM(如GPT-4o、Gemini、Claude-3.7和Qwen-VL-Max)以及7B–90B开源模型(如Llama-3.2 Vision、InternVL3、Qwen2.5-VL和Gemma-3)。评测结果揭示了三大关键发现:(1)MLLM在高层次任务上表现优异,但在低层次操作任务上存在明显短板;(2)长期规划是最具挑战性的子集;(3)视觉输入对低层次任务至关重要,移除后性能下降40%–70%,而对高层次任务影响较小。此外,我们的消融实验为MLLM智能体设计提供了实用见解,特别是在图像分辨率、多步图像输入和视觉上下文学习方面。
img

我们的贡献包括:(1)提出了一个涵盖不同动作级别和细粒度能力子集的MLLM具身智能体全面评测套件;(2)开发了高效的MLLM智能体框架;(3)对主流MLLM进行了广泛评测和消融研究,为视觉驱动智能体设计提供了有价值的见解。

相关工作

在具身智能体研究中,大语言模型(LLM)主要用于支持高层级规划。多模态大语言模型(MLLM)则被集成用于感知相关任务。除了感知之外,MLLM 还可用于决策过程,既可以通过端到端方式直接生成动作,也可以生成代码以开发策略或价值函数。

随着该领域的快速发展,各类仿真器和评测基准不断涌现。下表对现有工作进行了全面对比,突出展示了 EmbodiedBench 在多个方面的独特性。更多相关工作见附录。
img

问题定义

动作层级的定义

在具身智能体研究中,动作可根据其在机器人系统中的可执行性系统性地分为分层级别。低层级动作对应于机器人可直接执行的原子指令,定义为指定平移或旋转位移的操作。例如,机械臂的动作通常被参数化为一个7维向量:

\[a=[X, Y, Z, \rm{Roll}, \rm{Pitch}, \rm{Yaw}, \rm{Gripper}] \]

其中 \((X, Y, Z)\) 表示增量平移位移,\((\rm{Roll}, \rm{Pitch}, \rm{Yaw})\) 表示欧拉角的旋转变化,\(\rm{Gripper}\) 表示末端执行器的开/关二元状态。同样,诸如“前进0.1米”这样的指令也属于低层级动作,因为它们可以明确地映射到运动学变换。

相反,高层级动作可以被分解为一系列低层级原语。形式上,高层级动作定义为 \(a^h = [a_1, a_2, \ldots, a_n]\),其中每个 \(a_i\) 都是可执行的低层级原语。例如,执行“找到一条手巾”可能涉及一系列低层级行为:旋转一定角度、扫描目标、向目标移动等。


视觉驱动智能体

视觉驱动智能体是基于视觉感知和语言指令进行序列决策的自主系统。该问题可形式化为带有语言指令的部分可观测马尔可夫决策过程(POMDP),定义为元组 \((\mathcal{S}, \mathcal{A}, \Omega, \mathcal{T}, \mathcal{O}, L, \mathcal{R})\)。其中,\(\mathcal{S}\) 是智能体不可观测的完整状态空间;\(\mathcal{A}\) 是智能体的高层级或低层级动作空间;\(\Omega\) 是视觉感知空间,每个观测 \(I_t \in \Omega\) 表示时刻 \(t\) 的图像帧;\(\mathcal{T}\) 是状态转移动力学;\(\mathcal{O}\) 将底层状态映射到智能体的视觉观测;\(L\) 是指定目标的语言指令;\(\mathcal{R}\) 用于根据语言指令 \(L\) 评估任务完成情况:\(r_t = \begin{cases} 1 & \text{若 } s_t \models L \text{(指令达成)} \\ 0 & \text{否则} \end{cases}\)

在时刻 \(t\),智能体维护历史 \(h_t = (I_0, a_0, ..., I_{t-1}, a_{t-1}, I_t)\),并通过策略 \(\pi(a_t|L, h_t)\) 选择动作。目标是最大化任务成功的概率:\(\max_\pi \mathbb{E}\left[r_\tau\right]\),其中 \(\tau\) 为终止时刻——即任务成功完成(\(s_\tau \models L\))或达到最大步数。

EmbodiedBench

为了全面评估多模态大语言模型(MLLMs)作为具身智能体在不同动作层级和能力上的表现,我们提出了 EmbodiedBench(简称 EmbodiedBench),该基准涵盖四个环境:EB-ALFRED、EB-Habitat、EB-Navigation 和 EB-Manipulation。为评估六项核心具身智能体能力,我们开发了新数据集并改进了现有模拟器,以支持全面评测。以下是四个基准任务的概述,更多细节见附录。

高层级与低层级任务

EB-ALFRED。
我们基于 ALFRED 数据集和 AI2-THOR 模拟器开发了 EB-ALFRED。我们的模拟器以 Lota-Bench 的实现为基础,支持 8 种高层级技能类型:“拾取”、“打开”、“关闭”、“打开电源”、“关闭电源”、“切片”、“放下”和“寻找”,每种技能可针对特定物体自定义,例如“找到一个苹果”。模拟器提供自我中心视角的观测,以及关于动作有效性和失败原因的文本反馈。
为提升仿真质量,我们做了如下改进:支持同类物体的多实例,覆盖 ALFRED 中所有任务类型;合并“放下”动作为单一动作(因每次只能持有一个物体);由于 ALFRED 中物体数量变化,EB-ALFRED 的动作空间是动态的,范围为 171 到 298 个动作。此外,我们手动修正了模拟器错误并优化了指令质量,确保动作执行更准确、任务可解性更高。这些改进使 EB-ALFRED 成为评估具身智能体的高质量基准。

EB-Habitat。
EB-Habitat 基于 Language Rearrangement 基准构建,包含 282 种多样化的语言指令模板。它利用 Habitat 2.0 模拟器,专注于规划和执行 70 种高层级技能以实现用户定义目标。这些技能分为五类:“导航”、“拾取”、“放置”、“打开”和“关闭”,每种技能由一组物体参数化。与 ALFRED 可导航至任意物体不同,EB-Habitat 仅允许导航至容器类物体,要求机器人访问多个位置以寻找目标物品。丰富的语言指令和独特的导航约束,使 EB-Habitat 成为 EB-ALFRED 的有力补充。

EB-Navigation。
EB-Navigation 是基于 AI2-THOR 的评测套件,旨在评估具身智能体的导航能力。每个导航任务主要由:(1)初始机器人姿态、(2)目标物体信息、(3)指定目标物体的语言指令(如“导航到笔记本电脑”)定义。机器人只能依赖视觉观测和文本反馈(无直接位置信息)导航至目标物体。成功标准为到达目标物体指定距离范围内。动作空间包括 8 个低层级动作:
(1)前/后/左/右移动 \(\Delta x\)
(2)左右旋转 \(\Delta \theta\) 度;
(3)摄像头上下俯仰 \(\Delta \varphi\) 度。
环境会反馈动作有效性(如碰撞检测)。此外,我们提供自动任务生成脚本,用户可自定义任务数据集。

EB-Manipulation。
EB-Manipulation 扩展自 VLMBench,用于评估基于 MLLM 的具身智能体在低层级物体操作中的能力。智能体通过 7 维动作向量控制机械臂,指定运动参数。直接低层级操作对 MLLM 挑战较大。为此,我们做了如下增强(见下图):(1)动作空间离散化,将位置分量(x, y, z)划分为 100 个区间,姿态分量(roll, pitch, yaw)划分为 120 个区间,使动作如 \([x, y, z, roll, pitch, yaw, gripper]=[57,61,20,10,60,25,1]\);(2)提供 YOLO 检测框及索引标记和物体位姿估计,减少对精确 3D 位置的需求。
img

面向能力的数据采集

我们致力于为四个环境收集面向能力的数据。为此,我们确定了六类能力(见下表):
(1)基础:评估规划动作序列解决低/中等难度任务的基本能力;
(2)常识:考察利用常识间接指代物体的能力,如用“能保鲜几天的容器”描述冰箱;
(3)复杂指令:包含较长上下文(相关或无关),考察从长文本中辨别用户意图的能力;
(4)空间感知:通过物体间空间关系指代目标物体;
(5)视觉感知:通过颜色、形状等视觉属性指代物体;
(6)长期规划:需执行超过 15 步的长序列任务(如 EB-ALFRED)。
这些子集覆盖丰富场景,实现对具身智能体能力的细粒度评估。

为构建多样化数据集,我们采用不同采集策略。EB-ALFRED 和 EB-Manipulation 结合人工标注与 GPT-4o 指令增强;EB-Habitat 重新整理并适配现有数据集;EB-Navigation 完全通过自动化程序生成。最终,EB-ALFRED 和 EB-Habitat 各含 300 个测试实例(每个子集 50 个);EB-Navigation 因设计限制无空间感知子集,EB-Manipulation 无长期规划子集。EB-Navigation 共 300 个测试用例(5 个子集,每个 60 个),EB-Manipulation 共 228 个实例(除视觉感知为 36 个外,其余每子集 48 个)。详细采集过程见附录。

视觉驱动智能体设计

为评估 MLLM 作为 EmbodiedBench 智能体的表现,我们设计了统一的具身智能体流程(见下图)。该流程为多模态输入处理、交互推理和结构化可执行计划生成提供了强大框架。下文简述主要组件。
img

智能体输入:
智能体处理多种输入,包括语言指令、视觉感知、上下文示例、交互历史和任务特定信息。视觉感知可为当前帧或滑动窗口内的历史图像序列。但我们观察到当前 MLLM 难以有效理解多帧历史图像,因此主要采用当前帧以提升效率。(EB-Navigation 例外,详见附录。)任务特定信息因任务类型而异:高层级任务和 EB-Navigation 需提供有效技能集,EB-Manipulation 需描述动作格式,并包含检测框、视觉标记和物体位置,帮助 MLLM 准确识别 3D 位置。更多输入示例见附录。

任务规划器:
每个规划步骤,智能体:(1)生成当前视觉输入的文本描述;(2)反思历史动作和环境反馈;(3)基于可用信息推理如何达成目标;(4)制定基于语言的计划;(5)将其转为所需格式的可执行计划。所有输出均为 JSON 结构。与以往每步仅规划一个动作不同,我们支持多步规划,智能体可动态决定所需动作数。这有两大优势:(1)更好地与上下文示例对齐,实现序列决策;(2)减少低层级任务中因单步变化有限导致的计划冗余,从而减少 MLLM API 调用次数。如果计划失败或触发无效动作,智能体会从最新状态重新规划。

实验

本节我们在 EmbodiedBench 基准上对多种 MLLM 进行了全面实验评测,消融实验,和错误分析。

实验设置

我们共评测了24个模型,包括8个主流闭源模型和16个SOTA开源模型。闭源模型包括GPT-4o、GPT-4o-mini、Claude-3.5-Sonnet、Claude-3.7-Sonnet、Gemini Pro、Gemini Flash和Qwen-VL-Max。开源模型包括InternVL2.5、InternVL3(8B/38B/78B)、Qwen2-VL、Qwen2.5-VL(7B/72B)、Gemma-3(12B/27B)、Ovis2(16B/34B)、LLaMA3.2 Vision Instruct(11B/90B)等。
所有模型均设置温度为0,最大生成长度为2048。所有图片分辨率统一为500$\times$500像素。高层级任务最大环境步数为30,EB-Navigation为20,EB-Manipulation为15。实验主要评价指标为任务成功率。更多结果和消融实验见附录。

img
img

基准结果

总体结果。 高层级和低层级任务的结果分别见表(高层级主表)和表(低层级主表)。总体来看,当前MLLM在高层级任务上表现强劲,但在低层级任务,尤其是EB-Manipulation上表现较弱。
闭源模型中,不同模型在不同任务层级上各有优势:Claude-3.5-Sonnet在高层级任务上表现最佳,EB-ALFRED和EB-Habitat分别达到64.0%和68.0%;而GPT-4o在低层级任务上领先,EB-Navigation和EB-Manipulation分别为57.7%和28.9%。开源模型中,InternVL3-78B整体表现最强,部分指标超越闭源模型,在低层级任务上与GPT-4o接近,EB-Navigation和EB-Manipulation分别为53.7%和26.3%。此外,开源模型随规模提升表现明显提升,但与顶级闭源模型仍有较大差距,尤其是在需要高级推理能力的高层级任务上。

视觉在具身智能体中的作用。
通过对比有无视觉信息(标记为“Lang”)的智能体表现,我们发现低层级任务对视觉依赖远高于高层级任务。例如,关闭视觉后,GPT-4o在EB-Navigation上的表现从57.7%骤降至17.4%,长序列规划能力甚至降为0%。这凸显了视觉信号对低层级控制任务的关键作用。相反,高层级任务对视觉输入依赖较小,GPT-4o(Lang)和GPT-4o-mini(Lang)在EB-ALFRED和EB-Habitat上的表现与有视觉输入时相当甚至更优,说明这些任务更依赖文本信息。我们将在后续章节进一步分析语言因素的影响。这些发现强调:(1)设计MLLM具身智能体基准时需重视动作层级,尤其是低层级任务;(2)高层级任务需开发更有效的视觉利用方法。

子集细粒度结果。
我们在6个能力子集上的评测有如下发现:

  1. 不同子集表现差异显著。 各模型在不同子集上的表现差异较大。例如,Claude-3.5-Sonnet在EB-Habitat整体最佳,但在长序列子集上被GPT-4o超越(64% vs. 58%)。在低层级任务中差异更为明显,如EB-Manipulation中,Claude-3.5-Sonnet在复杂指令和视觉外观子集分别比GPT-4o高14.6和5.6个百分点,但在其他能力上明显落后。这说明细粒度评测有助于揭示模型的局限性。

  2. 长期规划是最具挑战性的任务。 长序列子集始终是最难的,表现与基础子集差距最大。例如在EB-Habitat中,Claude-3.5-Sonnet基础子集为96%,长序列子集降至58%;GPT-4o从86%降至64%。这一趋势在高、低层级任务中均成立,说明长期规划仍是当前MLLM智能体的瓶颈。

(此处插入高层级任务消融实验图)

语言中心消融实验

我们分析了语言相关组件的作用,重点关注环境反馈上下文示例数量。在EB-ALFRED基础子集上对比发现,移除环境反馈会导致GPT-4o成功率下降10%,Claude-3.5-Sonnet下降8%。此外,默认使用10个上下文示例,减少示例数量会显著影响表现,0-shot时成功率降至约40%。与移除视觉甚至提升表现的结果对比,说明高层级任务更依赖文本信息。
img

视觉中心消融实验

视觉信息对低层级任务至关重要。本节分析了四个因素:摄像头分辨率、检测框、多步图像输入和视觉上下文学习。所有对比均基于EB-Manipulation基础子集。
img

  • 摄像头分辨率。 三种分辨率对比发现,中等分辨率(500×500)表现最佳,低分辨率细节不足,高分辨率则增加模型处理难度,影响决策效率。
  • 检测框。 检测框和视觉标记有助于语言与视觉对齐,移除后GPT-4o成功率从39.6%降至27.1%,Claude-3.5-Sonnet从37.5%降至29.2%,说明其对低层级任务目标定位作用显著。
  • 多步图像输入。 探索多步历史观测对表现的影响,发现当前MLLM难以有效利用多帧输入,反而容易混淆当前状态,未来可探索更有效的多帧信息利用方法。
  • 视觉上下文学习(ICL)。 以往多用文本ICL,本研究在EB-Manipulation中引入视觉ICL,帮助模型理解动作与物体位置关系。实验限制示例数为2,结果显示视觉ICL显著优于仅语言ICL,如Claude-3.5-Sonnet提升16.7%。说明视觉ICL是未来具身智能体研究的有前景方向。

错误分析

我们对GPT-4o在EB-ALFRED和EB-Manipulation中的失败案例进行了分析。每个环境从每个子集采样10个失败实例,共分析110个失败案例。主要错误类型包括感知错误、推理错误和规划错误,各自对应智能体流程的不同阶段,具体定义见附录。
img

总体来看,规划错误在两个环境中最常见,感知错误在低层级任务中更突出。
在EB-ALFRED中,规划错误占55%,推理错误41%,感知错误仅4%。其中,漏步(23%)和无效动作(22%)最常见,反映出生成完整、有效计划的挑战。反思错误(17%)说明模型难以识别历史中的规划失误。提前终止(13%)也是常见失败原因。在EB-Manipulation中,规划错误仍占主导(44%),主要为动作不准确,说明精确估算夹爪位姿存在困难。感知错误占33%,其中识别错误(22%)最常见,说明即使有检测框,模型仍难以正确识别物体属性,GPT-4o的视觉能力仍有提升空间。

结论

我们提出了EmbodiedBench,这是一个全面的评测框架,旨在评估基于MLLM的具身智能体在不同动作层级和能力导向子集任务中的表现。通过大量实验,我们发现了诸多关键挑战,包括低层级操作和长时序规划的困难,以及视觉输入在不同任务中的重要性差异。通过突出这些有待改进的领域,我们希望EmbodiedBench能够激励并引导未来的研究,推动构建更强大、更通用的视觉驱动具身智能体。

posted @ 2025-06-20 16:45  一介布衣、  阅读(236)  评论(0)    收藏  举报