EmbodiedEval: 评估多模态大语言模型作为具身代理的能力
https://arxiv.org/abs/2501.11858
https://github.com/thunlp/EmbodiedEval
摘要
多模态大语言模型(MLLMs)近年来取得了显著进展,为具身智能体的发展带来了广阔前景。目前用于评估MLLMs的基准主要采用静态图像或视频,评测场景局限于非交互式任务。同时,现有的具身基准多为特定任务,缺乏多样性,难以全面评估MLLMs的具身能力。为此,我们提出了EmbodiedEval,这是一个具有挑战性且全面的基准,用于在统一的仿真与评测框架下,评估MLLMs在具身任务中的交互能力。我们在EmbodiedEval上对最先进的MLLMs进行了评测,发现它们在具身任务上的表现与人类水平相比仍有较大差距。我们的分析揭示了现有MLLMs在具身能力方面的局限性,并为其未来发展提供了有益的见解。
引言
近年来,多模态大语言模型(MLLMs)在理解和推理视觉与语言任务方面展现了强大的能力。随着MLLMs的快速发展,已经涌现出丰富的基准用于评测其性能。
除了这些主要关注非交互式视觉场景的基础任务外,研究者们正积极尝试将MLLMs扩展为能够在交互式环境中作为具身智能体的模型。这类任务要求模型能够将多模态输入转化为行动。为此,MLLMs需要整合多种能力,包括以自我为中心的感知、视觉定位、空间推理和情景记忆等,以便能够有效地与环境互动。
然而,目前针对MLLMs在具身任务中的综合评测仍然鲜有探索。首先,现有的具身任务基准在任务和场景的多样性上存在不足。例如,部分基准仅包含少量预定义任务,且场景类型有限。其次,一些基准采用了固定的输入输出格式(如3D点),这使得主流MLLMs的评测效率低下甚至难以实现。第三,部分基准通过文本描述来表示环境,过度依赖文本状态,忽略了视觉定位和空间推理等关键的具身能力,而这些能力对于真实世界的交互至关重要。
为了解决上述问题,我们提出了首个用于评估MLLMs在交互式环境中具身能力的综合基准。我们的EmbodiedEval具有以下关键特性:
- 多样化交互:EmbodiedEval提供了一个仿真框架,支持在真实感3D环境中与物体和人进行多种交互。智能体需要与环境互动以获取信息或改变环境状态,从而完成任务。以自我为中心的视觉信息将作为MLLMs的输入,辅助其决策。
- 多样化任务:与以往依赖预定义任务模板的工作不同,我们的任务通过系统生成并精心筛选,确保高质量和多样性。任务涵盖了广泛的能力评测,能够更全面地评价模型的能力。
- 多样化场景:我们的场景在物体和空间上具有高度多样性,涵盖家庭房间、大型住宅以及健身房、商店、办公室等公共区域。这种多样性有助于减少特定场景类型对模型泛化能力的影响。
在EmbodiedEval上的实验结果显示,主流MLLMs在具身任务上的表现与人类水平相比仍有较大差距。模型在不同任务类别上的表现差异显著,尤其在空间和长时序任务上表现下降明显。我们的基准为MLLMs在视觉定位、空间推理、规划和探索等能力的提升提供了有益的洞见和改进方向。
相关工作
多模态大语言模型。
通过将视觉模块与大语言模型连接,MLLMs在视觉指令微调方面取得了突破,推动了多模态大语言模型的研究。后续工作从细粒度描述、可信响应、多语言能力、视觉定位和视频理解等多个方面进一步提升了MLLMs的能力。
MLLMs的评测。
主流的MLLMs评测基准主要关注感知和认知能力的评估,也有部分基准关注更具挑战性的任务。此外,一些基准设计用于评估MLLMs的自我中心能力,采用自我中心的图像或视频作为输入,但这些基准通常采用静态的问答对,缺乏与环境的交互。
具身智能体的基准。
现有的具身智能体基准或数据集涵盖了具身问答、导航和物体交互等多个领域。然而,这些基准在任务多样性方面存在局限,难以全面评估导航、物体交互和问答等多种能力,且大多依赖预定义的任务模板,无法充分覆盖具身能力的广泛范畴。此外,许多基准采用特定的观测空间和连续动作空间,不适合有效评估MLLMs。
我们在下文的表格中总结了EmbodiedEval与其他代表性基准的对比。

EmbodiedEval
本节介绍了EmbodiedEval的评测流程和数据收集过程。
评测流程
EmbodiedEval 使用 LEGENT 平台作为仿真器,提供丰富且可交互的 3D 环境,支持智能体之间的交流与操作。我们将评测过程形式化为决策问题。如算法1和图2所示,一次评测流程如下展开:


(1) 仿真器初始化 3D 场景 \(x\)。由待评测的 MLLM 驱动的智能体 \(\pi\) 被放置在指定的起点,环境提供的初始\textbf{第一视角}视觉观测 \(o^{(0)}\) 被保存到观测历史 \(\mathcal{M}_o=\{o^{(0)}\}\) 中。
(2) 在每一步 \(i\),智能体 \(\pi\) 从给定的动作选项列表 \(\mathcal{C}\) 中选择一个动作 \(a^{(i)}\),该列表包含移动、交互和答题选项,决策依据为观测历史 \(\mathcal{M}_o\) 和动作历史 \(\mathcal{M}_a\)。环境执行该动作,相应地改变状态,并返回新的视觉观测 \(o^{i+1}\),以及动作是否成功的反馈。观测、动作和反馈随后被追加到观测历史中。
(3) 该过程持续进行,直到所有成功判据被满足(任务完成),或因错误作答或超出最大步数导致任务失败。任务是否成功由环境根据一组预定义谓词判断,这些谓词将仿真环境的状态映射为布尔值,表示是否成功。关于成功判据的更多细节见附录。
为了全面且轻松地评估MLLMs的具身能力,我们定义了统一的输入和输出空间。输入空间包括环境提供的文本任务描述 \(g\)、动作选项 \(\mathcal{C}\) 和自我中心视觉观测 \(\mathcal{M}_o\),不包含任何额外的环境状态信息。此设计强调视觉信息,因为它既是最易获取的,也是连接智能体与环境的最通用媒介。此外,与低级数据相比,视觉数据是训练多模态基础模型的更可扩展来源。视觉观测可以是表示不同状态的多张图片,或捕捉整个状态转换过程的视频。
输出动作空间包括移动、交互和答题,每个任务实例中有所不同。对于移动,为了使评估适用于当前的MLLMs,我们将智能体的移动空间限制在为每个场景预先构建的导航图上。MLLMs不需要从一组3D位置中做出选择,只需在导航点之间做出方向决策。移动空间的详细信息见附录。
对于交互,我们利用高级离散交互空间。我们为交互中的动作和物体使用开放词汇,每个动作都有简短的动作文本、可操作物体和成功交互的条件。例如,“递交”动作要求智能体持有物体并靠近人。在一个给定的测试用例中,将涉及多个交互动作。交互空间的详细信息见附录。
对于答题,智能体需要从一组标注的文本答案中选择一个。智能体可以持续探索,直到认为已获得足够信息再做出选择。一旦选择了答案,任务会立即被判定为正确或错误。选项具有挑战性,与上下文紧密相关且质量较高,具体示例见附录。
任务类别
EmbodiedEval 定义了五类任务,以全面评估MLLMs的具身能力:
(1) 导航任务涉及粗粒度和细粒度的自然语言指令,要求智能体从初始位置导航到目标位置或寻找特定物体。
(2) 物体交互任务要求智能体通过与物体的直接交互来改变环境,例如移动物体、开关门和抽屉、操作电器等。
(3) 社交交互任务涉及人与智能体之间的互动,包括物品递送、视角转换、人类反馈理解和非语言表达理解等。
(4) 属性问答任务要求智能体探索环境并回答与物体和场景属性相关的问题。
(5) 空间问答任务要求智能体通过动作和观察回答与空间相关的问题,如大小、位置、距离、布局和空间关系等。每种任务类型都对智能体的多种能力(如语义落地和推理)提出了挑战。各类别的样例见图1,更多详细示例见附录。

基准构建
EmbodiedEval的构建过程包括三个部分:场景收集、任务收集和任务标注。数据集中的每个样本都需要大量工作,并经过严格的标注流程。下图展示了数据集构建流程的概览。

场景收集
我们从四个不同来源构建了多样化的场景集合:Objaverse、AI2THOR、Habitat Synthetic Scenes Dataset (HSSD) 和 Sketchfab。我们利用Objaverse丰富的3D资产生成室内场景。首先,过滤掉不适合的户外物体,并人工审核渲染结果以去除低质量资产。随后,借助大模型对物体类别进行注释,标明其典型的房间位置和功能。通过程序化生成方法,依据物体属性依次布置物体。场景生成后,我们还使用自研的运行时场景编辑器进一步优化场景。此外,我们还引入了AI2THOR中的室内房间场景及可交互物体,以及HSSD和Sketchfab中的部分公共空间(如商店和超市)。所有场景均被统一整理为相同格式。
任务收集
在任务收集阶段,我们首先从30多个现有数据集中为五类任务收集种子任务。以这些任务为基础,我们通过大模型生成多样化的任务示例,要求模型涵盖复杂的语义对齐、情景记忆、空间推理、数量推理、常识推理和规划等多种能力,从而产生了许多新颖任务。我们从庞大的任务池中筛选出300多个不同的任务作为候选集。与直接让标注者为指定场景手写任务不同,选择生成任务能够保证任务多样性,避免重复,并减少对单一标注者创造力或偏好的依赖。
任务标注
在生成任务候选集后,我们进行人工标注以最终确定每个样本。首先,标注者为任务匹配合适的场景。其次,配置输出空间,包括移动、交互和答题,并定义任务的成功判据。最后,在仿真器中运行标注后的任务,确保任务能够顺利完成。我们招募了8名专家标注者进行标注。在开始标注前,提供系统化的培训以确保标注要求和系统使用规范。为保证数据集质量,每个标注任务至少由三名评审者独立审核其正确性和准确性。此外,我们通过专家演示和非专家参与者的人类实验,进一步验证任务的可行性。更多关于标注流程、标注系统和质量控制的细节见附录。
数据集统计
我们在下图中总结了EmbodiedEval的数据统计信息。EmbodiedEval包含5个类别的328个任务,分布在125个独特场景中,涵盖575个谓词实例和1533个多样化选项(包括1213个文本答案和320个交互动作)。每个episode基于专家演示平均需要10.72步完成。任务描述平均长度为16.09个单词,选项平均长度为5.72个单词。图4左侧展示了任务在5个类别和4个场景来源中的分布,中间部分展示了按语法类别划分的高频词可视化。更多任务示例见附表。

实验
我们在EmbodiedEval基准上评测了19个多模态大语言模型(MLLMs),包括专有模型GPT-4o/4o-Mini、Gemini-Pro/Flash-1.5、Qwen-VL-Max,以及开源图像MLLMs如Intern-VL-8B/40B/76B、LLaVA-OneVision-7B/72B、LLaVA-NEXT-72B、VILA-8B/40B,以及开源视频MLLMs如LLaVA-Video-7B/72B-Qwen2、LLaVA-NEXT-Video-32B-Qwen、Oryx-34B、VideoLLaMA2-7B/72B。
此外,我们引入了两个特殊的参考智能体:
(1)Random智能体,在每一步从动作选项中均匀随机采样动作;
(2)非专家Human智能体,对任务不熟悉,通过仿真器界面在与模型相同的观测和动作空间下完成任务。
在视觉观测历史方面,EmbodiedEval每步提供多张自我中心图片,或可选地提供完整交互过程的视频。专有及开源图像MLLMs使用前者作为输入,视频MLLMs使用后者。
我们将每个任务的最大尝试步数设为24。图片分辨率为448×448,视场角为90度。所有模型在评测时温度参数均设为0。我们提示模型在决策前先输出思考过程。
我们采用三项指标评估智能体性能:
- (1)成功率(Succ.),衡量智能体完整完成任务的百分比,是主要评测指标;
- (2)目标条件成功率(GcS),通过谓词函数计算已达成目标条件的比例,反映部分成功情况;
- (3)路径长度加权成功率(SPL),在导航和交互任务中综合考虑任务成功与路径效率,相对于专家演示路径进行评估。
结果分析
主要结果
当前MLLMs与人类在具身任务上的性能差距。
如表所示,不同模型在EmbodiedEval基准上的成功率普遍较低。表现最好的GPT-4o模型整体成功率仅为25.00%,目标条件成功率为32.42%。相比之下,非专家人类的成功率接近完美(97.26%),凸显了当前模型在执行人类认为简单的具身任务时面临的巨大挑战。这一差距在SPL指标上也有所体现,说明模型难以找到最优解。开源模型的表现差距更大,表现最好的LLaVA-OneVision-72B整体成功率仅为12.80%,与专有模型相比也不具竞争力。

不同任务类型下的模型表现。
结果显示,不同任务类型下模型表现差异显著。GPT-4o在问答和导航任务中表现相对较好,但在交互任务上的表现明显下降。这种差异在其他专有模型中更为突出。例如,大多数模型在属性问答任务中表现尚可,但在需要空间推理的空间问答任务中成功率骤降,通常下降一半。总体来看,所有模型在交互任务上的得分普遍较低,说明模型在需要理解可供性或社交线索的场景中面临更大挑战。
性能分析
在需要较少步数完成的任务中,模型通常能保持较高的成功率,但随着任务长度的增加,成功率会下降。这一下降归因于任务复杂性的提升以及处理长上下文的难度。图5中间展示了在逐步增加最大允许步数(从1到25)时,交互任务的性能曲线。虽然最初成功率有所提升,但随着允许步数的增加,收益逐渐减小,说明模型难以有效管理更长的历史信息。在图5右侧,我们展示了Gemini-Flash在不同任务中,输入图片数量变化下的表现。尽管理论上增加图片数量可以提供更多历史信息,但除空间问答任务外,模型表现反而下降,只有空间问答因额外的空间上下文而受益。该结果表明,当前多模态模型在处理多张自我中心图片输入时仍面临挑战。这些结果凸显了长时序具身任务的难度,较长的序列会加剧智能体基于历史信息进行规划和行动的复杂性。

交互任务的挑战。 为进一步分析交互任务表现较低的原因,我们在表3中展示了交互任务的一些统计信息。交互频率衡量所有已执行动作中交互动作的比例,交互成功率则反映这些动作在正确条件下被调用的频率,体现了模型的可供性判断能力。人类通常能确保只执行必要的交互,而模型则表现出不同的交互频率,但成功率普遍较低。GPT-4o通过在较高交互频率下保持相当的成功率,在交互任务中取得了更好的表现。现有MLLMs需要在空间感知、语义落地和可供性判断等方面进一步提升,以实现更高的交互成功率。

错误案例分析
我们总结了MLLMs作为具身智能体的四类主要错误:
- 定位幻觉:模型对环境感知错误,虚构不存在的物体或忽略实际存在的物体。例如,模型可能自信地描述不存在的物品,或无法定位小物体,影响问答和非问答任务。
- 探索不足:智能体采用次优探索策略,导致信息获取和目标查找受限。常见表现为陷入局部区域,或因过度自信在未充分探索环境前就作答。
- 空间推理能力不足:模型难以理解空间关系,常常误解方向指令(如“在我左边”),即使是简单的移动任务也会出错。
- 规划错误:智能体状态估计和动作规划能力弱,表现为随机或重复动作,如无目的地绕圈或反复拾取物体,且难以理解动作结果并在失败后调整策略。

未来改进方向
基于上述结果和错误分析,未来MLLMs的发展可从以下方面改进:
- 当前MLLMs主要基于互联网数据训练,缺乏物理空间相关训练,导致空间能力薄弱。可通过引入具身轨迹数据、自我中心视频数据、合成数据等方式提升空间相关能力。
- 应进一步探索自我中心感知和序列图像/视频的定位能力,以减少幻觉现象。
- 由于模型在长时序任务(即使仅十几步)上表现不佳,需加强对长多模态序列的理解能力,这对解决长时序视觉与具身任务至关重要。
- 可结合强化学习等训练方法,进一步提升模型的探索、推理和错误恢复能力,在现有基础上实现更强的具身智能。
结论
在本文中,我们提出了EmbodiedEval,这是首个面向多模态大语言模型(MLLMs)设计的交互式具身任务综合基准。我们提供了一个高效的评测框架,用于交互式地评估MLLMs在具身任务中的能力。为了保证数据集的准确性、多样性和高质量,我们在每个任务样本的标注过程中投入了大量工作。
通过实验,我们发现当前的MLLMs在具身任务上的表现仍然较差。然而,我们相信,随着对通用多模态数据学习的能力不断提升,未来将有更多关注点聚焦于MLLMs具身能力的提升。我们希望EmbodiedEval能够助力并引导MLLMs的发展,推动其在具身智能领域实现更大的潜力。

浙公网安备 33010602011771号