EMBODIEDBENCH：评估视觉驱动具身智能体的基准

https://arxiv.org/abs/2502.09560
https://embodiedbench.github.io

摘要

利用多模态大型语言模型（MLLMs）创建具身代理提供了一个有前途的解决现实世界任务的途径。尽管语言为中心的具身代理已经引起了广泛关注，但由于缺乏全面的评估框架，基于MLLM的具身代理仍相对未被充分探索。为了弥补这一差距，我们引入了EMBODIEDBENCH，这是一个广泛的设计用于评估视觉驱动具身代理的基准。EMBODIEDBENCH 包括：(1) 四个环境中的1,128个测试任务，涵盖了从高层语义任务（如家庭任务）到低层次涉及原子操作的任务（如导航和操作）；(2) 六个精心策划的子集，评估代理的关键能力，如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。通过广泛的实验，我们在EMBODIEDBENCH中评估了19种领先的专有和开源MLLMs。我们的研究发现表明：MLLMs在高层任务中表现出色，但在低层次操作任务中表现不佳，最好的模型GPT-4o平均得分仅为28.9%。EMBODIEDBENCH提供了一个多方面的标准化评估平台，不仅突显了现有的挑战，还提供了有价值的观点，以推动基于MLLM的具身代理的发展。

引言

开发能够解决现实世界复杂任务的具身智能体仍然是一个重大挑战（Durante 等，2024）。近期在基础模型方面的进展——包括大型语言模型（LLMs）（Brown 等，2020；Achiam 等，2023；Touvron 等，2023；Yang 等，2024a）和多模态大型语言模型（MLLMs）（OpenAI，2024a；Reid 等，2024；Liu 等，2024a；Wang 等，2024a；Chen 等，2023c；2025）——已经为实现这一目标解锁了前所未有的潜力。这些模型通过广泛的互联网规模数据集的训练，展示了卓越的理解人类知识和执行人类水平推理的能力。基于这些能力，研究人员现在可以设计使用现成基础模型的智能体，通过与环境的互动来解决复杂任务（Huang 等，2022a;b；2023c；Ahn 等，2022；Song 等，2023；Singh 等，2023；Liang 等，2023；Qian 等，2024）。

鉴于已提出的算法众多，标准化和自动化的评估框架的需求迫在眉睫，以实现全面的评估和比较。为解决这一需求，一些项目已经开始探索基于LLM的具身智能体评估（Liu 等，2023b；Choi 等，2024；Li 等，2024b）。尽管这些努力显著推进了对基于LLM的智能体设计的理解，但多模态大型语言模型的具身智能体评估仍处于研究不足的状态，这为创造更灵活的智能体带来了挑战。VisualAgentBench（Liu 等，2024e）代表了首个评估MLLM智能体的基准，涵盖了家庭和《我的世界》中的具身任务。然而，其范围有限，仅关注高层次的规划，未能回答关于视觉在具身任务中的作用以及MLLM智能体在导航和操作等低层次任务中的表现等关键问题。

为了解决这些问题，我们引入了EMBODIEDBENCH，这是一个包含四个环境中1,128个测试实例的全面基准。EMBODIEDBENCH的设计具有两个关键特点，使其与现有基准有所不同：1. 多样化的任务和分层的操作水平。在四个环境中，EB-ALFRED和EB-Habitat重点关注高级任务分解和规划（例如，“将书放在桌子上”），而EB-Navigation和EB-Manipulation则需要规划低级动作（例如，平移/旋转控制），并且要求精确的感知和空间推理能力。2. 以能力为导向的评估。与主要强调整体准确率（Liu等，2023b；Choi等，2024；Liu等，2024e）或模块特定性能（Li等，2024b）的先前基准不同，EMBODIEDBENCH引入了一个细粒度的评估框架，评估了具身代理的六个关键能力，包括基本任务解决、常识推理、复杂指令理解、空间意识、视觉感知和长期规划。

为了促进对MLLMs作为具身代理的评估，我们设计了一个统一的代理框架，该框架集成了以自我为中心的视觉感知、少样本上下文示例、交互历史和环境反馈，用于决策。这一强大的框架可以充分发挥当前现成MLLMs的潜力，并有效应对高级和低级任务。基于EMBODIEDBENCH和我们的代理管道，我们评估了19种领先的闭源MLLMs（例如，GPT-4o、Gemini、Claude-3.5和Qwen-VL-Max）和7B–90B的开源模型（例如，Llama-3.2 Vision（Meta，2024）、InternVL 2.5系列（Chen等，2025；Wang等，2024b）、Qwen2-VL（Wang等，2024a）和Qwen2.5-VL（Bai等，2025））。

我们的评估得出了三个主要发现：（1）尽管MLLMs在高级任务中表现出色，但它们在低级操作中表现不佳。（2）长期规划是最具挑战性的子集。（3）视觉输入对于低级任务至关重要，其性能在移除视觉输入后下降了40%–70%，而对高级任务的影响则很小。此外，我们的消融研究为MLLM代理设计提供了实用见解，特别是在图像分辨率、多步图像输入和视觉上下文学习方面。

我们的贡献有三方面：（1）提出了一套全面的基准，用于评估基于MLLM的具身代理在不同操作水平和细粒度能力导向子集中的表现，（2）开发了一个高效的MLLM代理框架，（3）对领先的MLLMs进行了广泛的评估和消融研究，为视觉驱动代理设计提供了宝贵见解。

问题定义

行动层级的定义。在具身代理研究中，行动可以根据其在机器人系统中的可执行性系统地分类为不同层次（Ma et al., 2024b; Belkhale et al., 2024）。低层级行动对应于机器人可以直接执行的原子命令，定义为指定平移或旋转位移的操作。例如，机器臂的行动通常参数化为一个7维向量：a = [X, Y, Z, 滚动, 俯仰, 偏航, 夹具]，其中 (X, Y, Z) 表示增量平移位移，(滚动, 俯仰, 偏航) 表示欧拉角下的旋转增量，夹具编码末端执行器的二进制开/闭状态。同样，如“前进0.1米”这样的命令也属于低层级行动，因为它们可以明确地映射到运动学变换。相比之下，高层级行动可以分解为低层级原语的序列。形式上，高层级行动定义为 ah = [a1, a2, ..., an]，其中每个 ai 是一个低层级可执行原语。例如，执行“找到一条手巾”可能涉及一系列低层级行为：转动一定角度、扫描目标并移动过去。

以下是上述段落的中文翻译：

视觉驱动的智能体（Vision-driven Agents）
视觉驱动的智能体是指基于视觉感知和语言指令进行序列决策的自主系统。该问题可以形式化地建模为一个结合语言指令的部分可观马尔可夫决策过程（POMDP），表示为一个七元组 \((S, A, \Omega, T, O, L, R)\)。其中：

\(S\) 表示完整的状态空间，该状态对智能体是不可观测的；
\(A\) 是智能体可执行的高层或低层动作空间；
\(\Omega\) 是视觉感知空间，每个观测 \(I_t \in \Omega\) 对应于时刻 \(t\) 的一帧图像；
\(T\) 是状态转移动力学；
\(O\) 是将底层状态映射为视觉观测的函数；
\(L\) 是指定目标的语言指令；
\(R\) 是在给定语言指令 \(L\) 的前提下评估任务完成情况的奖励函数：

\[ r_t = \begin{cases} 1, & \text{如果 } s_t \models L \quad (\text{即达成指令}) \\ 0, & \text{否则} \end{cases} \]

在每个时间步 \(t\)，智能体维护一个历史轨迹 \(h_t = (a_0, I_1, ..., a_{t-1}, I_t)\)，并根据策略 \(\pi(a_t | L, h_t)\) 选择动作。其目标是最大化任务成功的概率：\(\max_\pi \mathbb{E}[r_\tau]\)。其中 \(\tau\) 是终止时间步，当任务成功（即 \(s_\tau \models L\)）或达到最大时间步时终止。

EmbodiedBench

为了全面评估多模态大模型（MLLMs）作为具身代理在不同动作层次和能力上的表现，我们引入了一个叫作EMBODIEDBENCH的基准测试，该基准测试包含了四个环境：EB-ALFRED、EB-Habitat、EB-Navigation和EB-Manipulation。为了评估六种核心具身代理能力，我们开发了新的数据集，并增强了现有仿真器以支持全面评估。以下是四个基准任务的概述，更多细节请参见附录B。

高层和低层任务

EB-ALFRED. 我们基于ALFRED数据集（Shridhar等，2020a）和AI2-THOR仿真器（Kolve等，2017）开发了EB-ALFRED。我们的仿真器基于Lota-Bench的实现（Choi等，2024），支持8种高层技能类型：“拿起”、“打开”、“关闭”、“打开”、“关闭”、“切”、“放下”和“找到”，每种技能均可针对特定物体进行定制，例如“找到一个苹果”。仿真器提供以第一人称为视角的观察结果，以及有关动作有效性和可能失败原因的文本反馈。尽管Lota-Bench的仿真器有其优点，但它也存在一些局限性，这些局限性在附录B.1中进行了详细说明。为了增强仿真效果，我们引入了关键改进，例如支持同类型物体的多个实例，使我们能够涵盖ALFRED中的所有任务类型。此外，我们将“放下”动作合并为一个单一动作，因为一次只能持有一个物体。由于ALFRED中的物体数量不同，EB-ALFRED的动作空间是动态的，从171个到298个不等。此外，我们手动纠正了仿真器错误，并提高了指令的质量，从而确保更准确的动作执行和更高的任务可解性。这些改进使EB-ALFRED成为评估具身代理的高质量基准测试。

EB-Habitat. EB-Habitat构建于Language Rearrangement基准测试（Szot等，2023）之上，包含282个多样化的语言指令模板。它利用了Habitat 2.0仿真器（Szot等，2021），专注于规划和执行70项高层技能以实现用户定义的目标。这些技能分为五个类别：“导航”、“拾取”、“放置”、“打开”和“关闭”，每个技能由一组物体参数化。与允许导航到任何物体的ALFRED不同，EB-Habitat将导航限制为接收类型物体，要求机器人访问多个位置以找到所需物品。凭借其丰富的语言指令和独特的导航约束，EB-Habitat成为EB-ALFRED的重要补充。

EB-Navigation。EB-Navigation 是基于 AI2-THOR (Kolve 等, 2017) 的评估套件，旨在评估具身代理的导航能力。每个独特的导航任务主要由以下因素定义：(1) 初始机器人姿态，(2) 目标对象信息，(3) 指定要定位的目标对象的语言指令，例如“导航到笔记本电脑”。机器人只能依赖视觉观察和文本反馈进行导航，而不能依赖直接的定位数据，以达到目标对象。成功的定义是在目标对象的指定距离范围内。动作空间包括 8 个低级动作：(1) 向前/后/左/右移动 ∆x；(2) 向右/左旋转 ∆θ 度；(3) 将摄像头向上/下倾斜 ∆φ 度。环境提供关于动作有效性的文本反馈，如碰撞检测。此外，我们提供了一个脚本，用于自动生成任务，允许用户通过指定配置来创建自定义任务数据集。

EB-Manipulation。EB-Manipulation 扩展了 VLMBench (Zheng 等, 2022)，以评估基于 MLLM 的具身代理在低级物体操作中的表现。代理通过一个七维动作向量控制机械臂，指定运动参数。直接的低级操作对 MLLMs 来说具有挑战性。为了克服这一挑战，我们实施了改进措施，如图 2 所示：(1) 动作空间离散化 (Yin 等, 2024)，将位置分量 (x, y, z) 划分为 100 个区间，将方向分量 (滚动、俯仰、偏航) 划分为 120 个区间，使得有效动作可以采取诸如 [x, y, z, 滚动, 俯仰, 偏航, 夹爪] = [57, 61, 20, 10, 60, 25, 1] 的形式；(2) 附加信息，如带有索引标记的 YOLO (Redmon, 2016) 检测框 (Yang 等, 2023a) 和索引对象的姿势估计，减少了对精确 3D 位置的需求。

能力导向的数据收集

我们旨在为四个环境收集能力导向的数据。为此，我们确定了六个能力类别，如表5所示：

基础子集评估在低至中等难度任务中规划行动序列所需的基夲任务解决技能。
常识子集侧重于使用常识知识间接指代对象，例如将冰箱描述为“可以将食物保鲜几天的容器”。该子集评估具身代理使用常识进行推理的能力。
复杂指令子集包括相对较长的上下文，这些上下文可能相关或不相关，以模糊指令。这衡量了一个代理从长上下文中识别用户意图的能力。
空间意识子集通过对象相对于其他对象的位置来指代对象。
视觉外观子集基于对象的视觉属性，如颜色或形状来指代对象。
长视野子集包括需要长时间行动序列的任务，通常在EB-ALFRED中超过15步。这些子集涵盖了广泛的场景，能够对具身代理的能力进行细致的评估。

为了构建多样化的数据集，我们采用不同的数据收集策略。对于EB-ALFRED和EB-Manipulation，数据是通过手动标注和使用GPT-4o（OpenAI, 2024a）进行指令增强相结合的方式收集的。对于EB-Habitat，我们重新组织并改编了现有数据集（Szot et al., 2023），以符合我们的具体目标。不同的是，EB-Navigation的数据是完全通过自动化的Python程序生成的。总结而言，EB-ALFRED和EB-Habitat每个都包括300个测试实例，每个子集50个实例。由于设计挑战，EB-Navigation省略了空间意识子集，而EB-Manipulation排除了长视野子集。EB-Navigation由300个测试案例组成，分布在5个子集中（每个子集60个实例），而EB-Manipulation包含总计228个实例，除视觉外观子集包含36个实例外，每个子集包含48个实例。详细的数据收集方法见附录B。

以视觉驱动的代理设计

为了评估在EMBODIEDBENCH中作为代理的MLLMs，我们设计了一个统一的具身化代理流程，如图2所示。该流程提供了一个强大的框架，用于处理多模态输入、通过交互进行推理，并生成由顺序动作组成的结构化、可执行计划。图3提供了两个规划示例，更多示例见附录H。以下，我们概述代理设计的关键组成部分。

代理输入：代理处理多种输入，包括语言指令、视觉感知、上下文演示、交互历史和特定任务信息。对于视觉感知，代理可以使用当前步骤的图像或滑动窗口内的历史图像序列。然而，我们观察到当前的MLLMs在理解多个历史图像方面存在困难，因此主要依赖当前步骤的图像来提高效率。特定任务信息因任务类型而异。对于高级任务和EB-导航，代理需要有效的技能集，而EB-操作任务则包含动作格式的描述。此外，EB-操作还包括带有视觉标记和物体位置的检测框，以帮助MLLMs准确识别3D位置。更多输入提示示例见附录G。

任务规划器：在每个规划步骤中，代理：（1）生成当前视觉输入的文本描述；（2）回顾过去的动作和环境反馈；（3）利用可用信息推理如何实现目标；（4）制定基于语言的计划；（5）将其转换为所需格式的可执行计划。所有输出均以JSON格式结构化。与之前的工作每次时间步仅规划一个动作（Liu et al., 2024e）不同，我们支持多步骤规划，允许代理动态决定所需的动作数量。这提供了两个优点：（1）更符合上下文示例以进行顺序决策，（2）减少计划冗余，特别是在低级任务中，单个动作对图像的改变有限，从而最小化MLLM API调用。如果计划失败或触发了无效动作，代理将从最新状态重新开始规划。

实验

本节中，我们对EMBODIEDBENCH中的各种多模态语言模型（MLLMs）进行了全面的实验评估，并在第5.3和5.4节进行了消融研究，第5.5节进行了错误分析。

实验设置

我们评估了19个模型，包括主要的专有模型（GPT-4o / 4o-mini (OpenAI, 2024a;b)，Claude-3.5Sonnet (Anthropic, 2024)，Gemini Pro / Flash (Team et al., 2023; 2024a; DeepMind, 2024)，以及Qwen-VL-Max (Bai et al., 2023)），以及最新的开源模型（LLaMA3.2 11B / 90B Vision Instruct (Meta, 2024)，InternVL 2.5 8B / 38B / 78B (Chen et al., 2025) 及其MPO版本 (Wang et al., 2024b)，以及Qwen2-VL和Qwen2.5-VL 7B / 72B (Wang et al., 2024a; Bai et al., 2025)）。为了保持一致性，所有模型均设置为温度为0，最大输出标记长度为2048。所有图像均标准化为500×500像素。高级任务的最大环境步骤为30，EB-Navigation为20，EB-Manipulation为15。我们在主要实验中使用任务成功率作为主要指标。更多结果和消融实验详见附录E。

基准测试结果

总体结果。表2和表3分别汇总了高级和低级任务的结果。总体而言，目前的多模态语言模型在高级任务中表现良好，但在低级任务中表现较差，特别是EB-Manipulation。在专有模型中，我们观察到不同模型在不同任务层级上的表现各不相同：Claude-3.5-Sonnet在高级任务中平均准确率最高，EB-ALFRED为64.0%，EB-Habitat为68.0%；而GPT-4o在低级任务中表现最好，EB-Navigation得分为57.7%，EB-Manipulation得分为28.9%。Gemini-1.5-Pro在三个大型专有模型中表现最差，但Gemini-1.5 / 2.0-Flash明显优于GPT-4o-mini。对于开源模型，InternVL2 5-MPO系列整体表现最佳。其最大的78B版本在所有四个环境中均优于Llama3.2-90B-Vision-Ins和Qwen2.5-VL-72B-Ins。此外，对比两个InternVL2 5系列模型也清楚地表明了MPO模型（Wang et al., 2024b）的优势，突显了偏好优化对具身代理推理能力的积极影响。此外，开源模型表现出明显的规模效应，随着模型参数的增加，性能不断提升。尽管如此，顶级专有模型与开源模型之间仍存在明显的性能差距。

视觉在具身代理中的作用。通过对比表2和表3中具身代理在有和无视觉信息（标记为“Lang”）时的表现，我们观察到低级任务与高级任务之间存在明显差异。低级任务对视觉信息的依赖远高于高级任务。例如，禁用视觉信息使GPT-4o在EB-Navigation上的表现从57.7%急剧下降至17.4%，长时规划任务完全坍塌至0%。这一急剧下降突显了视觉信号在低层级控制任务中的关键重要性。相反，高级任务对视觉输入的依赖程度较低。在EB-ALFRED和EB-Habitat任务中，GPT-4o (Lang)和GPT-4o-mini (Lang)的表现与启用视觉的版本相当甚至更好，这表明这些任务可能更依赖文本信息而不是视觉输入。我们将在第5.3节进一步探讨语言为中心的因素的影响。这些发现强调了两个关键见解：（1）在设计基于MLLM的具身AI基准时，必须考虑行动级别的分类，尤其是关注低级行动任务；（2）需要更先进的方法来有效利用视觉输入进行高级具身任务。

细粒度子集结果。基于对6个子集的评估，我们有以下发现：

不同子集的性能存在差异。我们观察到模型在不同子集上的表现有所不同。例如，虽然Claude-3.5-Sonnet在EB-Habitat整体上表现最佳，但GPT-4o在长期规划子集上的表现优于前者（64%对58%），这表明GPT-4o在长期规划方面具有更强的能力。这一趋势在低级任务中尤为明显。例如，Gemini-1.5-Pro在空间意识子集上的得分比GPT-4o高出10分，但在其他能力方面显著落后。这些结果强调了细粒度评估的重要性，以揭示当前模型中的细微局限性。
长期规划是最具挑战性的任务。长期规划子集始终是最困难的，与基础分数相比表现出最大的性能差距。例如，在EB-Habitat中，Claude-3.5-Sonnet在基础子集上的得分为96%，但在长期规划子集上下降到58%。同样，GPT-4o从86%下降到64%。这一趋势在高级和低级任务中都成立，表明长期规划仍然是当前基于MLLM的代理的重要瓶颈。

以语言为中心的消融分析

我们探讨了以语言为中心的组件的作用，特别是集中关注环境反馈和情境示例的数量。对比实验使用了EB-ALFRED的基础子集。图4的发现表明，移除提供交互过程中关键信息的环境反馈，会导致GPT-4o的成功率下降10%，Claude-3.5-Sonnet的成功率下降8%。此外，虽然我们的实验默认使用10个情境示例，但减少这一数量会显著影响性能。在0-shot设置下，成功率降至约40%。通过比较表2和表3的结果，可以看出高层次任务更依赖于文本信息而非视觉输入。

视觉中心消融分析

视觉信息对低级任务的性能至关重要。在本节中，我们深入分析了四个因素或潜在增强的影响：相机分辨率、检测框、多步图像和视觉上下文学习。所有比较均基于EB-Manipulation的基础子集。更多消融结果请参阅附录E。

相机分辨率。我们研究了三种相机分辨率对任务性能的影响。结果如图5(a)所示，中等分辨率（500 × 500）在较低（300 × 300）和较高（700 × 700）分辨率之间取得了更好的效果。低分辨率图像可能缺乏执行任务所需的精细细节，而过高的分辨率可能引入不必要的复杂性，使得多模态语言模型（MLLMs）难以专注于决策所需的相关信息。这些结果强调了在部署基于MLLM的具身代理时选择适当分辨率的重要性。

检测框。在EB-Manipulation中，检测框和视觉标记用于将语言指令与视觉信息对齐，帮助在场景中定位关键对象。图5(b)显示，对于GPT-4o，移除检测框使成功率从39.6%下降至27.1%；对于Claude-3.5-Sonnet，则从37.5%下降至29.2%，这强调了检测框在低级任务中物体定位的重要作用。

多步图像输入。我们还探讨了在代理框架中加入多步历史观察是否可以提高性能，因为这可能有助于解决部分可观测性问题。对于EB-Manipulation，我们在当前步骤之外还包括过去两步的观察。图9和图10展示了两个多步图像示例。图5(c)提供了定量结果。实验表明，当前的MLLMs在有效利用多个图像输入方面存在困难，经常导致对其当前状态的混淆。未来的工作可以集中于开发方法，以更好地利用多个图像来增强理解和推理能力。

视觉上下文学习（Visual ICL）。先前的研究主要依赖于基于文本的ICL演示。在本研究中，我们通过将图像观察作为上下文示例的一部分，探讨了视觉ICL对具身代理的影响。这种方法有助于模型更好地理解成功低级动作与图像中物体位置之间的关系。图15展示了视觉ICL示例。我们将示例数量限制为两个，以避免过多的视觉输入使模型过于负担。这可能稍微降低了基线性能，因为主要结果使用了超过两个基于文本的示例。如图5(d)所示，结果表明，视觉ICL显著优于仅基于语言的ICL。例如，Claude-3.5Sonnet的性能提高了16.7%。这些发现强调了视觉ICL作为未来具身代理研究中一个有前景的方向的潜力。

错误分析

我们对GPT-4o进行了错误分析，以识别EB-ALFRED和EB-Manipulation中的潜在故障模式。对于每个环境，我们从每个子集中抽取了10个失败案例，共计分析了110个失败案例。我们发现了三种主要类型的错误：感知错误、推理错误和规划错误。每种错误类别对应我们代理管道中的一个特定阶段，具体子错误的定义见附录F。

总体而言，规划错误是两个环境中最常见的问题，而感知错误在低层次任务中更为普遍。在EB-ALFRED中，规划错误（55%）和推理错误（41%）占主导，而感知错误仅占4%。在规划错误中，遗漏步骤（23%）和无效操作（22%）是最常见的问题，这突显了生成完整和有效计划的挑战。反思错误（17%）表明模型经常未能在其操作历史中识别出规划错误。另一个常见的失败是过早终止错误（13%），即模型过早地认为任务已完成并提前停止。对于EB-Manipulation来说，规划错误仍然是主要的失败原因（44%），这主要是由于不准确的操作，表明在估计精确的夹爪姿态方面存在困难。感知错误占失败的33%，其中错误识别错误（22%）最为常见。这些错误表明，即使在视觉输入中标注了检测框，模型仍无法正确识别物体属性。这突显了GPT-4o在视觉能力方面仍有很大的提升空间。

结论

我们介绍了EMBODIEDBENCH，这是一个全面的评估框架，旨在评估基于多模态大语言模型（MLLM）的具身智能体在具有不同行动层次和能力导向子集的任务中的表现。通过广泛的实验，我们识别了关键挑战，包括低层次操作的困难、长期规划的挑战，以及不同任务中视觉输入的重要性的差异。通过突出这些需要改进的领域，我们希望EMBODIEDBENCH能够激发并指导未来的研究，推动更强大、更通用的视觉驱动具身智能体的发展。

未来研究方向

尽管EMBODIEDBENCH在评估基于MLLM的具身智能体方面代表了一个重要的进步，但仍有许多挑战存在，提供了丰富的未来研究机会。以下，我们概述了潜在的研究方向：

扩展任务多样性
当前基于MLLM的具身智能体的基准测试在任务多样性方面仍有限。未来的研究可以探索更现实和复杂的环境，包括不同行动层次的任务，如自动驾驶（Gulino等，2024；Ma等，2024a；Gao等，2024a）、多智能体协作（Liu等，2024d）和人机交互（Chang等，2024）。这些场景将更好地评估智能体在现实世界中的适应性和泛化能力。
低层次任务和空间推理
我们的研究发现，当前基于MLLM的智能体在空间推理和低层次控制方面存在困难。未来的研究可以通过更好地将空间推理与低层次行动规划相结合来改善这些能力，包括3D视觉定位（Chen等，2024a；Cheng等，2024）和对齐（Ahn等，2022；Yang等，2024d）。
长期规划
长期规划对具身智能体而言仍然是一个挑战。未来的研究可以研究层次规划（Song等，2023；Ajay等，2023）、增强记忆的方法（Sarch等，2024a）和世界模型（Mazzaglia等，2024）等技术，以提高智能体在多步骤复杂任务中的计划和执行能力。
多步骤/多视角图像理解
我们的实验表明，当前的MLLM在处理多步骤和多视角图像输入方面存在困难。未来的研究可以通过改善多帧和多视角理解、时间推理和空间意识来增强MLLM智能体的视觉感知和推理能力。一个有前途的方向是利用视频预训练（Madan等，2024；Wang等，2024a）来更好地应对这些挑战。
视觉上下文学习（ICL）
我们的实验验证了视觉ICL（Zhou等，2024b；Sarch等，2024b）在具身决策中的有效性。这种方法很有前景，因为它可以在不进行微调的情况下提高适应性和通用性，更好地利用现成的MLLM。然而，为具身任务设计更有效的视觉ICL方法仍然是未来研究的开放问题。
训练多模态具身智能体
尽管我们的工作重点是评估，但对MLLM进行具身任务的微调可以显著提高其性能（Mu等，2024；Szot等，2024；Zawalski等，2024）。未来的研究可以探索具身预训练、模仿学习以及离线和在线强化学习（Sun，2023），以更好地优化MLLM在具身决策中的表现。此外，开发无缝集成感知、推理和行动的端到端学习方法，可以减少设计复杂智能体框架的需要，从而导致更适应和通用的智能体。
MLLM智能体的鲁棒性和泛化能力
确保现实世界的适用性需要彻底研究MLLM智能体的鲁棒性和泛化能力。尽管在其他领域相关研究正在出现（Zou等，2024；Xu等，2024；Yang等，2023b；2024b；Zhang等，2024b），但关于MLLM智能体的研究仍然有限。潜在的方法包括引入对抗性环境（Liu等，2024b；Wu等，2024a）、动态生成环境（Wang等，2023c）或领域转移（Chattopadhyay等，2021），以评估和增强具身智能体在不同条件下的可靠性能。

通过探索这些方向，该领域可以更接近实现基于MLLM的具身智能体在现实世界应用中的全部潜力。

posted @ 2025-04-10 17:43 一介布衣、阅读(467) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、