Emboded-Reasoner:在具身交互任务中协同视觉搜索、推理和行动
https://arxiv.org/abs/2503.21696
摘要
近期的深度思维模型在数学和编程任务中展现出卓越的推理能力。然而,这些模型在需要通过图像-动作交织轨迹与环境进行连续交互的具身领域中的有效性仍然未被探索。我们提出了具身推理器(Embodied Reasoner),该模型将 o1 风格的推理扩展到交互式的具身搜索任务。与主要依赖逻辑演绎的数学推理不同,具身场景需要空间理解、时间推理和基于交互历史的持续自我反思。为应对这些挑战,我们综合了 9300 条连贯的观察-思考-行动轨迹,包含 64000 张互动图像和 90000 种多样的思维过程(分析、空间推理、反思、规划和验证)。我们开发了一个三阶段的训练管线,通过模仿学习、通过拒绝采样的自我探索以及通过反思调优的自我纠正,逐步增强模型的能力。评估显示,我们的模型显著优于那些先进的视觉推理模型,例如,它在 OpenAI o1、o3-mini 和 Claude-3.7 上分别提高了 9%、24% 和 13%。分析表明,我们的模型表现出更少的重复搜索和逻辑不一致,尤其在复杂的长时域任务中具有优势。现实环境也显示了我们的优越性,表现出更少的重复搜索和逻辑不一致情况。

引言
近期,在深度思考模型方面,如OpenAI o1 [30]、Gemini 2.0 Flash Thinking [10]、DeepSeek R1 [14] 和 Qwen-QwQ [39] 的进展展示了这些模型在需要深入思考的领域中表现出卓越的推理能力。这些模型通过大规模强化学习(RL)[14, 38] 或在复杂的思考轨迹上进行后训练 [27, 64] 进行训练,展现出类似人类的思考模式和自我反思,最终得出解决方案。这些模型的成功促进了需要深思熟虑的领域(特别是大学水平的数学 [13, 27] 和编程任务 [18, 62])的显著进步。
尽管取得了这些进展,一个关键问题仍然浮现:o1式的推理范式是否可以扩展到这些专业领域之外,以应对需要具身智能的更复杂挑战?特别是,这些推理能力是否可以有效应用于需要长期规划和在互动环境中进行深思熟虑的具身任务?这一扩展并非易事,因为存在几个基本挑战:
挑战1:扩展的多模态互动。与大多数局限于单轮对话的问题回答任务相比,具身模型在长任务中以互动方式运行。这意味着它们必须持续与环境互动,收集实时反馈,这些反馈大多以视觉形式出现,然后根据这些反馈做出合理的行动(以文本形式)。在这样的场景中,模型需要处理长序列的图像-行动交错的上下文,并生成连贯且上下文一致的推理。然而,这仍然是许多当前多模态模型和视觉推理模型 [12, 15, 34, 55] 面临的挑战。观察发现,即使是像 OpenAI o3-mini [31] 这样的先进推理模型,在这些具身互动任务中也经常表现出推理能力不足,导致重复或不一致的行为。
挑战2:多样化的推理模式。与主要依赖专业知识和逻辑推理的数学任务不同,具身情境要求更广泛存在于日常生活中的能力。如图2所示,当在未知房间中寻找隐藏的物体时,模型必须利用常识知识推断可能的搜索区域(例如,步骤1、3),理解物体的空间关系以规划高效的探索路径(步骤1、5),并通过时间推理回忆先前尝试的相关线索(步骤9),同时反思之前的失败。这些多方面的推理需求对多模态模型构成了挑战。

在本文中,我们提出了具身推理器(Embodied-Reasoner),这是一种将深度思维能力扩展到具身互动任务的新方法。我们的核心见解是,有效的具身推理不仅需要处理多模态输入的能力,还需要生成能够适应不同互动阶段的多样化思维过程(分析、规划、反思)。为了培养这种能力,我们开发了一个数据引擎,该引擎能够自动生成连贯的观察-思考-行动轨迹,这些轨迹丰富了特定于具身的多样化思维过程,例如情境分析、空间推理、自我反思、任务规划和验证。这些连贯的、图像和文本交织的轨迹引导模型学习如何基于其互动历史和空间布局进行规划和推理,从而提升其空间和时间推理能力。我们进一步为具身模型引入了一个三阶段迭代训练管道,该管道结合了模仿、自主探索和自我纠正。管道首先在合成轨迹上进行模仿学习,以培养基本的互动技能,然后通过拒绝采样调优以增强探索能力,最后通过反思调优以促进自我纠正。
我们在AI2-THOR模拟器[23]中的四个高级具身任务上评估了我们的方法:搜索、操作、运输和复合任务。这些任务要求代理通过推理和规划在不熟悉的环境中找到隐藏的物体,然后对其进行操作或运输到指定区域。我们的数据引擎合成了9.3k条任务指令,每条指令都配有一条交互轨迹,包含64k张图像和8M个思维令牌,涉及107种多样化的室内场景、2,100个物体和2,600个容器。这些轨迹用于模型训练。
在12个新情境中的809个任务中,具身推理器在成功率和搜索效率上显著优于最先进的视觉语言模型和视觉推理模型,分别超过了OpenAI o1、o3mini和Claude-3。7-Sonnet-thinking,提高9%的成功率和12%的搜索效率。特别是在复杂的复合任务中,我们的模型比第二好的模型高出39.9%的性能。我们的分析表明,具身推理器通过为复杂任务自动生成更多的推理令牌,并通过时间推理避免重复和低效的探索,展现出了更一致的推理和高效的搜索行为。
我们的贡献包括:
- 一种将深度思维扩展到具身场景的框架,解决了互动推理的独特挑战;
- 一个合成多样化具身推理轨迹的数据引擎,这些轨迹包含交织的观察、思考和行动;
- 一个三阶段训练管道,逐步提升互动、探索和反思能力;
- 广泛的评估,显示在复杂长期任务中相对于最先进模型的显著改进。
观察-思维-行动语料库
为了开发适用于具身场景的o1式推理模型,我们首先设计了一个需要高层次规划和推理而非低水平运动控制的任务,即寻找隐藏物品(第2.1节)。接下来,我们在模拟器中设计了一个数据引擎,以合成交互推理语料库,包括任务指令(第2.2节)和相应的关键动作序列(第2.3节)。每个动作都会产生一个视觉观察,形成一个交互轨迹。最后,我们为每个动作生成多个思考内容,例如情境分析、任务规划、空间推理、反思和验证,从而创建了一个包含观察-思维-行动上下文的交互推理语料库(第2.4节)。如图2所示,模型需要具备空间推理能力,以理解厨房布局和物体关系,根据常识知识推断潜在位置(冰箱、餐桌),系统地搜索未探索区域,并通过实时观察调整计划,同时避免重复搜索。
具身交互任务
任务环境。我们使用广泛采用的AI2-THOR模拟器构建了具身任务环境,该模拟器提供了物理模拟和实时视觉显示。我们使用AI2THOR的API控制机器人的移动(例如,向前移动)和交互(例如,拾起物体),同时在每一步捕捉视觉观察。
任务类别。机器人初始化在一个未知房间的角落,视野有限,即只能看到房间的一部分。我们设计了四种日常生活中的常见交互任务,复杂程度不同。
- 搜索:在未知房间中寻找物体,例如钥匙链。它可能被放在某个地方或隐藏在容器内。
- 操纵:在搜索后与物体互动,例如“找到台灯并打开开关”。
- 运输:找到隐藏物体后将其运输到另一个位置。这涉及多个搜索和操纵步骤。
- 组合任务:按顺序进行多个运输任务,例如“将鸡蛋放入微波炉,加热后放在桌子上,之后再找到……”。
动作定义。尽管AI2-THOR提供了许多低水平动作,但我们的任务重点在于高层次规划和推理而非运动控制。此外,低水平动作可能导致过度互动,因此我们封装了9个基于原子动作的高层次动作:Observe, Move Forward, Navigate to {}, Put in {}, Pickup {}, Toggle {}, Close {}, Open {}, Termination。
指令合成
我们的数据引擎利用大语言模型(LLMs)自动生成任务指令。然而,与以往的指令合成方法不同,具体的任务指令必须满足场景的约束条件,即避免引用当前场景中不存在的物体或涉及非法操作,例如,如果场景中没有沙发或沙发不可移动,则“请将沙发移到角落”这一指令无效。因此,我们首先为每个任务设计了多个任务模板,利用GPT-4o的编程能力自动选择符合任务约束的物体,并将指令多样化,形成不同风格和复杂度。
任务模板与约束。我们为每个任务设计了多个任务模板。图3展示了一个运输任务模板:拾起{隐藏的A}并放入{B},其中A表示具有可拾取属性的隐藏物体,如钥匙串,而物体B应具有容纳属性,如抽屉或桌子。这确保了合成指令的有效性。模板和约束详见附录D。
基于代码的物体筛选。我们指导GPT-4o选择合适的任务模板,并根据物体的元数据生成约束检查代码。它会选择满足约束条件的物体。我们将匹配的物体填充到模板中(A: 钥匙串,B: 桌子),并基于不同的物体组合生成多个指令。
多样化指令。最后,它从两个层面对指令进行多样化:
- 风格:我们利用GPT-4o将填充的模板重写为多个类似人类的指令,例如:“我找不到我的钥匙串。你能帮我找到它们并……”。
- 难度:我们将多个简单的任务依次组合,创建复合任务。
行为序列合成
我们的引擎可以自动标注合成指令的关键行为序列,并通过额外的搜索过程生成各种行为序列。

隶属图。首先,如图3所示,我们使用模拟器的元数据构建隶属图。在图中,每个节点代表一个对象,边表示两个对象之间的隶属关系,例如,钥匙链在抽屉中被描绘为叶子节点(钥匙链)通过“包含”关系连接到父节点(抽屉)。
关键动作序列。然后,我们利用构建的隶属图和合成的指令模板来推导出任务完成所需的最小行为序列(关键动作)。例如,“捡起钥匙链并将其放在桌子上”,我们从叶节点(钥匙链)开始,向上追溯到其父节点(抽屉)和祖父节点(门厅)。GPT-4o 生成相应的行动序列:A1:导航至门厅,A2:导航至抽屉,A3:打开抽屉,A4:捡起...所有关键动作对于完成任务都是必不可少的。
添加额外的搜索过程。除了关键动作序列之外,我们的引擎还通过插入额外的搜索过程合成探索路径。例如,如图3所示,我们的引擎首先插入三个搜索动作:导航至侧桌、书桌和沙发。在未能找到钥匙链后,它插入一个观察动作,直到最终在抽屉中找到钥匙链。这些额外的搜索动作使轨迹更加真实和合理,展示了机器人如何逐渐探索一个不熟悉的环境,直到成功地找到目标。
思考与观察-行动交织
在运行合成动作\((a_1, a_2, ... a_n)\)后,我们获得一个交互轨迹:\(o_1, a_1, o_2, a_2, ..., o_n, a_n\),其中 \(o_i\) 表示第一人称视角图像。接着,我们为每个动作生成多个深入思考(\(t_i\)),创建一个交织的上下文:观察-思考-行动。
多样化的思考模式。首先,我们定义了五种思考模式来模拟人类在不同情况下的认知活动:情况分析、任务计划、空间推理、自我反思和双重验证。我们使用简洁的提示来描述每种模式,指导 GPT4o 合成相应的思考过程。
从观察-行动中推导思考。对于每次交互,我们指示 GPT-4o 选择一种或多种思考模式,然后根据交互上下文生成详细的思考内容。这些思考被插入到观察和动作之间\((o_n, a_n→o_n, t^1_n, t^2_n, ..t^k_n, a_n)\)。具体来说,我们用之前的交互轨迹\((o_1, t_1, a_1, . . . , o_n)\)以及即将发生的动作(\(a_n\)),生成一个经过深思熟虑的思考过程(\(t_n\))。它应该考虑最新的观察(\(o_n\)),为下一步动作(\(a_n\))提供合理的理由,并且与之前的思考(\(t_{1:n-1}\))保持逻辑一致性。
具身推理器的训练方法
为了激励推理能力,我们设计了三个训练阶段,即模仿学习、拒绝采样调优和反思调优,将通用的视觉-语言模型(VLM)引导成为一个具有深度思考能力的具身交互模型。多轮对话格式。考虑到交互轨迹以交错的图像-文本格式(观察-思考-行动)进行,我们将它们组织成多轮对话语料库。在每轮对话中,观察到的图像和模拟器的反馈作为用户输入,而思考和行动作为助手输出。在训练过程中,我们只计算思考和行动令牌的损失。
学会交互:模仿学习
在第一阶段,我们使用数据引擎生成一组较小的指令-轨迹,其中大多数包含有限的搜索过程或仅由关键动作(观察-思考-关键动作)组成。Qwen2-VL-7B-Instruct 在此数据集上进行微调,学习理解和输出交错的图像-文本上下文、推理和行动令牌。
经过微调后,我们开发了具身交互器,能够在具身情景中进行交互。然而,大多数合成轨迹仅包含任务完成所需的关键动作,没有搜索过程或观察环境。在大多数情况下,具身交互器的搜索能力有限,即在不能直接找到对象且需要进一步搜索的情况下,它不知道如何处理。例如,当它打开冰箱寻找鸡蛋但冰箱是空的时,它可能会回应:“鸡蛋不存在”,而不是搜索其他位置。
学会搜索:拒绝采样调优
自主探索轨迹。DeepSeek-R1 的研究表明,通过大规模自我探索数据上的拒绝采样和奖励引导的强化学习(RL),可以培养高级推理能力。受此启发,我们使用具身交互器生成大量自我生成的轨迹以进行进一步训练。具体来说,如图3所示,我们使用数据引擎合成新的任务指令及其关键动作,然后在高温设置下使用具身交互器为每条指令采样多个轨迹。最后,我们选择高质量的轨迹。
数据引擎作为奖励模型。我们使用数据引擎作为过程监督奖励模型(PRM)来评估这些采样轨迹。我们保留了6,246条成功轨迹——大多数轨迹在几次搜索尝试后成功完成任务。我们在所有收集的轨迹上进行第二阶段的指令调优,开发了具身探索者。我们观察到,它展现了适应性的规划和搜索行为。例如,当目标对象不能直接找到时,它会制定一个详细的搜索计划,涉及多个具有不同优先级的潜在区域。
3.3 学会自我反思:反思微调
Embodied-Explorer 在执行长期任务时偶尔会产生不合理的动作,例如幻觉现象。此外,机器人还常常会遇到临时的硬件故障。这就要求模型能够对不合理行为进行自我反思,识别异常状态,并及时进行修正。如图3所示,我们使用 Embodied-Explorer 在已有任务上采样大量轨迹:
- 对于失败的轨迹,我们定位首个错误动作,并构造自我纠正轨迹;
- 对于成功的轨迹,我们插入异常状态以模拟硬件故障。
向成功轨迹中插入异常状态。我们模拟两种机器人异常情况:导航异常:机器人导航到与指令不一致的位置(例如,指令为“导航至冰箱”,但实际移动到桌子前);操作异常:机器人手臂暂时无法执行交互指令。对于一个成功轨迹 \({.., a, o_+, t..}\),我们在动作 \(a\) 之后插入一个异常状态 \(o−\),并生成对应的自我反思内容 \(t_r\)。之后重新尝试相同的动作,形成新的轨迹 \({.., a, o_−, t_r, a, o_+ ..}\)。
对失败轨迹中的不合理动作进行反思。通过合成的关键动作序列,我们定位每条失败轨迹 \(Traj_−\) 中首个错误动作。然后为该错误动作生成自我反思内容 \(t_r\),并补充后续正确轨迹 \(Traj_+^{t:n}\),从而构造修正后的轨迹 \(Traj_{-}^{1:t}, t_r^t, Traj_{+}^{t+:n}\)。我们在这些合成的自我纠正轨迹上对模型进行微调。在计算损失时,我们会遮蔽掉错误部分的轨迹(\(Traj_e^{1:t}\)),仅对反思内容(\(t_r^t\))和正确轨迹部分(\(Traj_{c}^{t+:n}\))计算损失。
数据集统计
训练语料库
如表1所示,我们合成了9,390个独特的任务指令及其观察-思考-行动轨迹,用于三个训练阶段,即⟨场景, 指令, 轨迹⟩。在第一阶段,数据引擎合成了1,128个指令-轨迹对。在第二阶段,我们通过拒绝采样保留了6,246个探索性轨迹。在第三阶段,数据引擎合成了2,016个自我纠正轨迹。

我们的数据集涵盖了107个不同的室内场景,例如厨房和客厅,并涉及2,100个互动对象(例如鸡蛋、笔记本电脑)和2,600个容器(例如冰箱、抽屉)。所有轨迹中包含64,000张第一人称视角的交互图像和800万个思考标记。数据集的分布见附录C。
思维分析
思维模式的分布。我们统计了所有轨迹中五种思维模式的频率。如图4所示,任务规划和空间推理出现最频繁,分别为36,600次和26,400次。这意味着每个轨迹大约包含四次规划和三次推理。此外,自我反思通常在搜索失败后发生,平均每个轨迹出现两次。这些多样化的思维模式激励了模型的推理能力。

思维模式之间的转换。我们还计算了五种思维模式之间的转换概率(见图4)。我们发现它们之间的关系非常灵活,取决于具体情况。通常从任务规划开始,然后是任务规划(55%)和空间推理(45%)。在导航未知区域时,通常依赖于空间推理(行动→S: 42%)。如果搜索尝试失败,则转为自我反思(行动→R: 33%),一旦完成(子)任务,有时会进行双重验证(行动→V: 3%,S→V: 6%)。这种多样化的结构使模型能够学习自发的思维和灵活的适应性。
交互评估框架
我们在12个新的场景中设计了809个测试案例,这些场景与训练场景不同。我们手动设计了指令,并标注了相应的关键动作和最终状态:⟨指令, 关键动作, 最终状态⟩。值得注意的是,我们的测试集包含25个精心设计的超长跨度任务,每个任务涉及四个子任务和14-27个关键动作。
指标 我们设计了三个指标来评估模型生成轨迹的质量。
- 成功率(%):它衡量任务是否成功完成,通过评估关键动作是否正确对齐,以及最终状态是否符合任务标准。
- 搜索效率:它评估任务效率——更多的步骤表示效率较低。我们将其计算为关键动作数量与预测动作数量的比值。
- 任务完整性(%):它计算预测动作属于关键动作集合的比例。
实验
主要结果
我们的模型在成功率、搜索效率和任务完整性方面表现出明显更高的水平。如表2所示,Embodied-Reasoner在所有推理模型和视觉语言模型(VLMs)中显著脱颖而出,相对于GPT-o1提升了9.6%,相对最新的GPT-o3-mini提升了24%,相对Claude-3.7-Sonnet-thinking提升了13%。除成功率外,我们的模型在搜索效率和任务完整性方面也展现出显著优势,例如,其搜索效率比GPT-o1高出12%。尽管在规模上远小于先进的推理模型,Embodied-Reasoner在具身场景中的交互和推理能力更强。

在复杂任务上,这种优势更为明显。通过分析四大任务类别(搜索、操控、运输和复合任务)的成功率,我们发现Embodied-Reasoner在更具挑战性的复合任务和运输任务上表现尤为出色。值得注意的是,在复合任务中,它比第二好的模型GPT-4o高出39.9%。然而,在相对简单的搜索任务中,我们的模型落后于GPT-o3-mini 13.4%。分析表明,在这些简单任务中,Embodied-Reasoner有时过度探索,导致附近物体的漏检。
我们通过三个阶段的训练逐步激励交互和推理能力,从14.7%到80.9%。我们的基础模型Qwen2-VL-7B最初仅达到14.7%的成功率。经过第一阶段的模仿学习后,成功率提升至25.4%,掌握了简单的交互能力。随后,拒绝采样调优显著提升了性能至65.4%,达到与GPT-o1相当的探索水平。最后,通过自校正轨迹的微调,模型的成功率进一步提升至80.9%。我们观察到,大多数基线模型在处理长期任务时经常表现出重复的搜索行为和不合理的规划。相比之下,Embodied-Reasoner经过深入思考和及时自我反思后,进行战略性搜索和规划,显著减少了这些不合理的情况。
分析:深度思考范式如何增强具身搜索任务?
在长期任务中更为稳健。为了探究深度思考范式对具身搜索任务的影响,我们统计了每个测试案例所需的关键动作数量。更多的关键动作意味着任务更复杂,涉及更多的交互,即长期任务。如图5所示,我们展示了任务长度(关键动作数量)、成功率和输出令牌数量之间的关系。我们观察到,随着关键动作数量的增加,基线模型的成功率显著下降——特别是在任务超过五个动作时。相比之下,我们的模型在复杂任务中保持稳健,在大多数场景中成功率达到60%以上。

面对复杂的具身任务,自发地增加推理令牌。图5(下)显示,我们的具身推理器(EmbodiedReasoner)在复杂搜索任务中使用了显著更多的推理令牌,几乎是Gemini2.0-快速思考的五倍。此外,随着任务变得越来越复杂,我们的模型响应令牌数量从1,000增加到3,500。我们观察到,在复杂的组合搜索任务中,具身推理器进行显著更长时间的分析过程和更为谨慎的自我反思。这种深度思考过程使它能够规划更高效的搜索路径,避免冗余动作,提高成功率。相比之下,Gemini-2.0-快速思考模型的输出令牌数量没有明显增加,始终保持在1,000个令牌。这表明,它可能无法通过推理时间的扩展来解决复杂的具身任务。
深度思考减少了重复搜索动作。我们观察到基线模型频繁表现出重复的搜索行为。例如,在检查一个橱柜之后,模型可能在几步之后仍然尝试检查同一个橱柜。这种行为反映了其在交互场景中较弱的时间推理和上下文意识能力。为了量化这一点,我们定义了一个重复探索率(RER),用于测量模型在其轨迹中导航到同一区域的频率。如图6所示,我们的模型(具身推理器/探索者)在所有四个任务中始终表现出显著更低的RER(降低50%)。例如,在组合任务中,具身探索者达到了最低的RER 26%,而GPT-3-mini和Qwen2-VL-72B分别为54%和43%。与具身探索者相比,推理器由于其更为谨慎的性质,需要进行多次检查和反思,因此RER略高。在我们的模型的推理过程中,我们观察到它经常回忆过去的观察、反思之前探索的动作并据此制定新的计划。这些过程增强了其时间推理能力,从而减少了重复的搜索行为。

实验验证
为了评估我们推理模型的泛化能力,我们设计了一个关于物体搜索的真实实验,涵盖了三个场景下的30项任务:6个厨房任务、12个浴室任务和12个卧室任务。在测试过程中,操作员手持相机捕捉实时视觉输入。模型分析每一张图像并生成动作指令,操作员执行这些指令。
图7展示了一个例子:“你能帮我找到咖啡并加热吗?”我们的模型在两次探索后(步骤1、2)排除了台面和餐桌,最终在橱柜中找到咖啡(#7),并将其放入微波炉中加热(#11)。然而,我们观察到OpenAI o3-mini无法制定合理的计划,首先前往微波炉而不是搜索咖啡。此外,它经常忘记搜索并表现出重复搜索的行为,这与我们之前分析的结果一致。详细结果请参见表B1。

结论
本文提出了一种用于交互式搜索任务的体现推理模型,Embodied-Reasoner,该模型能够自发地搜索、推理和行动。为了开发这一模型,我们设计了一个数据引擎,合成了9,390个以观察-思考-行动交错格式的交互轨迹。它包括64,000张图像和800万思考令牌,涵盖了多样的思维模式。我们采用了一个三阶段的训练方法——模仿学习、拒绝采样调整和反思调整——逐步提升其交互和推理能力。广泛的评估和真实实验表明,我们的模型表现出卓越的推理能力。

浙公网安备 33010602011771号