强化推理在具身规划中的应用

https://arxiv.org/abs/2505.22050

摘要

具身规划要求智能体基于动态视觉观测和自然语言目标做出连贯的多步决策。尽管最新的视觉-语言模型（VLM）在静态感知任务上表现优异，但它们在具身环境中的时序推理、空间理解和常识落地等方面仍然存在明显短板。本文提出了一种将R1风格推理增强引入具身规划的强化微调框架。我们首先从强大的闭源模型中蒸馏高质量数据集，并通过有监督微调（SFT）为模型注入结构化决策先验。随后，我们设计了针对多步动作质量的规则化奖励函数，并通过广义强化偏好优化（GRPO）对策略进行优化。我们的方法在Embench这一最新的具身交互任务基准上进行了评测，涵盖域内与域外场景。实验结果表明，该方法显著优于同等或更大规模的模型，包括GPT-4o-mini和70B+开源基线，并在未见环境中展现出强泛化能力。本文工作凸显了强化驱动推理在提升具身AI长时规划能力方面的潜力。

引言

具身规划是分层具身AI系统中的基石，智能体不仅要感知环境，还需在环境中推理并行动以完成复杂的现实任务。与负责精细轨迹执行的低层控制器不同，高层规划负责将复杂指令转化为可管理的子任务的连贯动作序列。传统的基于语言的推理局限于静态、文本驱动的场景，而具身规划则需在动态、交互环境中进行多步决策。尽管近期视觉-语言模型（VLM）在静态理解任务上表现突出，但在多步交互具身规划中仍有明显不足。如下图的实证分析显示，即使是最先进的VLM，在图像描述或视觉问答等任务中表现优异，但在动态环境下难以维持连贯高效的决策序列。这些不足凸显了一个关键差距：现实具身场景下的有效规划对空间推理、时序一致性和常识理解的要求远超当前VLM架构所能满足的水平。

为解决推理不足的问题，近期研究探索了通过专门的推理框架增强大模型的认知能力。值得注意的是，DeepSeek-R1等方法开创了通过奖励引导优化显著增强模型推理能力的强化驱动范式，并在数学和代码问题上取得了有希望的结果。这一范式在多模态上下文中的扩展也开始出现，解决了视觉数学和基于图表的推理任务。然而，由于具身任务与传统推理基准之间的根本差异，将此类推理增强技术应用于具身规划仍然极具挑战且未被充分探索：

具身规划需要空间感知和物理常识，而数学或代码等任务纯粹关注符号推理，无需在动态环境中落地；
从静态、单轮问答到交互、多轮决策的转变引入了连续反馈回路——与静态任务不同，具身智能体必须在每个动作重塑其环境时自适应地推理；
具身规划缺乏唯一的真实轨迹，与确定性领域不同，单一目标存在多种有效解决方案，复杂了奖励设计和监督。

总之，我们的贡献如下：

首次将强化微调应用于优化视觉-语言模型的具身规划能力，显著提升了模型在动态环境中进行连贯多步推理和决策的能力。
提出了一个综合训练管道，将有监督微调（SFT）与强化微调（RFT）相结合，辅以精心构建的数据集、针对多步决策的奖励函数和在线数据过滤等支持机制，带来了持续和稳健的性能提升。
在具身AI的交互基准Embench上进行了广泛评估，显示模型不仅优于同等规模的模型，还超越了GPT-4o-mini和参数超过70B的开源模型，并在未见领域中展现出强泛化能力，验证了基于强化的适应性的普适性。

方法

问题定义

我们将具身任务规划表述为部分可观测的决策过程，智能体通过基于视觉观测的序列动作与环境交互。在每个时间步\(t\)，智能体接收观测\(o_t \in \mathcal{O}\)并执行动作\(a_t \in \mathcal{A}\)，形成历史

\[h_t = \{o_0, a_0, o_1, ..., o_t\}。 \]

给定由自然语言命令\(L\)描述的任务指令\(g \in \mathcal{G}\)，任务与一组二元目标检查条件\(\mathcal{C}(g) = \{c_1, ..., c_k\}\)相关联，所有条件均满足时任务被视为成功。智能体生成轨迹

\[e = (g, o_0, a_0, o_1, ..., o_n, a_n)。 \]

奖励定义为

\[r(e) = \mathbb{I} \left[ \bigwedge_{c \in \mathcal{C}(g)} c = \text{True} \right]， \]

其中\(\mathbb{I}[\cdot]\)为指示函数。

我们使用视觉-语言模型（VLM）参数化策略\(\pi_\theta\)，其输出基于观测\(o_t\)、历史\(h_t\)、指令\(L\)和固定提示模板\(P\)的动作分布：

\[a_{t+1} \sim \pi_\theta(\cdot \mid o_t, h_t, L, P) \]

我们的目标是优化\(\theta\)，使得采样轨迹的期望任务成功率增加：

\[\max_\theta \ \mathbb{E}_{e \sim \pi_\theta} \left[ r(e) \right] \]

我们采用两阶段训练范式：有监督微调（SFT）将\(\pi_\theta\)与高质量轨迹对齐，随后进行强化微调（RFT）以在交互评估下进一步提升性能。

为强化做准备：蒸馏有监督微调

具身规划需要强大的空间感知和常识推理能力。然而，与专有大规模模型相比，小型开源视觉-语言模型（VLM）在这些方面往往表现不足。为弥合这一能力差距并为后续强化微调提供坚实初始化，我们首先在通过大模型蒸馏获得的高质量数据集上进行有监督微调（SFT）。

从大模型蒸馏

与具有明确真实标签的任务不同，具身规划允许多样有效轨迹完成相同目标。为每条轨迹收集人工标注示范既费力又缺乏可扩展性。因此，我们选择蒸馏方法：提示专有模型Gemini-2.0-flash解决具身规划任务并记录其输出以构建我们的SFT数据集。

具体而言，对于每个任务目标\(g \in \mathcal{G}\)和环境观测历史\(h_t\)，我们构建提示\(p = \texttt{Prompt}(g, h_t)\)，并收集Gemini的响应\(\hat{a}_{t+1}\)。数据集表示为元组集合：

\[\mathcal{D}_{\text{SFT}} = \left\{ (p_i, \hat{a}_i) \right\}_{i=1}^{N} \]

有监督微调

给定蒸馏数据集\(\mathcal{D}_{\text{SFT}}\)，我们通过最大似然估计优化VLM策略\(\pi_\theta\)的模型参数\(\theta\)：

\[\mathcal{L}_{\text{SFT}}(\theta) = - \mathbb{E}_{(p, \hat{a}) \sim \mathcal{D}_{\text{SFT}}} \left[ \log \pi_\theta(\hat{a} \mid p) \right]。 \]

我们探索了全参数微调和参数高效的LoRA微调策略。经验表明，全参数微调表现略优。

总体而言，SFT阶段使模型继承了大模型展示的任务分解模式、常识先验和空间落地。训练配置和数据集内容的详细信息见附录。

为具身规划强化推理

尽管SFT提升了特定任务性能，但它往往缺乏处理未见场景所需的推理泛化能力。近期工作如DeepSeek-R1表明，通过规则化奖励进行强化学习（RL）可以有效增强推理，优化质量而非模仿，提升任务成功率和泛化能力，尤其在具身场景中。

基于此，我们提出了针对长时具身规划的强化微调框架。与仅限于短时QA的RL方法不同，我们扩展到交互多步任务。我们基于ALFRED基准构建数据集，设计规则化奖励评估规划，并采用GRPO算法优化VLM，应用在线过滤策略提高训练稳定性。

数据集构建

视觉强化微调数据集由支持基于奖励优化的样本组成。每个样本表示为三元组\((L, o, \hat{a})\)，其中\(L\)为文本输入指令，\(o\)为图像输入，\(\hat{a}\)为用于计算奖励的真实答案。对于多步规划，我们将每个长度为\(k\)的参考轨迹\(e = (g, o_0, a_0, o_1, a_1, ..., o_k, a_k)\)分解为\(k\)个训练样本。在每个步骤\(n \in [1, k]\)，我们通过嵌入任务目标\(g\)和先前动作历史\(a_{0:n-1}\)构建\(L_n\)。对应的观测\(o_n\)取自第\(n\)步，目标\(\hat{a}_{n:} = \{a_n, a_{n+1}, ..., a_k\}\)由从第\(n\)步开始的剩余动作组成。

我们在ALFRED基准的基础上构建此数据集，该基准提供了智能体在模拟环境中执行家庭任务的完整执行轨迹。应用上述轨迹分解策略，我们共收集了43,898个训练样本。

奖励函数

受先前强化微调工作启发，我们设计了一个综合奖励函数，结合了格式正确性和动作准确性。目标是引导模型生成结构化、有效的多步计划。我们将总奖励表示为：

\[R(\text{response}, \text{answer}) = R_{\text{format}}(\text{response}) + R_{\text{accuracy}}(\text{response}, \text{answer})， \]

(1) 格式奖励。

与依赖通用模板如 <think> 和 <action> 的先前工作不同，我们针对具身多步规划所需的结构化输出定制了奖励。响应应包含具有特定键的 JSON 对象：reasoning_and_reflection、visual_state_description、language_plan 和 executable_plan。此输出结构受 Embench 提示格式启发，鼓励模型先观察图像，然后反思和推理，最后生成连贯的多步动作计划。格式奖励计算为：

\[R_{\text{format}} = R_{\text{structure}} + R_{\text{valid}} + R_{\text{match}}， \]

其中：

\(R_{\text{structure}} = 0.125\)，如果存在所有必需的顶级字段，否则为\(0\)。
\(R_{\text{valid}} = 0.125 \times \frac{\text{有效步骤数}}{\text{总步骤数}}\)，如果步骤包含整数类型的 action_id 和字符串类型的 action_name，则该步骤有效。
\(R_{\text{match}} = 0.25 \times \frac{\text{正确匹配的动作数}}{\text{总步骤数}}\)，只有当 (action_id, action_name) 对在预定义动作映射中有效且正确时，才计为匹配，确保一致性并防止虚构动作。

(2) 准确性奖励。

为评估执行正确性，我们将预测的动作序列\(\hat{a} = \{a_1, ..., a_k\}\)与参考（黄金）动作序列\(a^* = \{a_1^*, ..., a_k^*\}\)进行比较。比较逐步进行，前缀匹配：从第一步开始，每个预测动作必须与对应的真实动作完全匹配。一旦遇到不匹配，比较停止。设\(n\)为连续匹配步骤的数量，即前缀长度，使得\(a_i = a_i^*\)对于所有\(i \in [1, n]\)。

准确性奖励定义为：

\[R_{\text{accuracy}} = R(n; k)。 \]

(3) 多步奖励分配曲线。

为反映长时规划质量，我们定义了一个渐进奖励分配曲线，为更长的正确前缀分配更高奖励。给定长度为\(k\)的参考序列和长度为\(n \leq k\)的匹配前缀，我们使用三角归一化计算奖励：

\[R(n; k) = \frac{n(n+1)}{k(k+1)}。 \]

此函数随\(n\)二次增长，并归一化到\([0, 1]\)范围内，为更长的正确规划分配比例更多奖励。它不仅鼓励模型预测正确的最终结果，还鼓励在整个动作序列中保持一致性和正确性。

优化方法

我们采用广义相对策略优化（GRPO）在基于奖励监督下优化VLM策略。给定提示\(x\)，策略模型\(\pi_\theta\)生成一组\(G\)个采样响应\(\{y_1, y_2, \dots, y_G\} \sim \pi_\theta(\cdot \mid x)\)。每个响应\(y_i\)由反映其格式和规划准确性的奖励函数\(r_i = R(y_i)\)评分。GRPO计算每个响应的相对优势\(A_i\)，作为其相对于组均值的归一化偏差：

\[A_i = \frac{r_i - \operatorname{mean}(\{r_1, \dots, r_G\})}{\operatorname{std}(\{r_1, \dots, r_G\})}， \]

训练目标鼓励模型在当前策略下增加高质量响应的可能性，同时保持与参考策略\(\pi_{\text{ref}}\)的稳定性。GRPO损失定义为：

\[\mathcal{J}(\theta) = \mathbb{E}_{x \sim \mathcal{D}} \ \mathbb{E}_{\{y_i\} \sim \pi_\theta} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( \operatorname{clip} \left( \frac{\pi_\theta(y_i \mid x)}{\pi_{\text{old}}(y_i \mid x)},\ 1-\epsilon,\ 1+\epsilon \right) \cdot A_i - \beta \cdot \mathcal{D}_{\mathrm{KL}}(\pi_\theta \| \pi_{\text{ref}}) \right) \right]， \]

其中\(\pi_{\text{old}}\)为用于采样的策略，\(\epsilon\)控制裁剪范围，\(\beta\)为当前策略与参考策略之间KL惩罚的权重。

此优化目标通过利用采样组内的相对偏好实现稳定和轻量级训练，无需绝对奖励值或额外的评论网络。

数据过滤策略

在强化微调的早期阶段，我们观察到模型生成的许多采样响应奖励值极低，导致梯度信号弱或不稳定。为解决此问题并确保策略更新的稳定性，我们结合了PRIME和MM-Eureka的在线数据过滤策略。核心思想是丢弃过差或过完美的样本，以在整个优化过程中保持信息丰富和多样的训练批次。具体而言，我们基于响应级准确性应用过滤标准。对于每个输入提示\(x\)，我们从当前策略\(\pi_\theta\)生成一组\(G\)个响应\(\{y^{(i)}\}_{i=1}^{G}\)，并计算其个体奖励\(r^{(i)} = R(x, y^{(i)})\)。然后定义提示组的准确性为：

\[C_x = \left| \{ y^{(i)} \mid r^{(i)} = 1 \} \right|， \]

统计组内达到满奖励的响应数量。我们仅在提示组准确性落在预定义范围内时保留该组：\(\epsilon_{\text{acc}}^{\text{lower}} \leq C_x \leq \epsilon_{\text{acc}}^{\text{upper}}\)，确保组内包含良好和差响应的平衡混合。

接受的样本缓存在大小为\(N_B\)的内存集中。一旦缓冲区填满，我们在收集的数据上执行\(K_2\)步GRPO优化，然后清空缓冲区并重复此过程。此过滤机制通过消除梯度退化显著提高了学习稳定性，并鼓励策略从相对信息丰富的对比示例中学习。

实验

交互环境中的具身多步规划评估

基准

大多数先前的具身规划工作将评估简化为静态视觉问答，未能捕捉真实决策的交互和序列特性。为解决这一差距，我们采用Embench，一个用于评估动态交互环境中多模态智能体的基准。

Embench提供了跨四个具身设置的统一框架，支持涉及操作、导航和空间推理的1100多个任务。我们在两个环境中进行评估：基于ALFRED和AI2-THOR的EB-ALFRED，以及基于Habitat 2.0重排任务的EB-Habitat。任务分为六个子集：基础、常识、复杂指令、空间意识、视觉外观和长时，支持细粒度能力分析。

所有模型从自我中心输入生成逐步计划并在模拟中执行。由于我们的训练数据主要来自ALFRED模拟器，EB-Habitat作为域外设置用于泛化评估。更多详细信息见附录。

基线

我们与一系列基线进行比较，包括：(1) 专有模型如Claude-3.5-Sonnet、Gemini-2.0-flash、GPT-4o和GPT-4o-mini；(2) 开源通用VLM如LLaMA-3.2-Vision-11B、Qwen2.5-VL-7B和InternVL2.5-8B；(3) 推理导向模型如MM-Eureka和R1-VL；以及(4) 具身VLM包括RoboBrain和TAPA。对于评估，我们将视觉输入转换为文本以适应TAPA，因为其缺乏视觉能力。每个基线的更多详细信息见附录。

实现细节

对于有监督微调（SFT），我们使用LLaMA-Factory框架在4个NVIDIA A100 40G GPU上训练约8小时，使用Qwen2.5-VL-7B作为基础模型。对于强化微调（RFT），我们使用OpenRLHF框架，在8个A100 40G GPU上执行GRPO优化，每个训练周期约需40小时。

对于评估，所有模型通过基于Flask的推理服务器部署。每个模型在EB-ALFRED和EB-Habitat环境中进行评估，每个模型的端到端评估时间约为18小时。对于推理密集型模型如R1-VL和MM-Eureka，推理延迟显著更高，导致总评估时间长达2-3倍。

实验结果

域内结果

我们在EB-ALFRED环境中进行了全面的域内评估。如表1、图3和图4所示，我们提出的模型任务成功率为35.6%，显著优于GPT-4o-mini（22.0%）和更大规模的模型如Qwen2.5-VL-72B（33.7%）和LLaMA3.2-90B-Vision-Ins（32.0%）。

结果显示了几个关键观察：(1) 我们的两阶段训练管道（SFT + RFT）在具身任务规划中带来了持续的性能提升。(2) 现有开源推理模型和具身VLM在Embench中表现不佳。尽管推理模型生成了冗长的中间步骤，但在执行正确动作序列方面表现不佳。同样，具身VLM缺乏将能力转移到Embench任务的泛化能力。(3) 长时任务仍然是一个主要挑战。尽管在其他类别上总体提升显著，但在长时任务中的性能提升有限，突显了未来在规划深度和时序推理方面的研究需求。

域外结果

为评估泛化能力，我们在EB-Habitat环境中测试了我们的模型，该环境在场景、对象、动作空间和任务类型方面与ALFRED不同。如表所示，我们的方法在域外表现出色，优于所有同等7B规模的基线模型，包括通用、推理增强和具身VLM。

我们强调以下发现：(1) 强化微调即使在完全未见的环境中也带来了显著改进，验证了我们方法的跨域鲁棒性，相比之下，仅有监督微调在域外设置中无益。(2) 由于我们的训练数据主要来自ALFRED的基础指令，改进在EB-Habitat的基础任务中更为显著，而在其他类别中的提升有限。此观察表明需要更多样化的训练数据以支持更广泛的泛化。

消融研究

我们进行了消融研究，以检查每个训练阶段在我们两阶段管道中的贡献。具体而言，我们比较了仅有监督微调（SFT）、仅强化微调（RFT）和相反顺序（RFT在SFT之前）训练的模型性能，使用相同的数据和实验设置。如表所示，仅SFT在域内任务上带来了显著改进，但未能泛化到未见环境。相比之下，直接在基础模型上应用RFT而无需先前SFT的改进有限，可能由于缺乏基础知识。这些结果证实了我们两阶段方法的必要性，其中SFT建立了强初始化，RFT通过奖励驱动优化增强了泛化能力。

重新思考推理响应长度：更长总是更好吗？

在数学推理任务中，强化微调通常会导致输出更长的响应，而无需对推理长度进行显式监督。然而，我们观察到推理轨迹的长度本质上受任务性质的影响，而非普遍的冗长倾向。如图所示，我们的模型在强化微调后并未生成更长的推理输出；事实上，输出长度的增加与规划准确性无关。为进一步探讨这一点，我们进行了额外实验：通过数学推理数据预训练模型以鼓励更长响应，然后再次在具身规划数据上微调。尽管模型最初生成了更冗长的输出，但随着训练的进行，平均推理长度减少，反映了领域特定的适应性，趋向简洁规划。

局限性与未来工作

尽管我们的工作采用了交互基准进行评估，但强化微调过程本身并未涉及与模拟器的实时交互。由于训练效率和系统复杂性的实际限制，我们使用预定义的真实答案离线计算规则化奖励。将在线交互与环境结合以动态生成学习信号仍然是未来工作的有前途方向，可能通过试错实现更稳健的策略优化。

此外，我们目前的重点在于高层具身规划，生成可指导下游控制模块的结构化动作序列。尽管我们的方法在模拟基准中表现出色并具有强泛化能力，但尚未在现实机器人平台上部署。将此框架扩展到物理智能体并与低层控制系统集成是实现具身智能在实际应用中部署的重要一步。

结论

本文解决了使视觉-语言模型在动态具身环境中执行稳健多步规划的挑战。为此，我们提出了一种强化微调框架，在长时、交互设置下增强推理和决策能力。我们的方法结合了通过知识蒸馏的有监督初始化和由广义强化偏好优化（GRPO）引导的基于奖励的强化学习，从专家示范和任务特定反馈中进行结构化学习。

我们在Embench这一全面的具身规划交互基准上验证了我们的方法，表明我们的模型显著优于同等或更大规模的专有和开源基线。除了域内性能外，我们的方法在分布外任务和未见环境中表现出强泛化能力。这些结果突显了强化驱动推理作为推进具身智能的可扩展和有效方向的潜力。

posted @ 2025-06-17 10:24 一介布衣、阅读(124) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、