摘要

应对复杂的现实世界问题需要深入的信息检索和多步推理。近期在智能体系统方面的进展，以 Deep Research 为代表，凸显了自主多步研究的潜力。在本工作中，我们从数据驱动和训练阶段的视角，提出了一种构建端到端智能体信息检索系统的整体范式。我们的方法包括四个关键阶段：（1）浏览数据构建，（2）轨迹采样，（3）有效冷启动的有监督微调，以及（4）提升泛化能力的强化学习。我们在基于 ReAct 的网页智能体 WebDancer 上实现了该框架。在具有挑战性的信息检索基准 GAIA 和 WebWalkerQA 上的实证评估表明，WebDancer 展现出强劲的性能，取得了显著成果，突显了我们训练范式的有效性。对智能体训练的进一步分析为开发更强大智能体模型提供了有价值的见解和可操作、系统化的路径。

引言

Web 智能体是能够感知真实世界网页环境、做出决策并采取行动以完成特定且类人的任务的自主系统。近期如 ChatGPT Deep Research 和 Grok DeepSearch 等系统，通过端到端强化学习训练，展现了强大的深度信息检索能力。

社区以往针对智能体系统信息检索的方法主要分为三类：
（1）直接利用提示工程技术，引导大语言模型（LLMs）或大推理模型（LRMs）执行复杂任务；
（2）通过有监督微调（SFT）或强化学习，将“搜索”或“浏览器”等能力融入网页智能体；
第一类无需训练的方法难以有效发挥推理模型的推理能力。后两类方法虽然通过 SFT 或 RL 内化了一定的信息检索能力，但训练和评测数据集相对简单，难以反映真实世界的挑战，例如在 2Wiki 数据集上的表现已超过 80%。此外，当前的 SFT 或 RL 训练范式并未充分、高效地挖掘信息检索行为的潜力。
构建自主信息检索智能体需解决一系列跨越网页环境感知与决策制定的挑战：
（1）获取高质量、细粒度的浏览数据，反映多样化用户意图和丰富的交互上下文；
（2）构建支持长程推理和任务分解的可靠轨迹；
（3）设计可扩展、具备泛化能力的训练策略，使智能体在分布外网页环境、复杂交互模式和长期目标下表现稳健。

为应对这些挑战，我们的目标是“解锁自主多轮信息检索智能体，探索如何从零构建类似 Deep Research 的网页智能体”。像 Deep Research 这样的智能体模型会生成交错的推理与行动序列，每一步行动自主调用工具与外部环境交互，交互产生的观察结果又指导后续推理与行动，直至任务完成。整个过程通过端到端工具增强训练进行优化。ReAct 框架是最适合的范式，因为它紧密耦合了推理与行动，有助于在交互场景中实现高效学习与泛化。

我们希望为研究社区提供一套从“数据驱动”和“训练阶段”视角出发，系统构建此类智能体的指导方案。

从“数据驱动”角度看，构建网页问答数据对于训练网页智能体至关重要，无论采用 SFT 还是 RL。常用的问答数据集通常较为浅显，多为单步或少步搜索即可解决的问题。以往工作常通过提示技术从开源人工标注数据集中筛选出难题。此外，具有挑战性的网页问答数据集通常仅有测试或验证集，且数据量较小。例如，GAIA 仅有 466 条，WebWalkerQA 有 680 条，BrowseComp 有 1,266 条，难以支撑有效训练。因此，高质量数据集的自动合成变得尤为关键。我们采用两种方式合成数据集：
1）通过爬取网页构建深度查询，称为 crawlQA，使智能体通过点击行为获取网页信息；
2）增强“由易到难”问答对的合成，激励智能体从“弱到强”成长，将简单问题转化为复杂问题，称为 e2hQA。

从“训练阶段”角度看，已有工作探索了 SFT 或离策略 RL，但这些方法在复杂真实搜索环境下常面临泛化问题。也有方法直接采用在策略 RL，但在多工具场景下，早期训练往往只学会了工具使用的指令跟随。为实现更高效的训练，我们采用两阶段方法，先用拒绝采样微调（RFT），再进行在策略 RL。轨迹采样时，我们将动作空间限定为两种常用且有效的网页信息检索工具：search 和 click。在此基础上，采用两种提示策略进行拒绝采样：一种用强指令 LLMs 生成短推理轨迹，另一种用 LRMs 生成长推理轨迹，分别得到包含短或长推理的高质量轨迹。在 RL 阶段，我们采用 DAPO 算法，其动态采样机制能有效利用 SFT 阶段未充分利用的问答对，提升数据效率和策略鲁棒性。

我们的主要贡献可总结为：我们将端到端网页智能体构建流程抽象为四个关键阶段：
步骤 I：基于真实网页环境构建多样且具挑战性的深度信息检索问答对；
步骤 II：利用 LLMs 和 LRMs 从问答对中采样高质量轨迹，指导智能体学习；
步骤 III：通过微调适配指令跟随格式到智能体任务与环境；
步骤 IV：采用 RL 优化智能体在真实网页环境下的决策与泛化能力。
我们提供了一套系统化、端到端的长程信息检索网页智能体构建流程。

在 GAIA 和 WebWalkerQA 两个网页信息检索基准上的大量实验表明，我们的流程和 WebDancer 智能体效果显著。我们还进一步从数据效率、智能体系统评测和智能体学习等方面进行了全面分析。

深度信息检索数据集合成

QA 对构建

为了支持更长程的网页探索轨迹，必须构建大量复杂且多样的问答对，以激发多步推理、目标分解和丰富的交互序列。这些问答的主要要求包括：（1）问题类型的多样性；（2）任务复杂度提升，即需要更多交互步骤才能解决。与以往大多只需2-3步即可解决的浅层查询数据集不同，我们的目标是提升多跳推理的规模和深度。为此，我们主要开发了两类数据集：crawlQA 和 e2hQA。

crawlQA

基于网页爬取信息构建问答对是一种高效的知识获取方式。我们首先收集 arxiv、github、wiki 等权威网站的根网址。为了模拟人类浏览行为，我们递归地通过每个根站点的可访问超链接导航子页面，并利用大模型从收集到的内容中合成问答对。为确保问题的针对性和相关性，我们通过提示大模型生成特定类型的问题（如计数、多跳、交集等）。

e2hQA

类似逆向构建策略，我们从简明事实型问答对出发，每个答案都是简洁的实体。首先从问题中选取一个实体，然后基于该实体构建查询，通过搜索引擎获取相关信息。随后，利用大模型将获得的内容重构为新查询，替换原问题中的实体。如此迭代，每次重写问题，逐步将简单问题转化为更复杂的多步问题，并保证答案在重写过程中不变。通过调整重写次数，可以控制问题的复杂度和所需推理步数。

智能体轨迹拒绝采样

智能体设置

我们的智能体框架基于 ReAct，是当前最流行的语言智能体方法。一个 ReAct 轨迹由多个“思考-行动-观察”回合组成，模型生成自由形式的思考内容和结构化的行动来与环境交互，并获得观察反馈。我们假设智能体在每个时间步的执行循环为（思考，行动，观察）。行动可分为动作名称和参数，动作包括 search、visit、answer。search 动作参数包括查询和年份过滤，visit 动作参数包括目标和链接。search 的观察为前10条标题和摘要，visit 的观察为证据和摘要，由摘要模型生成。轨迹在执行 answer 动作时终止。

历史轨迹可表示为一系列（思考，行动，观察）的序列。每一步，智能体根据历史轨迹和当前观察生成新的思考和行动。

链式思考（CoT）方法通过逐步推理显著提升了大模型的推理能力，这一过程在智能体系统中对应“思考”部分。它对于高层次流程规划、自我反思、信息提取、自适应行动规划和准确工具使用至关重要。

短/长链式思考构建

智能体将链式思考能力内化为主动行为。思考长度和模式对性能影响显著。我们提出两种简单有效的方法分别构建短链和长链思考。短链直接用 ReAct 框架和强大模型采集轨迹；长链则在每步仅提供历史行动和观察，由 LRM 自主决定下一步行动，不提供历史思考内容，但在生成轨迹时保留每步思考作为监督信号。每个 QA 实例最多拒绝采样 N 次以保证质量和连贯性。

轨迹过滤

我们采用三阶段漏斗式轨迹过滤，包括有效性控制、正确性验证和质量评估：

有效性控制：直接提示大模型生成 ReAct 格式响应时，若内容过长导致不符合指令，则丢弃该数据。
正确性验证：仅保留结果正确的轨迹，采用大模型进行判断。
质量评估：首先用规则过滤掉动作数超过两步、存在幻觉或严重重复的轨迹，然后通过提示筛选出信息非冗余、目标一致、推理逻辑准确的轨迹。

未被过滤的问答对，即使不含有效轨迹，也可在强化学习阶段有效利用。

多步多工具智能体学习

在获得高质量的 ReAct 格式轨迹后，我们将其无缝整合到智能体的有监督微调（SFT）训练阶段。具体来说，思考（Thought）片段用 thinkl 和 thinkr 包裹，行动（Action）片段用 calll 和 callr 包裹，观察（Observation）片段用 responsel 和 responser 包裹。最终的行动片段对应最终答案，用 answerl 和 answerr 包裹。此外，前期过滤掉的不含轨迹的 QA 数据，也可在强化学习阶段有效利用。我们首先通过智能体 SFT 训练策略模型 π_θ 以实现冷启动，然后通过智能体 RL 阶段提升泛化能力。整体训练框架如图所示。

智能体有监督微调

为了捕捉完整的智能体轨迹，我们在获得的决策轨迹上对策略模型 θ 进行有监督微调。冷启动增强了模型将多步推理与行动耦合的能力，使其学会推理与行动交替的行为范式，同时尽可能保留原有推理能力。为避免外部反馈对学习的干扰，我们在智能体世界建模任务中屏蔽了观察（Observation）部分的损失，这已被证明有助于提升性能和鲁棒性。给定任务上下文 tc 和完整的智能体执行轨迹 H=(x_0, x_1,...,x_{n-1},x_n)，其中每个 x_i ∈ { τ, α, o }，损失函数 L 计算如下：

\[L = -\frac{1}{\sum_{i=1}^{|\mathcal{H}|} \mathbb{I}[x_i \ne o]} \sum_{i=1}^{|\mathcal{H}|} \mathbb{I}[x_i \ne o] \cdot \log \pi_{\theta}(x_i \mid \mathbf{tc}, x_{<i}) \]

其中 \(𝕀[x_i ≠ o]\) 用于过滤外部反馈对应的 token，确保损失仅计算在智能体自主决策步骤上。SFT 阶段为后续 RL 阶段提供了良好的初始化。

智能体强化学习

智能体 RL 阶段旨在将智能体能力内化到推理模型中，提升其多轮、多工具使用能力，并通过结果导向的奖励进行优化。在 SFT 阶段基础上，RL 采用解耦裁剪与动态采样策略优化（DAPO）算法，进一步提升策略模型 π_θ 在“思考-行动-观察”序列中的表现。

DAPO 算法

\[J_{\mathrm{DAPO}}(\theta) = \mathbb{E}_{(t_i,a_i)\sim D} \left[ \frac{1}{G} \sum_{j=1}^{G} \min\left( r_i(y_i^j)A_i^j, \left[r_i(y_i^j)- \epsilon_{\mathrm{low}}, 1+\epsilon_{\mathrm{high}}\right] A_i^j \right) \right] \]

其中 r_i(y_i^j) 是奖励模型对候选完成 y_i^j 的评分，动态采样机制会过采样并过滤准确率为 1 和 0 的样本。这样可以有效忽略无效或噪声样本，确保智能体专注于高质量信号的学习。 ε_low, ε_high 为裁剪阈值，A_i^j 表示类似优势的项（如基于采样完成间的相对表现计算）。DAPO 不依赖固定 KL 惩罚，而是估算新旧策略概率比：

\[r_i(\theta) = \frac{\pi_\theta(o_i \mid q_i, o_{i,<t})} {\pi_{\theta_{\mathrm{old}}}(o_i \mid q_i, o_{i,<t})}, \quad A_i^j = \frac{R_i - \mathrm{mean}(\{R_i\})}{\mathrm{std}(\{R_i\})}, \]

其中 R_i 为采样完成的原始奖励，mean(·)、std(·) 在 batch 内归一化奖励得分。

智能体行动 Rollout
在 ReAct 框架下，每轮智能体执行从生成思考（用 thinkl 和 thinkr 包裹）开始，随后生成行动名称 α^m 及参数 α^p（用 calll 和 callr 包裹），均基于历史轨迹 H。这些组件用于与真实搜索环境交互，产生观察（用 responsel 和 responser 包裹）。每轮交互从 thinkl 到 responser，最终以 answerl 和 answerr 生成最终答案。

奖励设计
奖励设计在 RL 训练过程中至关重要。我们的奖励系统主要包括格式奖励 score_format 和答案奖励 score_answer。由于格式一致性在初始 RFT 阶段已基本解决，格式奖励权重较小。score_format 为二值，只有完全符合格式且所有工具调用均为有效 json 时为 1。考虑到 QA 答案本身不可直接验证，最终评测依赖 LLM 评判，因此答案奖励同样采用模型判别，仅当 LLM 判定正确时为 1。最终奖励函数为：

\[R(\hat{y}_i, y) = 0.1 * score_{\text{format}} + 0.9 * score_{\text{answer}} \]

其中 \(\hat{y}_i\) 为模型预测，y 为参考答案。

实验

实验设置

我们在两个公认的深度信息检索基准上评估了我们的方法：GAIA 和 WebWalkerQA。本工作采用 LLM-as-Judges 范式，使用 Pass@1 指标对两个任务进行评测。数据集和基线的详细介绍见附录。实现细节见附录。Qwen-7B 和 Qwen-32B 在 Short-CoT 数据集上训练，QwQ-32B 在 Long-CoT 数据集上训练。更多分析见后文分析部分。

实验结果

主要结果

如表1所示，不具备 agent 能力的框架（无智能体）在 GAIA 和 WebWalkerQA 两个基准上表现较差，突显了主动信息检索和智能体决策对于这些任务的必要性。闭源的 agent 系统 OpenAI DR 通过端到端强化学习训练获得了最高分数。在开源框架中，基于原生强推理模型（如 QwQ-32B）构建的 agent 方法始终优于非 agent 方法，证明了在 agent 构建中利用推理专长模型的有效性。值得注意的是，在高度可扩展的 ReAct 框架下，我们提出的 WebDancer 在不同模型规模下均大幅超越 vanilla ReAct 基线。在最佳情况下甚至超过了 GPT-4o 的表现。这表明即使在轻量级框架下，我们的方法也能显著增强底层模型的 agent 能力，验证了方法的强大和通用性。

更具挑战性基准的结果

我们还在两个更具挑战性的数据集 BrowseComp（英文）和 BrowseComp-zh（中文）上评估了我们的方法，这些数据集更好地反映了复杂的信息检索场景，采用 PASS@1/PASS@3 作为指标。结果显示，WebDancer 在两个数据集上均表现出持续强劲的性能，突显了其在处理复杂推理和信息检索任务时的鲁棒性和有效性。

分析

详细结果
我们对 GAIA 数据集进行了细致分析。鉴于智能体环境的动态复杂性以及测试集规模较小且变化较大，我们进一步对 Pass@3 和 Cons@3 指标进行了细粒度分析, 如图4所示。Cons@3 指标通过评估三次独立尝试中的正确响应数来计算：一次正确得分为 1/3，两次正确得分为 2/3，三次全对得分为 1。

对于非推理模型，强化学习（RL）在 Pass@3 和 Cons@3 上均带来了显著提升。值得注意的是，RL 后的 Pass@1 表现已接近 SFT 基线的 Pass@3，说明 RL 能更高效地采样出正确响应。对于大模型（LRMs），RL 后在 Pass@1、Pass@3 或 Cons@3 上未见显著提升，但一致性有所改善，这可能归因于过长轨迹导致的稀疏奖励信号。我们观察到一致性提升明显，三次尝试均答对的问题数量提升了 30%。这表明对于大模型，持续的在策略优化在智能体任务中收益有限。我们的最佳模型在 GAIA 上 Pass@3 得分为 61.1%，在 WebWalkerQA 上为 54.6%。

高质量轨迹数据对智能体 SFT 至关重要
我们提出了两种数据构建策略，分别生成了 crawlQA 和 e2hQA 数据集。对 QA 数据应用轨迹拒绝采样后，我们进一步过滤以提升数据质量。消融实验显示，在低数据量下，经过强过滤的数据集表现最佳，凸显了高质量数据的重要性。

冷启动 SFT 是智能体任务的基础
我们实证对比了单一 RL 设定下的表现，发现仅用 RL，GAIA 上 Pass@3 仅有 5%。而在 RL 阶段，随着训练步数增加，Pass@3 和 Cons@3 均持续提升。直接在零 RL 情况下应用模型，未经过微调或适配，无法展现多步或多工具使用行为，说明推理模型的复杂能力需通过专门训练才能在指令模型中体现。

强推理模型的思维模式难以迁移到小型指令模型
推理模型在自身合成轨迹上训练后推理能力显著提升。对于非推理模型，长链式思考同样有效，但也带来如重复等问题，尤其在小模型上更易超出上下文长度。这些推理模式难以迁移到以任务跟随为主的指令微调模型，说明推理能力的直接迁移仍具挑战。

RL 促进更长推理过程和复杂智能体行为
以 Qwen-32B 为例，SFT 阶段模型更频繁地产生动作和更长的推理序列，这与训练数据特性密切相关。RL 框架通过优化决策序列而非单步输出，促进了更复杂的推理策略和更连贯的长链推理轨迹。RL 还鼓励模型自主决策中间步骤、子目标或工具选择，提升了复杂环境下的泛化能力。

Web 智能体在动态环境中难以稳定
调整解码温度对最终性能影响很小，说明解码多样性不是智能体不稳定的主因。我们将更多性能波动归因于网页环境本身的变化，突显了真实环境的非平稳和开放特性。与静态数据集不同，真实环境不断演化，要求智能体具备鲁棒性。进一步的记忆力测试显示，即使在开发集上微调 10 轮，贪婪解码的准确率也仅为 37.4%，说明在开放领域智能体任务中实现稳定表现极具挑战。

结论

在本工作中，我们提出了一套系统化框架，用于从零构建端到端多步信息检索网页智能体。通过引入可扩展的问答数据合成方法，以及结合有监督微调（SFT）与在策略强化学习（RL）的两阶段训练流程，我们的 WebDancer 智能体在 GAIA 和 WebWalkerQA 基准上取得了优异表现。这些结果强调了我们所提出训练策略的重要性，并为智能体训练的关键环节提供了有价值的见解。展望未来，本研究为社区推进更复杂、能够应对真实世界复杂信息检索任务的智能体模型发展，提供了可操作且系统化的路径。

posted @ 2025-05-30 18:39 一介布衣、阅读(351) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、

WebDancer: 迈向自主寻求信息智能体

摘要

引言

相关工作