深度研究智能体:系统性综述与发展路线图
https://arxiv.org/abs/2506.18096v1
Deep Research Agents: A Systematic Examination And Roadmap
摘要
大型语言模型(LLMs)的快速发展催生了一类全新的自主AI系统,被称为深度研究(Deep Research, DR)智能体。这些智能体通过动态推理、适应性长程规划、多跳信息检索、迭代工具调用以及结构化分析报告生成等能力,能够应对复杂、多轮的信息研究任务。本文系统分析了构建深度研究智能体的基础技术与架构组件。我们首先回顾了信息获取策略,比较了基于API的检索方法与基于浏览器的探索方式。随后,探讨了模块化工具使用框架,包括代码执行、多模态输入处理,以及模型上下文协议(MCP)的集成,以支持系统的可扩展性与生态发展。为系统化现有方法,我们提出了一套分类体系,区分静态与动态工作流,并根据规划策略与智能体组成(单智能体与多智能体)对架构进行归类。我们还对当前主流评测基准进行了评析,指出了外部知识获取受限、顺序执行效率低下以及评测指标与实际目标不匹配等关键问题。最后,本文展望了未来的开放挑战与研究方向。我们还整理并持续更新了DR智能体相关研究的开源资源库,详见:https://github.com/ai-agents-2030/awesome-deep-research-agent。
引言
近年来,大语言模型(LLMs)的突破推动了自主研究型AI智能体的快速发展。早期模型如GPT-3主要聚焦于单一任务,例如问答和机器翻译。随着与外部工具的集成,WebGPT等模型能够自主浏览网页并整合多源信息。近期,出现了一类全新的高级自主系统,被称为“深度研究(Deep Research, DR)智能体”,代表性产品包括OpenAI DR、Gemini DR、Grok DeepSearch和Perplexity DR等。这些智能体在LLM基础上,进一步融合了高级推理、动态任务规划和对网络资源及分析工具的自适应交互能力。
我们正式定义“深度研究智能体”为:
由大语言模型驱动,集成动态推理、自适应规划、多轮外部数据检索与工具调用,以及结构化分析报告生成能力,用于信息研究任务的AI智能体。
具体而言,DR智能体以LLM为认知核心,通过网页浏览器和结构化API实时检索外部知识,并通过定制工具包或标准化接口(如MCP协议)动态调用分析工具。这一架构使DR智能体能够自主管理复杂的端到端研究流程,将推理过程与多模态资源无缝集成。
与传统的RAG方法相比,DR智能体不仅提升了事实准确性,更具备持续推理能力;而相较于依赖预设流程的传统工具调用系统,DR智能体展现出更强的自主性、深度推理、动态规划和实时自适应交互能力。这些优势使其能够胜任复杂、多变、知识密集型的研究场景。图1展示了典型的DR智能体架构,从用户输入、可选的规划与意图澄清,到迭代工具调用(包括离线检索、在线检索、数据分析、代码执行和多模态生成),最终产出结构化的综合报告。
本综述系统梳理了深度研究(DR)智能体的最新进展,全面分析了核心技术、方法体系、优化流程及代表性实现。具体贡献包括:
- 对典型DR系统进行了深入剖析,系统性比较了其系统架构、检索机制、工具调用方式与性能特征,并梳理了主流优化与调优范式。
- 提出统一的分类框架(见图\ref{fig:workflow}),从工作流(静态/动态)、规划策略、智能体架构(单智能体/多智能体)等维度对DR系统进行系统性归类,桥接了多样化技术路线与产业实践。
- 系统梳理并归纳了现有DR系统评测基准,重点分析这些基准如何衡量检索准确性、推理深度与自适应工具调用等关键能力。
- 深入分析了当前面临的核心挑战与未来研究方向,聚焦于拓展检索范围、实现异步并行执行、构建多模态综合评测体系,以及多智能体架构的高效优化等问题。
本文结构安排如下:第二节介绍基础概念,梳理推理、检索增强生成与智能体通信协议的最新进展。第三节系统分析DR智能体的关键组成,包括搜索引擎集成(3.1)、工具调用策略(3.2)、架构与工作流(3.3)、优化方法(3.4)。第四节回顾了业界主流DR智能体的实际应用与实现。第五节梳理了DR系统评测基准,分为问答类与任务执行类两大场景。第六节聚焦核心挑战与未来方向,涵盖信息获取、异步并行、评测体系与多智能体优化等。最后,第七节总结全文并展望DR智能体研究的广阔前景与应用价值。
背景与基础
推理与工具集成的进展
近年来,大型推理模型(LRM)的发展极大提升了语言模型处理复杂和抽象任务的能力。这些模型在算术、常识推理和符号问题求解等任务上取得了显著进步,主要得益于模型结构和训练技术的创新。其中,Chain-of-Thought(CoT)提示方法通过引导模型明确表达中间推理步骤,将复杂问题分解为更简单的阶段,显著提升了模型在多种推理基准上的可解释性和准确性。在此基础上,后续研究进一步提升了模型在长文本推理中的表现,如位置插值和稀疏注意力机制等方法有效扩展了模型的上下文窗口。此外,专门的长文本推理基准也被提出,用于系统性评估和提升模型在长上下文推理中的能力。
针对需要实时或专业外部知识的推理任务,Toolformer 和 MultiTool-CoT 等框架被提出,使得语言模型能够在推理流程中自主调用外部计算资源和 API。这类方法在依赖精确数值计算和动态信息检索的任务中表现突出。多轮对话推理同样面临独特挑战,Dialogue CoT 和 Structured CoT(SCoT)等技术通过将对话状态和上下文显式融入推理链,显著提升了模型的连贯性、上下文感知能力以及多轮交互和复杂意图澄清的能力。然而,尽管取得了诸多进展,现有推理框架仍存在幻觉、知识陈旧以及对快速变化信息响应不足等问题。这些局限性凸显了集成外部信息源、实时检索机制和自适应推理策略的必要性,也是推动深度研究智能体(DR Agent)相关推理框架不断演进的核心动力。
检索增强生成与智能体检索的进展
检索增强生成(RAG)通过集成外部知识库(如网页、API),已成为缓解幻觉问题、提升网络信息检索准确性的有效策略。早期 RAG 架构通常采用静态流程,由检索器从外部源(如百科或搜索引擎)获取相关文档,生成器(如 LLM)仅基于这些检索内容生成答案。然而,静态方法在处理复杂或多步查询时表现有限,促使近期研究转向迭代式和交互式检索机制,以生成更丰富、更相关的响应。检索源也从结构化数据库扩展到大规模多样化的网页语料库。进一步的改进包括混合方法,将模型内部知识与外部检索结果结合,以提升准确性和连贯性。最新研究还引入了强化学习和课程学习等技术,使推理型语言模型能够更有效地识别和利用相关上下文。
尽管检索方法和推理增强模型取得了进展,RAG 方案在管理复杂推理流程和动态适应多样任务需求方面仍有不足。为此,近期研究将 RAG 拓展为智能体范式,在传统 RAG 流程之上引入推理和决策层。智能体式 RAG 通过迭代检索、自适应查询和动态流程调整,显著增强了多步推理能力。例如,基于强化学习的查询优化和基于图的检索方法提升了复杂查询的处理能力。尽管如此,智能体式 RAG 仍面临动态推理带来的计算开销、智能体行为与用户意图对齐、以及自适应流程的可解释性等挑战。此外,即便是先进的智能体式 RAG 方法,依然受限于对预先构建或定期更新语料库的依赖,难以高效应对实时、快速变化或长尾信息需求。解决这一问题需要将外部 API 和网页浏览能力集成到 RAG 架构中,推动深度研究智能体进一步提升检索的全面性和适应性。
模型上下文协议与智能体间协作策略
模型上下文协议(MCP)和智能体间协作(A2A)被提出以解决大模型智能体系统中的互操作性难题,实现高效工具访问和多智能体协作。MCP:传统工具调用(TU)智能体面临API不统一、维护成本高、重复开发等问题,极大限制了系统间的互操作性。Anthropic提出的MCP协议,为大模型智能体与外部服务和数据源的交互提供了统一通信层,通过标准化接口实现安全一致的访问,缓解了数据孤岛问题,并支持动态服务发现和统一访问模式。A2A:谷歌提出的A2A协议,支持去中心化多智能体协作,通过结构化、面向任务的对话机制,使不同厂商和架构的智能体能够发现彼此、分工协作、共同管理复杂任务。A2A通过Agent Card抽象智能体发现,通过Task和Artifact实现任务协调,支持灵活、增量和多模态的协作流程,适用于复杂协作场景。
MCP和A2A各司其职,MCP专注于外部工具的标准化接入,A2A负责智能体间的协作编排。两者结合,为开放、可扩展的智能体生态系统奠定了基础,大幅提升了AI系统应对复杂现实问题的能力。
深度研究:搜索引擎、工具调用、工作流、调优与非参数持续学习
与传统RAG方法的对比。 深度研究智能体(DR Agent)通过集成动态检索、实时工具调用和自适应推理,突破了传统RAG方法固定流程的局限,能够灵活应对多步复杂查询和快速变化的上下文。相比之下,DR智能体具备更高的自主性、上下文感知和准确性,能够动态调用外部工具,实时管理多阶段研究任务。
本节系统梳理DR智能体的五大核心组成:(3.1)搜索引擎集成,比较API接口与浏览器探索方式,提升动态知识获取能力;(3.2)工具调用能力,探讨代码执行、数学计算、文件操作和多模态处理等模块在推理流程中的集成;(3.3)工作流架构,分析基础设计、单/多智能体平衡、记忆机制及辅助组件,支撑复杂研究流程的编排;(3.4)调优方法,涵盖结构化生成、LLM驱动提示、微调和强化学习等优化路径;(3.5)非参数持续学习,通过动态适配外部工具、记忆和流程,无需更新模型参数,实现复杂任务的可扩展优化。
图2:API检索与浏览器检索流程对比
搜索引擎:API vs. 浏览器
为提升推理深度和应对动态任务,DR智能体通过搜索引擎(SE)与外部环境交互,实时更新知识。表格展示了主流DR智能体采用的搜索引擎、基础模型和评测基准。搜索引擎主要分为两类:
- API型搜索引擎:通过结构化API(如搜索引擎API、科学数据库API)高效获取有组织的信息。
- 浏览器型搜索引擎:模拟人类浏览网页,实时提取动态或非结构化内容,提升外部知识的全面性。
DR Agent | API | Browser | GAIA | HLE | Other QA | Base Model | Release |
---|---|---|---|---|---|---|---|
Avatar | ◧ | □ | □ | □ | Stark | Claude-3-Opus, GPT-4 | Feb-2024 |
CoSearch-Agent | ■ | □ | □ | □ | □ | GPT-3.5-turbo | Feb-2024 |
MMAC-Copilot | ■ | □ | ■ | □ | □ | GPT-3.5, GPT-4 | Mar-2024 |
Storm | ◧ | □ | □ | □ | FreshWiki | GPT-3.5-turbo | Jul-2024 |
OpenResearcher | ■ | □ | □ | □ | Privately Collected QA Data | DeepSeek-V2-Chat | Aug-2024 |
The AI Scientist | ■ | □ | □ | □ | MLE-Bench | GPT-4o, o1-mini, o1-preview | Aug-2024 |
Gemini DR | ■ | ■ | □ | ■ | GPQA | Gemini-2.0-Flash | Dec-2024 |
Agent Laboratory | ■ | □ | □ | □ | MLE-Bench | GPT-4o, o1-preview | Jan-2025 |
Search-o1 | ■ | □ | □ | □ | GPQA, NQ, TriviaQA | QwQ-32B-preview | Jan-2025 |
Agentic Reasoning | ■ | □ | □ | □ | GPQA | DeepSeek-R1, Qwen2.5 | Feb-2025 |
AutoAgent | □ | ■ | ■ | □ | □ | Claude-Sonnet-3.5 | Feb-2025 |
Grok DeepSearch | ■ | ■ | □ | □ | GPQA | Grok3 | Feb-2025 |
OpenAI DR | □ | ■ | ■ | ■ | ■ | GPT-o3 | Feb-2025 |
Perplexity DR | ■ | ◧ | □ | ■ | SimoleQA | Flexible | Feb-2025 |
AgentRxiv | ■ | □ | □ | □ | GPQA, MedQA | GPT-4o-mini | Mar-2025 |
Agent-R1 | ■ | □ | □ | □ | HotpotQA | Qwen2.5-1.5B-Inst | Mar-2025 |
AutoGLM Rumination | □ | ■ | □ | □ | GPQA | GLM-Z1-Air | Mar-2025 |
Copilot Researcher | □ | ■ | □ | □ | □ | o3-mini | Mar-2025 |
H2O.ai DR | ■ | ■ | ■ | □ | □ | h2ogpt-oasst1-512-12b | Mar-2025 |
Manus | ■ | ■ | □ | □ | □ | Claude3.5, GPT-4o | Mar-2025 |
Openmanus | ■ | ■ | □ | □ | □ | Claude3.5, GPT-4o | Mar-2025 |
OWL | ■ | ■ | ■ | □ | □ | Deepeek-R1, Gemini2.5-Pro, GPT-4o | Mar-2025 |
R1-Searcher | ◧ | □ | □ | □ | 2WikiMultiHopQA, HotpotQA | Llama3.1-8B-Inst, Qwen2.5-7B | Mar-2025 |
ReSearch | ◧ | □ | □ | □ | 2WikiMultiHopQA, HotpotQA | Qwen2.5-7B, Qwen2.5-7B-Inst | Mar-2025 |
Search-R1 | ◧ | □ | □ | □ | 2WikiMultiHopQA, HotpotQA, NQ, TriviaQA | Llama3.2-3B, Qwen2.5-3B/7B | Mar-2025 |
DeepResarcher | □ | ■ | □ | □ | HotpotQA, NQ, TriviaQA | Qwen2.5-7B-Inst | Apr-2025 |
Genspark Super Agent | ■ | ■ | ■ | □ | □ | Mixture of Agents[^1] | Apr-2025 |
WebThinker | ■ | □ | ■ | ■ | GPQA, WebWalkerQA | QwQ-32B | Apr-2025 |
SWIRL | □ | ■ | □ | □ | HotQA, BeerQA | Gemma 2-27b | Apr-2025 |
SimpleDeepSearcher | □ | ■ | ■ | □ | 2WikiMultiHopQA | Qwen-2.5-7B-In, Qwen-2.5-32B-In, DeepSeek-Distilled-Qwen-2.5-32B, QwQ-32B | Apr-2025 |
Suna AI | ■ | ■ | □ | □ | □ | GPT-4o, Claude | Apr-2025 |
AgenticSeek | □ | ■ | □ | □ | □ | GPT-4o, DeepSeek-R1, Claude | May-2025 |
Alita | ■ | ■ | ■ | □ | PathVQA | GPT-4o, Claude-Sonnet-4 | May-2025 |
DeerFlow | ■ | □ | □ | □ | □ | Doubao-1.5-Pro-32k, DeepSeek-R1, GPT-4o, Qwen | May-2025 |
PANGU DEEPDIVER | ■ | □ | □ | □ | C-SimpleQA, HotpotQA, ProxyQA | Pangu-7B-Reasoner | May-2025 |
符号说明:
■ = 主要支持,◧ = 次要/部分支持,□ = 不支持
API检索是一种快速、高效、结构化且可扩展的方式,使DR智能体能够以较低的时间和计算成本访问外部知识源。例如,Gemini DR通过Google Search API和arXiv API等多源接口,实现对数百上千网页的大规模检索,极大扩展了信息覆盖面。Grok DeepSearch通过新闻源、Wikipedia API和X平台接口持续更新索引,并按需激活查询代理,实时生成子查询并抓取相关页面,确保知识库的新鲜度和深度。AgentLaboratory利用arXiv API自动提取论文元数据和摘要,支持自动化文献综述。AI Scientist通过Semantic Scholar API验证模型生成研究创意的新颖性和引用关系,CoSearchAgent集成SerpApi实现Slack实时搜索。DeepRetrieval在强化学习框架下,针对PubMed和ClinicalTrials.gov等API优化查询,提升生物医学任务召回率;Search-o1结合Bing Search API和Jina Reader API,动态抽取和精炼段落用于后续推理。这些API驱动方法在结构化、高吞吐数据采集方面表现突出,但面对深层嵌套的JavaScript渲染内容、交互组件或认证壁垒时存在不足,因此推动了浏览器检索机制的发展,以全面提取和分析动态或非结构化信息。
浏览器检索为DR智能体提供了动态、灵活、交互式访问多模态和非结构化网页内容的能力,模拟人类浏览器操作。例如,Manus AI的浏览代理为每次研究会话启动独立的Chromium沙盒实例,自动打开新标签、发起搜索、点击结果链接、滚动页面、填写表单、执行页面内JavaScript以加载内容,并下载文件或PDF进行本地分析。虽然OpenAI DR、Grok DeepSearch和Gemini 2.5 DR未公开浏览实现细节,但其对交互控件、动态渲染内容和多步导航的支持表明其背后采用了类似的无头浏览器框架。开源研究中,AutoAgent在BrowserGym环境下滚动、交互页面组件并下载文件以弥补API不足;DeepResearcher配备专用Web浏览代理,按需处理网页各段内容,判断是否继续、聚合相关信息至短期记忆后返回推理。浏览器检索擅长捕获API无法触及的实时和深层内容,但也带来更高的延迟、资源消耗和页面适配复杂性,因此DR智能体通常采用API与浏览器混合架构,兼顾效率与全面性。
DR Agent | Code Interpreter | Data Analytics | Multimodal | Release |
---|---|---|---|---|
CoSearchAgent | ⬜️ | ⬛️ | ⬜️ | Feb-2024 |
Storm | ⬛️ | ⬜️ | ⬜️ | Jul-2024 |
The AI Scientist | ⬛️ | ⬜️ | ⬜️ | Aug-2024 |
Agent Laboratory | ⬛️ | ⬜️ | ⬜️ | Jan-2025 |
Agentic Reasoning | ⬛️ | ⬜️ | ⬜️ | Feb-2025 |
AutoAgent | ⬛️ | ⬜️ | ⬛️ | Feb-2025 |
Genspark DR | ⬛️ | ⬛️ | ⬛️ | Feb-2025 |
Grok DeepSearch | ⬛️ | ⬛️ | ⬛️ | Feb-2025 |
OpenAI DR | ⬛️ | ⬛️ | ⬛️ | Feb-2025 |
Perplexity DR | ⬛️ | ⬛️ | ⬛️ | Feb-2025 |
Agent-R1 | ⬛️ | ⬜️ | ⬜️ | Mar-2025 |
AutoGLM Romination | ⬛️ | ⬜️ | ⬛️ | Mar-2025 |
Copilot Researcher | ⬛️ | ⬛️ | ◧ | Mar-2025 |
Manus | ⬛️ | ⬛️ | ⬛️ | Mar-2025 |
OpenManus | ⬛️ | ⬛️ | ⬜️ | Mar-2025 |
OWL | ⬛️ | ⬛️ | ⬛️ | Mar-2025 |
H2O.ai DR | ⬛️ | ⬛️ | ⬛️ | Mar-2025 |
Genspark Super Agent | ⬛️ | ⬛️ | ⬛️ | Apr-2025 |
WebThinker | ⬛️ | ⬜️ | ⬜️ | Apr-2025 |
Suna Ai | ⬛️ | ⬛️ | ⬜️ | Apr-2025 |
AgenticSeek | ⬛️ | ⬛️ | ⬜️ | May-2025 |
Alita | ⬛️ | ◧ | ◧ | May-2025 |
DeerFlow | ⬛️ | ⬛️ | ⬜️ | May-2025 |
Legend:
⬛️ = Involved, ◧ = Non Disclosure, ⬜️ = Not present
工具使用:赋能智能体扩展功能
为扩展DR智能体在复杂研究任务中与外部环境交互的能力,特别是主动调用和处理多样化工具与数据源,众多DR智能体引入了三大核心工具模块:代码解释器、数据分析、多模态处理,以及模型上下文协议(Model Context Protocol)。
代码解释器
代码解释器能力使DR智能体能够在推理过程中执行脚本,实现数据处理、算法验证和模型仿真。除CoSearchAgent外,大多数DR智能体都内置了脚本执行环境,通常依赖Python工具(如Aider)和Java工具,支持动态脚本编排、文献驱动分析以及实时计算推理。
数据分析
通过集成数据分析模块,DR智能体能够将原始检索结果转化为结构化洞见,包括计算统计摘要、生成可视化图表和进行定量模型评估,从而加速假设验证和决策过程。许多商业DR智能体已实现本地或远程的数据分析功能,如图表生成、表格制作和统计分析,但大多未公开具体技术细节。学术研究中,CoSearchAgent在团队协作平台中集成了基于SQL的查询,实现聚合分析和报告生成;AutoGLM可直接从网页表格中提取和分析结构化数据;Search-o1的Reason-in-Documents模块则对长文本检索结果进行精炼,提取关键指标用于后续评估。
多模态处理与生成
多模态处理与生成工具使DR智能体能够在统一推理流程中集成、分析和生成文本、图片、音频、视频等异构数据,丰富了上下文理解并拓展了输出形式。目前仅有部分成熟的商业和开源项目(如Manus、OWL、AutoAgent、AutoGLM、OpenAI、Gemini、Perplexity、Grok DeepSearch)支持该能力,大多数学术原型因计算资源限制尚未实现。以OWL和Openmanus为例,它们将推理流程扩展到与GitHub、Notion、Google Maps等平台交互,并结合Sympy、Excel等数值库,实现数据分析与多模态媒体处理。
具备计算机操作能力的深度研究智能体
近期,DR智能体的边界正通过集成计算机辅助任务执行能力(即计算机使用)不断拓展。例如,智谱AI推出的AutoGLM Rumination系统,基于强化学习,融合了自反思和迭代优化机制,显著提升了多步推理和复杂函数调用能力。AutoGLM Rumination可自主与网页环境交互、执行代码、调用外部API,完成数据检索、分析和结构化报告生成等复杂任务。与OpenAI DR主要聚焦于复杂推理和信息检索不同,AutoGLM Rumination在实际执行层面展现出更强的自主性,能够将抽象分析转化为具体操作,如自动化网页交互和实时数据处理。此外,AutoGLM Rumination通过与真实浏览器环境无缝集成,突破了模拟浏览环境的局限,实现了对如CNKI、小红书、微信公众号等需用户认证资源的可靠访问,极大提升了智能体在信息获取和实际任务执行中的自主性与适应性。
架构与工作流
如图4所示,本节系统分析了深度研究(DR)系统的构建,重点介绍了按静态与动态类型划分的工作流。随后,讨论了三种不同的用户交互类型以增强任务分配与执行的规划策略:仅规划(直接规划,不澄清用户意图)、意图到规划(先澄清意图,再规划以对齐用户目标)、统一意图-规划(生成计划并请求用户确认)。在动态工作流中,进一步区分了单智能体与多智能体系统,强调任务管理的专业化。此外,还探讨了用于管理和整合检索信息的记忆机制,这些机制提升了DR系统的性能与适应性。
静态 vs. 动态工作流
静态工作流依赖人工预设的任务管道,将研究流程分解为顺序子任务,由专门的智能体依次执行。这类流程结构清晰,适用于结构化、需求明确的研究场景。例如,AI Scientist 将科学发现自动化为创意、实验、报告等阶段;Agent Laboratory 将研究活动分为文献综述、实验、结果综合等环节。AgentRxiv 进一步引入了智能体间协作机制,通过中间结果共享实现增量知识复用。静态工作流实现简单、结构明确,但泛化能力有限,每种任务都需定制化管道。
动态工作流为克服静态流程在灵活性和泛化性上的局限,支持自适应任务规划,允许智能体根据反馈和上下文动态重组任务结构。动态架构采用自动规划、迭代优化和交互式任务分配等机制,使任务能随新知识或外部输入实时演化。因此,动态工作流具备更强的通用性和适应性,适合AI驱动的复杂、知识密集型研究任务。
动态工作流:规划策略
为提升DR智能体对用户需求和环境变化的适应性,现有研究提出了三种不同的LLM驱动规划策略,主要区别在于是否以及如何与用户交互澄清意图:
- 仅规划:直接根据用户初始输入生成任务计划,不主动澄清意图。大多数DR智能体采用此法,如Grok、H2O、Manus等。
- 意图到规划:在规划前主动通过提问澄清用户意图,再基于澄清后的输入生成定制化任务序列。OpenAI DR采用此策略。
- 统一意图-规划:初步生成计划后,主动与用户交互确认或修订该计划,结合了自动规划与用户引导优化。Gemini DR代表了此类方法,充分发挥了用户参与的优势。
动态工作流:单智能体 vs. 多智能体
动态工作流的DR智能体可根据智能体架构分为单智能体和多智能体两类,各自具有不同的任务专精、协作复杂度和执行可扩展性等特点。
动态单智能体系统
动态单智能体系统将规划、工具调用和执行整合在一个统一的大语言模型(LLM)中,实现任务管理的闭环。单智能体架构能够根据不断变化的上下文自主优化任务计划,并调用合适的工具,通常无需显式的智能体间协作。与多智能体架构相比,单智能体系统便于实现端到端的强化学习优化,使推理、规划和工具调用的集成更加流畅和一致。典型代表如Agent-R1、ReSearch和Search-R1等系统,通过显式推理、行动和反思的迭代循环,体现了ReAct范式。然而,这种方式对基础模型的推理能力、上下文理解和自主工具选择能力提出了较高要求。同时,单智能体系统高度集成的特性也可能限制模块化灵活性,增加了独立扩展或优化各功能组件的难度。
动态多智能体系统
动态多智能体系统通过多个专用智能体协作完成子任务,这些子任务由自适应规划策略动态生成和分配。此类系统通常采用分层或集中式规划机制,由协调者智能体根据实时反馈持续分配和调整任务。典型框架包括OpenManus和Manus,均采用分层规划-工具调用架构。OWL则采用以中央管理者为核心的任务分发机制,协调各专用执行智能体的协作。此外,Alita引入了自进化机制,能够根据具体任务和环境条件在线实例化和配置新的MCP服务器。多智能体配置能够有效处理复杂、可并行的研究任务,提升灵活性和可扩展性,适用于开放式研究场景。但当前多智能体系统的主要挑战在于多智能体间的协调复杂,难以实现高效的端到端强化学习优化。
长上下文优化的记忆机制
记忆机制使DR智能体能够在多轮检索过程中持续捕获、组织和回忆相关信息,从而减少冗余查询,提高任务效率和连贯性。在实际应用中,智能体通常需要进行大量多轮检索,生成数十万甚至上百万的tokens。尽管最新的LLM已显著扩展了上下文窗口,但对于极长上下文的任务仍然存在限制。为此,DR系统在处理长上下文时主要采用三类优化策略:
-
扩展上下文窗口长度
这是最直观有效的方法。例如,Gemini模型支持高达百万tokens的上下文窗口,并结合RAG方案。该方法虽然简单,但计算成本高,实际部署时资源利用效率较低。 -
中间步骤压缩
通过压缩或摘要中间推理步骤,显著减少模型处理的tokens数量,提高效率和输出质量。典型如The AI Scientist和CycleResearcher等框架在各阶段传递摘要化的中间结果。Li等提出的“文档内推理”方法,利用LLM对文档进行压缩,减少token量并提升决策效率。但该方法可能导致细节信息丢失,影响后续推理的精度。 -
外部结构化存储
利用外部结构化存储保存和检索历史信息,使智能体能够突破上下文窗口限制,持久高效地存储大量历史内容,提升记忆容量、检索速度和语义相关性。Manus、OWL、Open Manus和Avatar等开源框架采用外部文件系统存储中间结果和历史数据。WebThinker和AutoAgent等则开发了自管理模块,结合向量数据库实现可扩展的记忆存储和快速相似度检索。部分工作还提出了更具语义结构的记忆框架,如利用知识图谱捕捉中间推理过程,或模拟学术论文库存储和检索其他智能体的研究成果。这些结构化方法在提升语义检索效率和准确性的同时,也带来了更高的数据结构设计和维护成本。
精调:从提示工程到能力增强
参数化方法
基于Prompt的方法直接利用了预训练大模型的能力,无需昂贵的微调或额外训练即可实现复杂功能。然而,这类方法难以系统性地优化Prompt结构和工作流,并且智能体的性能受限于底层大模型,随着决策复杂度提升,模型能力很快达到瓶颈。为突破这些限制,必须引入如微调、强化学习(RL)或混合训练等高级优化技术,进一步扩展模型的固有能力。下面将介绍两种主要的调优范式:有监督微调(SFT)和强化学习,并说明它们如何突破仅靠Prompt的方法。
DR Agent | SFT | RL | Base Model | Data | Reward Design | Release |
---|---|---|---|---|---|---|
Gemini DR | ? | ? | Gemini-2.0-Flash | - | ? | Dec-2024 |
Grok DeepSearch | - | ? | Grok3 | - | ? | Feb-2025 |
OpenAI DR | - | ? | GPT-o3 | - | ? | Feb-2025 |
Agent-R1 | - | PPO, Reinforce++, GRPO | Qwen2.5-1.5B-Inst | HotpotQA | Rule-Outcome | Mar-2025 |
AutoGLM Romination | ? | ? | GLM-Z1-Air | - | ? | Mar-2025 |
H2O.ai DR | ✔ | ? | h2ogpt-oasst1-512-12b | - | ? | Mar-2025 |
Copilot Researcher | ? | ? | o3-mini | - | - | Mar-2025 |
ReSearch | - | GRPO | Qwen2.5-7B-Inst, Qwen2.5-32B-Inst | 2WikiMultiHopQA | Rule-Outcome | Mar-2025 |
R1-Searcher | ✔ | Reinforce++, GRPO | Qwen2.5-7B-InSt, LLaMA-3.1-8B-Inst | 2WikiMultiHopQA, HotpotQA | Rule-Outcome | Mar-2025 |
Search-R1 | ✔ | PPO, GRPO | Qwen2.5-3B/7B, LLaMA3.2-3B-Inst | NQ, HotpotQA | Rule-Outcome | Mar-2025 |
DeepResearcher | - | GRPO | Qwen2.5-7B-Inst | NQ, HotpotQA | Rule-Outcome | Apr-2025 |
Genspark Super Agent | - | - | Mixture of Agents | - | - | Apr-2025 |
WebThinker | ✔ | Iterative Online DPO | QwQ-32B | Expert Dataset | Rule-Outcome | Apr-2025 |
SWIRL | - | Offline-RL | Gemma-2-27B | HotPotQA | - | Apr-2025 |
SimpleDeepSearcher | ✔ | PPO | Qwen-2.5-7B-In, Qwen-2.5-32B-In, Deepseek-Distilled-Qwen-32B, QwQ-32B | NQ, HotpotQA, 2WikiMultiHopQA, Musique, SimpleQA, MultiHop-RAG | Process-based reward | Apr-2025 |
PANGU DEEPDIVER | ✔ | GRPO | Pangu-7B-Reasoner | WebPuzzle | Rule-Outcome | May-2025 |
注释:✔ = Yes,- = Not present,? = Yes but details unknown
基于SFT的优化
Prompt方法虽然适合快速适配,但受限于底层大模型的泛化能力,在复杂任务中表现出鲁棒性不足。为此,研究者越来越多地探索微调方法,系统性地优化大模型在深度研究智能体中的关键组件,如搜索查询生成、结构化报告生成和外部工具调用等,以提升检索质量、减少幻觉、实现更可靠的长文本和证据支撑生成。
早期的代表性工作如Open-RAG,通过引入多样的监督信号(如检索token、相关性token、溯源token和效用token),并采用对抗训练,提升模型过滤无关信息的能力,从而增强检索准确性和下游任务表现。在此基础上,AUTO-RAG进一步提升了大模型的自主多轮检索能力。与早期依赖few-shot或手工模板的多跳检索不同,AUTO-RAG构建了基于推理的指令数据集,使模型能够自主规划检索查询,并与检索器进行多轮交互,动态优化检索策略,收集充分证据后再生成最终答案。DeepRAG则提出了二叉树检索机制,递归生成子查询并构建多轮检索轨迹,使模型在内部知识和外部检索之间实现平衡,提高检索效率并减少冗余外部查询。
为进一步减少对人工SFT数据集的依赖,近期工作发展了基于拒绝采样的微调策略。CoRAG利用拒绝采样,从标准问答数据集中提取中间检索链,实现逐步检索增强和动态子查询重构,而不是仅监督最终输出。Li等提出了hint-infer机制,在生成过程中监控token模式,遇到特定提示时自动调用外部计算工具(如Python执行器或提示库)。模型在初步SFT后,通过拒绝采样微调,学会自主生成Prompt并调用工具,无需依赖人工演示。ATLAS则只在专家轨迹的关键步骤上训练,大幅提升了泛化能力。
尽管这些SFT方法通过支持动态检索规划、结构化信息整合和工具集成,提升了深度研究智能体的泛化能力,但仍局限于离线、静态的检索增强流程。相比之下,强化学习为在线查询生成和工具调用提供了更具适应性的解决方案。通过实时奖励信号,RL智能体能够学习如何制定有效检索查询、何时调用工具,从而克服合成演示数据和分布漂移的局限,在开放式研究环境下表现出更强的鲁棒性和适应性。
基于强化学习的优化
基于强化学习(RL)的方法通过直接提升智能体的自适应能力和泛化能力,显著优于传统的指令跟随或模式学习方法。最新进展表明,端到端的RL训练极大增强了DR智能体在迭代信息检索、动态工具调用和综合推理等方面的能力。具体对比见下表。
早期的RL方法如DeepRetrieval主要针对查询生成进行优化,从而提升信息检索质量,通过生成更相关的搜索结果来增强下游文本生成。在此基础上,ReSearch将RL扩展到对检索信息的自适应推理,模型能够根据持续反馈动态优化搜索策略并迭代更新结果,显著提升了任务解决的准确性。随后,R1-Searcher进一步优化了检索交互,通过精心设计的奖励函数,显式训练模型优化搜索策略,从而更好地利用外部信息并提升检索结果的相关性。
Search-R1则通过结构化集成复杂的搜索交互与推理过程,系统性地打通了查询生成与信息推理的桥梁,实现了对检索内容的精细整合和更具层次感的响应。最终,这一研究方向在Agent-R1中实现了集大成,Agent-R1将RL集成到LLM智能体的端到端训练中,能够自主调用API、搜索引擎和数据库等多种工具,实现多步任务的自主执行和动态工具协调。通过RL驱动的全流程优化,Agent-R1展现了在自适应规划、迭代执行和任务细化方面的高级能力。此外,WebThinker集成了Web Explorer模块,实现了动态多跳网页探索,并采用迭代式在线DPO优化,将搜索、导航和报告撰写无缝结合;Pangu DeepDiver则在7B Pangu模型基础上引入了搜索强度自适应机制(SIS),通过两阶段SFT和RL训练,实现了在开放网络环境下对搜索深度和频率的动态调整。
表格总结了DR系统中三种主要的RL实现模式:
- 1)Gemini DR、Grok DeepSearch等工业系统采用专有的RL实现,细节未公开;
- 2)学术方法更倾向于采用GRPO、Reinforce++等模块化RL优化,并公开奖励设计;
- 3)新兴的混合系统如SimpleDeepSearcher结合了过程型奖励和多任务训练,覆盖多个QA数据集
表格还显示,Qwen2.5和LLaMA3系列模型成为RL优化的主流基础架构。
奖励模型与策略模型
当前开源DR智能体的RL实现大多采用基于规则的奖励模型,明确设定检索相关性、信息准确性或工具调用成功等任务目标。为高效进行策略优化,近期系统越来越多地采用PPO和GRPO等方法。GRPO通过组内归一化将稀疏的二值奖励扩展为连续优势值,极大丰富了策略更新的梯度信号,并通过动态分组抑制方差,提升了训练稳定性。与PPO相比,GRPO无需单独的价值网络,消除了策略与价值目标的冲突,显著加快了收敛速度。实验证明,GRPO在奖励分布覆盖、探索能力和KL收敛速度等方面均优于传统PPO。
非参数持续学习
DR智能体高度依赖大规模语言模型(LRM),并常采用复杂的分层工作流。传统的参数化学习方法(如SFT和RL)在此背景下面临诸多挑战,包括模型参数扩展、结构化经验数据管理以及训练算法复杂度提升等问题。相比之下,非参数持续学习为智能体提供了一种可扩展的替代方案:智能体无需更新内部权重,而是通过持续与外部环境交互,动态优化外部记忆、工作流和工具配置,实现能力的在线自我提升。这种非参数持续学习范式能够以极低的数据和计算开销实现高效的在线适应,非常适合复杂架构的DR智能体。
目前,非参数持续学习方法中最具代表性的是基于案例推理(CBR)的方案。CBR方法允许智能体从外部案例库动态检索、适配和复用结构化的问题求解轨迹。与传统RAG方法依赖静态数据库不同,CBR支持在线上下文适应和任务级泛化,展现出极强的灵活性和可扩展性。典型应用如DS-Agent首次将CBR引入自动化数据科学流程,通过构建案例库实现近似在线检索。LAM则将CBR用于功能测试生成,将轨迹级检索与LLM规划模块结合,形成模块化系统。更进一步,Agent K通过奖励驱动的记忆策略,实现了动态案例检索与复用,代表了真正的自我进化能力,无需参数更新即可持续适应和优化。针对DR智能体,AgentRxiv进一步扩展了该范式,使自主研究智能体能够协作共享和访问集中式的历史研究成果库。该框架允许智能体实验室上传和检索报告,模拟在线更新的arXiv平台,实质上构建了一个综合案例库,支持智能体通过上下文适应不断提升能力和知识,而无需修改模型参数。
与将固定演示或任务启发式编码为静态输入模板的prompt方法相比,非参数方法能够动态检索和适配结构化轨迹,实现无需人工prompt工程的持续任务泛化。相较于RAG通常从静态语料库检索非结构化文本,CBR以轨迹为中心,强调推理型记忆组织。例如Kaggle Grandmaster Agent展示了具备模块化推理组件和持久记忆的LLM如何实现专家级结构化问题求解,充分体现了CBR范式的优势。这些特性使CBR非常适合需要过程自适应和上下文优化的智能体。除基于记忆的方法外,自进化还可体现在基础设施的动态适配。例如,Alita会根据任务需求和环境信号,动态部署和配置新的MCP服务器,实现工具集的无缝扩展和优化。
综上,这些自进化范式为LLM驱动的DR智能体系统带来了结构化推理与动态检索的新可能,极大提升了知识复用和持续学习的效率。尽管目前尚未广泛应用,但它们有效缓解了参数化方法对数据和算力的高需求,是未来研究和实际部署的重要方向。
深度研究智能体的产业应用
OpenAI Deep Research
OpenAI 最近推出了其深度研究(DR)能力,采用基于强化学习和微调的 o3 推理模型的单智能体架构。系统在接收到研究请求后,会先进行简短的交互式澄清,准确界定用户意图和研究目标。随后,智能体会自主制定并执行多步研究策略,包括多模态信息检索、网页浏览、数据分析和可视化等任务。该方案的三大技术亮点为:(1)动态自适应的迭代研究流程,可在任务执行过程中不断优化策略;(2)增强的上下文记忆和多模态处理能力,能够高效整合多源信息;(3)全面的工具链集成,将网页浏览与内置编程工具结合,生成结构化、权威的报告并附带精确引用。
Gemini Deep Research
Google DeepMind 推出的 Gemini DR 基于多模态 Gemini 2.0 Flash Thinking 模型。Gemini 通过强化学习驱动的微调和单智能体架构,显著提升了规划和自适应研究能力,使系统能够自主高效地完成复杂任务。其主要技术创新包括:(1)交互式研究规划,自动生成多步研究计划并支持用户交互修改;(2)异步任务管理架构,可高效处理多任务并发;(3)大规模上下文窗口与 RAG 集成,实现多模态数据的高效管理与综合分析;(4)高速自适应检索,支持多轮快速网页搜索,显著提升检索速度和单次信息量。
Perplexity Deep Research
Perplexity 新开发的 DR 智能体具备将复杂查询分解为明确子任务的能力。系统能够迭代式地进行有针对性的网页检索,批判性评估权威信息源,并综合生成结构化、全面的报告。其技术亮点包括:(1)迭代信息检索,基于中间洞察动态调整检索策略,确保信息覆盖全面且准确;(2)动态 Prompt 引导的模型选择,采用混合架构,根据具体任务需求和上下文自动选择最优模型组合,提升适应性和效果。
Grok DeepSearch
Grok DeepSearch 由 xAI 开发,是一个将实时信息检索与多模态推理结合的计算框架,能够动态解决复杂且信息密集的问题。其技术创新包括:(1)分段级模块化处理流程,先进行信息可信度评估,过滤低质量内容,再通过实时数据采集引擎收集多模态输入(如文本、图片、代码),并利用稀疏注意力机制并发完成数据清洗、跨源验证和多模态整合,最终生成结构化输出(如分析摘要、高级可视化和可验证引用);(2)动态资源分配,能够在轻量检索和密集分析模式间自适应切换,并通过安全沙箱环境实现计算验证。
Microsoft Copilot Researcher 和 Analyst
微软近期在 Microsoft 365 Copilot 中推出了 Researcher 和 Analyst 两款创新型推理智能体。这些智能体能够安全合规地访问用户的工作数据(如邮件、会议记录、文档、聊天)及网络信息,按需提供专家级知识。
Researcher 旨在帮助用户完成复杂的多步研究任务,输出高质量、高准确度的洞察。它结合了 OpenAI 的先进研究模型与 Microsoft 365 Copilot 的智能编排和深度搜索能力。用户可利用 Researcher 制定市场进入策略、整合内外部数据识别新产品市场机会,或为客户准备季度报告,并可通过连接 Salesforce、ServiceNow、Confluence 等第三方数据源进一步增强洞察力。
Analyst 是一款高级数据分析智能体,能够在数分钟内将原始数据转化为有价值的洞察。它基于专为专业环境优化的 OpenAI o3-mini 推理模型,采用链式思维推理方法,逐步解决问题,生成高质量、接近人类分析思维的响应。
Qwen Deep Research
阿里巴巴 Qwen 最近发布了 Qwen Deep Research,基于其旗舰多模态模型 Qwen3-235B-A22B。系统通过强化学习优化的任务调度和统一智能体框架,展现出更强的自主规划和自适应执行能力,能够快速完成复杂研究流程。主要技术亮点包括:(1)动态研究蓝图规划,支持交互式方案优化;(2)并发任务编排,实现检索、验证和综合的并行处理。
除上述头部企业外,微软、字节跳动及 Jina AI、H2O、智谱 AI 等新兴公司也纷纷推出了自有 DR 平台。这些方案的快速涌现,反映出 DR 技术的巨大吸引力和市场潜力。展望未来,随着大模型推理、多模态生成和检索集成技术的持续进步,DR 智能体有望突破传统信息检索和工具调用的边界,解决更复杂的推理与知识构建难题,成为下一代智能协作研究平台的核心技术支柱。
深度研究智能体的评测基准
评估深度研究(DR)智能体,需要能够覆盖其完整研究流程的基准,包括多步信息检索、跨来源综合、动态工具调用以及结构化、基于证据的报告生成。现有评测主要分为两大类:
- 问答(QA)基准:涵盖从单轮事实性问题到复杂的研究型问题,主要考察智能体的事实知识、领域推理能力,以及定位和整合相关信息的能力。
- 任务执行基准:评估智能体在长程规划、多模态理解、工具使用和环境交互等方面的综合能力,关注其完成端到端研究任务的表现。
虽然如 Qasper、ELI5 等长文本生成数据集可用于测试智能体的长文本输出连贯性,但由于其自由生成的特点,难以与深度研究智能体所需的结构化、基于证据的报告要求相匹配。因此,亟需专门面向深度研究流程、能够反映多阶段和多模态特征的评测基准,以确保对智能体在自主研究各环节的能力进行严谨、有效的评估。
DR Agent | Base Model | Hotpot | 2Wiki | NQ | TQ | GPQA | Release |
---|---|---|---|---|---|---|---|
Search-o1 | QwQ-32B-preview | 57.3 | 71.4 | 49.7 | 74.1 | 57.9 | Jan-2025 |
Agentic Reasoning | DeepSeek-R1, Qwen2.5 | 67.0 | Feb-2025 | ||||
Grok DeepSearch | Grok3 | 84.6 | Feb-2025 | ||||
AgentRxiv | GPT-4o-mini | 41.0 | Mar-2025 | ||||
R1-Searcher | Qwen2.5-7B-Base | 71.9 | 63.8 | Mar-2025 | |||
ReSearch | Qwen2.5-7B-Base | 30.0 | 29.7 | Mar-2025 | |||
ReSearch | Qwen2.5-7B-Inst | 63.6 | 54.2 | Mar-2025 | |||
ReSearch | Qwen2.5-32B-Base | 64.3 | 45.6 | Mar-2025 | |||
ReSearch | Qwen2.5-32B-Inst | 67.7 | 50.0 | Mar-2025 | |||
Search-R1 | Llama3.2-3B-Base | 30.0 | 29.7 | 43.1 | 61.2 | Mar-2025 | |
Search-R1 | Llama3.2-3B-Inst | 31.4 | 23.3 | 35.7 | 57.8 | Mar-2025 | |
Search-R1 | Qwen2.5-7B-Base | 28.3 | 27.3 | 39.6 | 58.2 | Mar-2025 | |
Search-R1 | Qwen2.5-7B-Inst | 34.5 | 36.9 | 40.9 | 55.2 | Mar-2025 | |
DeepResearcher | Qwen2.5-7B-Inst | 64.3 | 66.6 | 61.9 | 85.0 | Apr-2025 | |
WebThinker | QwQ-32B | 68.7 | Apr-2025 | ||||
SimpleDeepSearch | Qwen2.5-7B-Inst | 68.1 | Apr-2025 | ||||
SimpleDeepSearch | Qwen2.5-32B-Inst | 70.5 | Apr-2025 | ||||
SimpleDeepSearch | DeepSeek-R1-Distill-Qwen-32B | 68.1 | Apr-2025 | ||||
SimpleDeepSearch | QwQ-32B | 73.5 | Apr-2025 | ||||
SWIRL | Gemma-2-27B | 72.0 | Apr-2025 |
说明:加粗表示最佳,_下划线_表示次优,空白表示未公开或未测试。
DR Agent | Base Model | GAIA Level-1 | GAIA Level-2 | GAIA Level-3 | GAIA Ave. | HLE | Release |
---|---|---|---|---|---|---|---|
Test set | |||||||
MMAC-Copilot | GPT-3.5, GPT-4 | 45.16 | 20.75 | 6.12 | 25.91 | Mar-2024 | |
H2O.ai DR | Claude3.7-Sonnet | 89.25 | 79.87 | 61.22 | 79.73 | Mar-2025 | |
Alita | Claude-Sonnet-4, GPT-4o | 92.47 | 71.7 | 55.1 | 75.42 | May-2025 | |
Dev set | |||||||
AutoAgent | Claude-Sonnet-3.5 | 71.7 | 53.5 | 26.9 | 55.2 | Feb-2025 | |
OpenAI DR | GPT-o3-customized | 78.7 | 73.2 | 58.0 | 67.4 | 26.6 | Feb-2025 |
Perplexity DR | Flexible | 21.1 | Feb-2025 | ||||
Manus | Claude3.5, GPT-4o | 86.5 | 70.1 | 57.7 | 71.4 | Mar-2025 | |
OWL | Claude-3.7-Sonnet | 84.9 | 68.6 | 42.3 | 69.7 | Mar-2025 | |
H2O.ai DR | h2ogpt-oasst1-512-12b | 67.92 | 67.44 | 42.31 | 63.64 | Mar-2025 | |
Genspark Super Agent | Claude 3 Opus | 87.8 | 72.7 | 58.8 | 73.1 | Apr-2025 | |
WebThinker | QwQ-32B | 53.8 | 44.2 | 16.7 | 44.7 | 13.0 | Apr-2025 |
SimpleDeepSearch | QwQ-32B | 50.5 | 45.8 | 13.8 | 43.9 | Apr-2025 | |
Alita | Claude-Sonnet-4, GPT-4o | 75.15 | 87.27 | May-2025 |
说明:加粗表示最佳,_下划线_表示次优,空白表示未公开或未测试。
QA基准
Benchmark | Release | Size | Task & Context | Domain | Multi-hop Nums |
---|---|---|---|---|---|
TriviaQA | 2017 | 95k | Single-hop retrieval (Long web/Wiki docs) | Open | 1 |
Natural Questions | 2019 | 307k | Document answer extraction (Full Wikipedia) | Open | 1 |
PopQA | 2023 | 14k | Single-hop parametric recall (None) | Open | 1 |
TELEQnA | 2023 | 10k | Domain factual QA (Telecom standards/articles) | Telecom | 1 |
SimpleQA | 2024 | 4.3k | Single-hop factual recall (None / parametric) | Open | 1 |
HotpotQA | 2018 | 113k | Multi-hop reasoning (2 Wikipedia paragraphs) | Open | 2 |
2WikiMultihopQA | 2020 | 192k | Multi-hop reasoning (Retrieval across Wikipedia) | Open | 2+ |
Bamboogle | 2023 | 125 | Compositional reasoning (Online search) | Open | 2–3 |
Humanity’s Last Exam | 2025 | 2.5k | Expert-level multi-turn (Mixed external sources) | Multi-discipline | 2+ |
QA基准覆盖了从简单事实回忆到多跳推理和研究型问答的不同复杂度。基础类数据集如SimpleQA、TriviaQA和PopQA主要考察模型对单一事实的记忆和检索能力,评估模型能否从记忆或极少上下文中获取简短答案。Natural Questions(NQ)和TELEQnA则增加了难度,需要从长文档或特定领域资料中抽取答案。HotpotQA、2WikiMultihopQA和Bamboogle等数据集强调多跳推理和跨文档证据整合能力。最高难度的Humanity's Last Exam(HLE)则聚焦于专家级、开放领域的科学问题,这些问题通常需要多轮检索、复杂推理,甚至多模态理解。此外,BrowseComp是一个专门考察AI代理定位难以查找信息能力的基准,它保留了简单QA的可验证性,同时过滤掉可被大模型直接检索到的答案,更好地测试了代理的信息检索与综合能力。尽管近期取得了进展,主流DR智能体在HLE和BrowseComp等高难度基准上的表现仍明显落后于人类专家,这也凸显了这两类基准在评估DR智能体时的关键地位和挑战性。
任务执行基准
任务执行基准主要评估智能体在工具使用、环境感知和信息筛选等综合能力。可分为两类:第一类是通用助手类任务,如GAIA、AssistantBench和Magentic-One。这些任务要求智能体在开放式、通常为网页环境中,规划并执行基于工具的工作流(如搜索、浏览、表单填写等)。其中,GAIA已成为最重要的基准之一,提供了多样且贴近真实的任务,这些任务对人类来说简单,但对当前智能体仍极具挑战性。第二类则聚焦于研究和代码相关任务,包括SWE-bench、HumanEvalFix、MLGym、MLE-bench、MLBench、MLAgentBench和ScienceAgentBench等,考察智能体完成机器学习流程、修复真实代码或复现实验的能力。这类任务通常需要长程规划、精准工具调用以及代码生成与验证。此外,RE-Bench和RESEARCHTOWN等基准模拟了多智能体协作的科研环境,评估智能体在多角色科学流程中的协作与迭代能力。
随着DR智能体集成更多交互式工具,未来评测可能会扩展到GUI操作环境。OSWorld、WebArena和SpaBench等基准允许智能体直接控制应用或网页界面,为测试现实场景下的具身研究能力提供了新方向。
挑战与未来方向
尽管深度研究(DR)智能体在自动化多步信息发现与综合方面取得了快速进展,并展现出强大的能力,但仍存在两大核心挑战,决定了未来创新的方向。首先,受限于静态知识库或传统搜索接口,信息获取的广度和深度依然有限。其次,执行流程和系统架构的效率与鲁棒性受制于线性规划范式和单体化设计。解决这些问题,是让DR智能体真正成为自主、适应性强的研究助手,能够应对复杂异构数据环境并实现高吞吐、并行化推理的关键。
拓展信息来源
为满足复杂任务的信息需求,当前DR智能体主要采用静态知识库(如RAG方法)或仅依赖搜索引擎和浏览器。前者信息覆盖有限,后者又受限于公开网页内容,极大限制了信息获取能力。这导致智能体无法访问隐藏在应用、专有接口或专业数据库背后的信息。例如,传统浏览和搜索技术无法进入企业软件、移动应用或订阅制服务(如彭博终端),从而无法获取关键的实时市场情报。
要突破这一限制,必须通过MCP等机制集成更细粒度、更广泛的模块化工具,使智能体能够动态访问标准浏览器或搜索引擎之外的专有应用、数据库或API,从而获取原本无法访问的数据。这样,DR智能体才能提供更精准、自适应、具备上下文感知的交互,满足多样化、复杂的用户需求。
在集成专有API和数据库后,工作流的瓶颈将从数据获取转向网页交互效率。传统以人为中心的浏览器进一步成为限制因素。由于其优化目标是视觉渲染而非程序化控制,导致页面加载缓慢、元素定位易变、反爬虫机制频繁中断自动化会话。这些问题使得DR智能体在大规模数据采集时面临高延迟、不稳定和并行能力受限。
为解决这一瓶颈,研究者开始设计AI原生浏览器,如Browserbase、Browser Use、Dia、Fellou和Perplexity的Comet。这些浏览器为智能体提供了稳定、结构化的DOM视图,支持程序化遍历。它们通过API直接操作元素和表单,避免了脆弱的坐标点击。部分系统采用无头容器异步执行页面,减少加载时间波动,并集成视觉-语言模型自动应对动态页面变化、登录验证和反爬虫挑战。还有的系统支持多标签页并行操作,使DR智能体能够大规模交互私有仪表盘、单页应用和可视化界面。综合来看,这些能力消除了传统浏览器带来的延迟和脆弱性,让智能体能够高效访问新解锁的专有数据源。
事实核查
为进一步提升事实准确性,最新方法在多步检索基础上引入了结构化验证环节和自我反思能力。具体来说,智能体在生成初步答案后不会立即输出,而是主动进行交叉验证:查找独立来源确认同一事实,检索是否存在矛盾证据。例如,Grok DeepSearch采用这种策略,对每个来源进行可信度评级,分层检查一致性,并跨多个来源验证关键结论。这种多源交叉验证大幅降低了单一来源错误,提高了答案可靠性。
同时,智能体开始反思自身推理过程。在推理过程中,像人类研究者一样检查和测试中间结果。例如,智谱的Rumination模型会在得出结论后暂停,继续检索以验证结论是否成立,只有确认无误后才最终输出答案。这种自省通常通过在强化学习中引入面向正确性的奖励来实现。如果模型检测到冲突或不确定性,会重新规划检索策略,必要时回溯修正早期推理。通过结构化验证与自我反思的结合,研究型智能体在事实核查方面达到了前所未有的严谨水平:不仅给出答案,还能解释其可信依据,显著降低了事实错误和幻觉。简言之,现代智能体能够制定检索计划,依据中间证据动态调整查询,必要时回溯补全信息,极大提升了推理的可靠性和透明度。
异步并行执行
为解决当前大多数DR智能体仅依赖线性任务规划(即子任务顺序执行)的问题,可以引入两种方法。这些方法突破了纯线性策略在效率和鲁棒性上的限制,使智能体能够利用并行性并在任务执行过程中动态调整。第一,采用异步并行架构,利用如有向无环图(DAG)等先进任务建模结构,实现子任务的并行执行和动态优先级调整,有效管理任务间复杂依赖关系,并支持如重规划等高级规划能力。第二,训练一个调度智能体,通过强化学习根据运行时性能信号(如执行延迟)分配子任务和调整执行顺序。将调度决策视为RL环境中的动作,智能体可逐步学习出在并行性、资源利用和任务优先级之间平衡的策略,从而实现更高效、鲁棒的端到端研究流程。
工具集成推理
DR智能体发展的核心挑战之一是实现“工具集成推理”(TIR)。TIR不仅要求智能体能够调用合适的工具,还要能根据中间结果动态调整推理路径,实现多步、复杂的推理。传统的有监督微调方法在工具推理任务上泛化能力有限,常出现过度推理或工具选择不当的问题。最新研究表明,结合精细化奖励结构的强化学习框架能显著提升模型的工具推理能力。通过奖励不仅考察最终答案的正确性,还关注工具选择的合理性、参数指定的准确性和推理效率,TIR优化后的智能体在多个基准上性能提升显著,并展现出对新工具和新任务的更强泛化能力、更合理的调用模式,以及更好的自我知识与工具利用平衡。有效实现TIR,是DR智能体迈向真正自主研究助手的关键一步。
基准评测错位
目前大多数公开的DR评测仍以传统QA数据集为主,这些题目多来源于静态语料(如Wikipedia)。由于大量内容已被大模型参数化,现有智能体常常直接“记忆”作答,绕过了真实的研究流程,导致性能虚高。为真正考察检索、推理和工具使用能力,DR领域亟需基于开放网络、具时效性的基准。例如,BrowseComp通过过滤可被模型直接记忆解答的问题,强制智能体在线定位难以查找的信息,是有益的探索。另一个方向是持续更新的排行榜,动态引入最新网络环境和事件,防止模型通过记忆作弊。
除了参数化知识作弊,现有DR研究的评测指标也存在问题:大多将开放式研究流程简化为QA或简单GUI操作,忽视了DR的核心产出——结构化、多模态的研究报告(包含文本、表格、图像和引用)。这些基准主要关注信息检索、抽取和工具调用,难以评估证据聚合、跨模态综合和篇章级组织等高级能力。因此,未来亟需开发能覆盖端到端报告生成、长文本叙述、表格与图像整合及多模态一致性的综合基准,从事实准确性、篇章结构和跨模态对齐等多维度全面评估DR智能体。
多智能体架构的参数化优化
OpenAI 等的端到端强化学习(RL)已被证明能显著提升主干模型在深度研究(DR)任务中的推理能力,多个开源项目也已复现了这一结果。但目前主流实现多为单智能体架构,要求主干模型同时承担规划、工具调用和报告生成等多重任务,导致模型负担过重,效率和鲁棒性下降。将任务分配给多个专用智能体已在系统性能上带来提升,但如何实现高效的端到端训练和多智能体间的高效协作,仍是关键挑战。
针对DR任务的多智能体架构优化,未来有两大方向值得关注:(1)采用分层强化学习(HRL),通过引入分层内部奖励机制,实现高效的反馈传递和智能体间的协同学习;或设计多阶段后训练优化流程,针对DR任务分阶段细化智能体间的交互,提升系统稳定性和适应性;(2)引入基于RL的专用调度智能体,根据实时性能指标动态分配子任务和调整执行顺序。将调度决策建模为RL环境中的动作,智能体可逐步学习出最优的并行执行、资源利用和任务优先级策略,从而提升端到端研究流程的鲁棒性和效率。
语言模型智能体的自进化
目前,DR智能体的自进化方法刚刚起步,典型如 AgentRxiv 这类模拟协作平台,支持结构化研究经验的在线共享与复用,但整体仍局限于案例推理(CBR)范式。类似地,CycleResearcher 通过迭代偏好学习和强健的验证器,实现了完整的研究-评估-优化流程模拟,代表了向全自动科学研究迈进的重要一步,与 AlphaEvolve 等自进化理念相似。
要充分释放自进化在DR智能体中的潜力,未来研究应从两个互补方向拓展:(1)完善案例推理框架。CBR方法可利用分层经验轨迹(如规划路径、工具调用日志),结合先进的检索与选择机制,实现细粒度、上下文相关的自适应能力;(2)自主工作流进化。将智能体的工作流表示为可变的树或图结构,结合进化算法或自适应图优化,实现执行计划的动态探索、修改和优化。两者结合将极大提升系统的鲁棒性,降低对数据和算力的依赖。
结论
基于大语言模型的深度研究智能体,正成为自动化研究支持的新范式,集成了迭代信息检索、长文本生成、自主规划和复杂工具调用等先进技术。本文系统梳理了DR智能体的最新进展,从信息检索和报告生成的角度,将现有方法分为基于Prompt、微调和强化学习三类。非参数方法通过精心设计的Prompt和LLM实现高效、低成本的部署,适合快速原型开发;而微调和强化学习则通过显式优化模型参数,显著增强了智能体的推理和决策能力。我们还回顾了业界主流DR系统的技术实现、优势与不足。
局限性
尽管取得了显著进展,DR智能体仍面临诸多挑战,包括跨任务泛化能力有限、任务流程不够灵活、外部工具集成粒度不足,以及高级规划与优化带来的高计算复杂度。未来研究应重点关注:通过模块化能力提供者(如Operator架构)实现更广泛灵活的工具集成;发展异步并行的规划框架(如DAG结构);以及针对多智能体架构的高级端到端优化方法(如分层强化学习或多阶段微调)。随着LLM技术的持续进步,DR智能体有望彻底变革复杂研究流程,提升人类生产力,推动学术与产业创新。