从“回答者”进化为“研究员”:全面解析 Deep Research
1、背景
在 AI 问世的两年里,我们习惯了把它当作一个超级百科全书:如果你问它一个事实,它会给出答案;如果你给它一段文字,它会帮你总结。然而,当我们面对“分析某行业未来五年的趋势”或“撰写一份详尽的技术竞品调研报告”这样复杂的任务时,传统的 LLM 往往显得力不从心——它们缺乏深度,容易产生幻觉,且受限于上下文长度。
Deep Research正是为了解决这一痛点而生。它不再是一个简单的聊天机器人,而是具备自主推理能力的“AI 研究员”。
我将会在下面的内容中深入剖析 Deep Research 的运行机制、其背后的工程挑战以及它如何通过“ReAct 范式”重塑信息获取的方式。
2、什么是 Deep Research
Deep Research 是 专为网页浏览、数据分析和复杂任务处理而优化的全新功能。与普通 LLM “问什么答什么”的被动模式不同,Deep Research 具备主动规划和深度推理的能力。
它的核心特征可以概括为:
为什么我们需要它? 当前的信息需求往往需要跨越多个来源、阅读大量非结构化数据。Deep Research 实际上降低了“海量信息收集”与“高质量推理整合”之间的壁垒,尤其擅长挖掘那些需要浏览数十个网页才能拼凑出的小众或非直观信息。
3、核心原理:从 DeepSearch 到 DeepResearch
要理解 Deep Research,通过两个层级来看:底层的搜索循环(DeepSearch)和上层的报告框架(DeepResearch)。
3.1 核心引擎:DeepSearch(循环与迭代)
DeepSearch 的本质是一个“搜索 - 阅读 - 推理”的无限循环。这与我们熟悉的 ReAct Agent 范式高度相似,但通过强化学习(RL)不仅学会了推理,更学会了“搜索策略”:
这种 <think> → <search> → <information> → <think> → <answer> 的模式,让 AI 具备了“自我纠错”和“追根究底”的能力。

3.2 上层框架:DeepResearch(结构化输出)
DeepSearch 负责找答案,而 DeepResearch 负责写报告。它在 DeepSearch 的基础上增加了一个结构化框架:
整个执行过程通常耗时 5 到 30 分钟,这在以前的即时问答中是不可想象的,但对于深度研究来说,却是极高的效率。

让 LLM 在自身推理过程中与搜索引擎交替交互。用户输入query,LLM产生TOC,然后进入循环:查找、读取和推理,直到达到结束的条件,然后再通过LLM做总结,最终给用户输出完整的研究报告(<think> → <search> → <information> → <think> → <answer> )的模式,已经非常接近我们熟悉的 ReAct Agent 范式。不同的是,这里的 Agent 不依赖提示词,而是通过 RL 真正“学会了”搜索策略。实质上就是一个 “带搜索能力的 ReAct Agent”,只不过不再依赖提示词工程,而是直接通过强化学习学会何时搜索、何时推理。注意,它是主动认知到何时需要检索信息,这是一个非常显著的特点和不同。
4、 工程化挑战与解决方案

Deep Research 之所以能超越普通的 RAG(检索增强生成),在于它解决了一系列棘手的工程问题。通过对技术细节的复盘,我们可以了解到其背后的技术实现。
4.1 解决“垃圾进,垃圾出”:URL 排序与清洗
4.1.1 问题
Deep Research 在一次任务中可能扫描数百个 URL。如果把这些内容一股脑塞给 LLM,不仅浪费 Token,还会导致模型“瞎选”答案。在每一次 DeepReSearch 漫长过程中,你可能会从搜索引擎结果页(SERP)里收集一堆 URL,每打开一个网页,又能顺藤摸瓜找出不少新链接,就算是去重后,也是轻轻松松几百个网址。同样的,一股脑儿全塞给 LLM 肯定不行,浪费宝贵的上下文长度不说,更要命的是,我们发现 LLM 基本上就是瞎选。所以,得想办法引导 LLM 去挑出那些最有可能包含答案的 URL。
4.1.2 解决方案:两阶段重排序(Re-ranking)
URL 排序打分评测是 Deep Research 系统中的关键技术环节,它直接影响到信息获取的效率和质量。系统采用了多层次、多维度的排序策略,确保能够从海量的搜索结果中快速定位最有价值的信息源。
综合评分机制是 URL 排序的核心。系统会综合考虑多个因素:最后更新时间、域名出现的频率、网页路径结构,以及最重要的与问题的语义相关性,算出一个综合评分。这种多维度的评分机制能够全面评估 URL 的价值,避免了单一维度排序的局限性。
具体的评分因素包括:
粗排和精排:
粗排检索效率较快,但是召回的内容并不一定强相关。而精排效率较低,因此适合在粗排的基础上进行进一步优化。重排的任务就是评估这些上下文的相关性,优先考虑那些最有可能提供准确和相关信息的内容。
重排方法主要分为以下两类:
基于重排模型:这些模型可以输出文档与查询之间的相关性;够针对一个查询和文档对,输出它们的相似度分数。我们利用这个分数对文档按照与查询的相关性进行重新排序。解决传统检索方法(如BM25、向量检索)的局限性,例如语义模糊性、长尾关键词漏检、多模态意图理解不足等问题。优化检索结果的Top-K排序,提升后续LLM生成答案的准确性和效率
基于 LLM:由于大模型可以更全面地捕捉语义信息,也可被用于重排序。使用 Prompt 的方式引导 LLM 进行重排序。直接利用 LLM 的语义理解能力对所有候选段落进行相关性程度排名。如果文档的数量通常非常大,而 LLM 可能无法一次性处理所有的文本数据。使用滑动窗口算法原理,滑顺序是从后向前的,将前一个窗口中的前两个段落参与下一个窗口的重排序。
4.2 解决“大海捞针”与“上下文丢失”:长网页内容提取
4.2.1 问题
读取网页内容后,我们需要把它作为一条知识,放到 Agent 的上下文里,供它推理。虽然把全部内容一股脑塞进 LLM 的上下文是最省事的办法,但考虑到 Token 成本和生成速度,这肯定不是最好的选择。在实际应用里,我们需要找出内容中与问题最相关的部分,只把这些部分作为知识添加到 Agent 的上下文里。
我们一边是问题(原始查询或“信息差”问题),另一边是大量的 Markdown 内容,其中大部分内容都是无关紧要的。我们需要选出与问题最相关的片段。
有限数量文档中的有限数量的文本块:假设每个块大约有 500 个 Token,那么一个典型的长网页文档大约有 20 万 Token(中位数)到 100 万 Token。我们每一步抓取 4-5 个 URL,这样大概会产生几百个文本块。也就是说,几百个向量和几百个余弦相似度。在内存里就能轻松处理,根本不需要向量数据库。
我们需要连续的文本块来形成有效的知识摘要:我们不能接受由分散的句子组成的摘要。更有用的知识摘要,更能保持文本的连贯性。这样 LLM 更容易从知识源中复制和引用,也能减少“幻觉”。
网页内容动辄数万 Token,且充满噪音。如何提取有效信息且保持上下文连贯?
4.2.2 解决方案:迟分算法(Late Chunking)
传统的 RAG 会直接把文档切块(Chunking)然后向量化,但这会导致切块丢失全局上下文(例如一个代词“它”在切块后不知道指代谁)。
长文档切块,有俩个问题,第一个问题是:文本块分割得准不准,这不仅关系到搜索结果好不好读,还关系到做 RAG 的时候,给 LLM 喂进去的文本块是不是正好,不多不少;第二个问题是:每个分块里的上下文信息容易丢失。文档切完之后,下一步就是把每个分块拿去批量向量化。但这么做容易把原文档里的全局上下文信息给丢了。
迟分(Late Chunking)主要就是解决第二个问题 —— 上下文丢失。它不是用来找最佳断点或者语义边界的。该用正则表达式,启发式方法,或者其他技术来分块,还是得用。
但迟分不一样的地方是,它不是一切完就立马把每个块拿去向量化,而是先把整个文档在一个上下文窗口里编码了(jina-embeddings-v3最新 SOTA 向量模型,支持 8192 Token 的长输入),然后再根据边界线索去进行均值池化操作。
它的工作原理类似于一维卷积(Conv1D)。这个过程首先把一个长文档分割成固定长度的块,然后用开启了迟分的 jina-embeddings-v3 向量化这些文本块。计算完每个块和问题之间的相似度分数后,一个滑动窗口会在这些相似度分数上移动,以找到平均值最高的窗口。
用迟分和类似“一维卷积”的平均池化,挑出跟问题最相关的段落。
4.3 解决“写不长”:突破 Token 输出限制
4.3.1 问题
上下文窗口的根本性限制:大部分模型,例如:DeepSeek-V3,单次输出通常限制在 8K Token(约 8000 字)以内,难以一次性生成数万字的详尽报告。(可能有人会提出好多模型输出几万字或者几十万字,例如GPT-5和Claude Opus等,但是又会出现下面"上下文腐烂" 现象的问题)。
"上下文腐烂" 现象:当智能体开始频繁调用多次工具,每次调用返回的 "观察结果" 都会追加到对话历史中,导致上下文长度爆炸式增长。这不仅带来高昂的计算成本,更会导致 "上下文腐烂" (Context Rot)—— 随着上下文变长,模型性能反而下降。
具体表现为:
4.3.2 解决方案:双层级 Agent 架构(Planner + Workers)
Deep Research 实际上采用了一种“规划-执行”的分离架构:

双层架构的核心设计包括:
上下文管理的创新方案:
为了缓解上下文腐烂问题,系统采用了多种上下文管理策略:
长文档处理的技术突破:
4.4 生成内容打分
Deep Research 在生成内容的质量控制方面采用了多层次、多维度的评分和优化机制,确保最终输出的内容既准确又有价值。
自适应评估框架是内容评分的基础。包括两个互补的评估框架来评估 DRA 能力:RACE(基于参考的自适应标准驱动评估框架,具有动态加权)用于评估生成研究报告的质量,FACT(事实丰富性和引用可信度框架)用于评估信息检索有效性和引用准确性。
RACE 框架的核心特点包括:
主动事实核查机制确保了内容的准确性。系统不会只傻傻地检查报告里标出来的引用来源,而是会像一个侦探一样主动去网上搜索交叉验证报告里的每一个说法,不管你有没有给出处,这就保证了评分的绝对严格。
这种机制的实现包括:
内容修改与优化策略:基于评分结果,系统会采用多种策略对内容进行修改和优化:
5、 Deep Research vs Manus
Manus 更像是一个高度工程化的 Agent 平台,它整合了大量工具(浏览器、代码解释器等),强在“调度”。而 Deep Research 是模型层面和架构层面的进化,它通过强化学习或者架构优化让模型了解“如何搜索”和“如何推理”的策略,是一种更原生和自主的智能。所以Deep Research可以进行撰写文献综述、市场与竞品分析、行业研报、投融资研报、市场调研、新闻热点追踪、生活决策等,也可以在检索时沉淀有用信息。
6、总结
Deep Research是我在25年年中接触的,当时感觉就很惊艳,感觉正在跨越到一个新的门槛:从信息的搬运工,变成了信息的加工者。它不再需要用户费尽心思想 Prompt,也不需要用户去点击一个个的链接。它展示了 AI 作为一个“思考者”的潜力——它知道自己不知道什么,并且知道去哪里找到答案。对于使用者而言,这意味着我们可以将最耗时的“信息收集与整理”阶段外包给 AI,从而专注于更高维度的决策与创新。
后面会继续写我怎么在真实业务中利用DeepResearch的能力,最后祝大家早安、午安、晚安。
浙公网安备 33010602011771号