从“回答者”进化为“研究员”：全面解析 Deep Research

1、背景

在 AI 问世的两年里，我们习惯了把它当作一个超级百科全书：如果你问它一个事实，它会给出答案；如果你给它一段文字，它会帮你总结。然而，当我们面对“分析某行业未来五年的趋势”或“撰写一份详尽的技术竞品调研报告”这样复杂的任务时，传统的 LLM 往往显得力不从心——它们缺乏深度，容易产生幻觉，且受限于上下文长度。

Deep Research正是为了解决这一痛点而生。它不再是一个简单的聊天机器人，而是具备自主推理能力的“AI 研究员”。

我将会在下面的内容中深入剖析 Deep Research 的运行机制、其背后的工程挑战以及它如何通过“ReAct 范式”重塑信息获取的方式。

2、什么是 Deep Research

Deep Research 是专为网页浏览、数据分析和复杂任务处理而优化的全新功能。与普通 LLM “问什么答什么”的被动模式不同，Deep Research 具备主动规划和深度推理的能力。

它的核心特征可以概括为：

1.自主性（Autonomy）：它可以一边思考，一边“查资料”。它不仅是检索信息，还能自主判断信息是否足够，如果不足，它会主动调整搜索关键词再次检索。

2.长链条推理（Long-chain Reasoning）：基于 LLM的推理能力，它能将一个模糊的庞大需求拆解为多个子步骤，分阶段执行。

3.专业报告生成：最终输出的不是零散的对话，而是包含逻辑摘要、清晰引用来源和完整文档的专业级研究报告。

为什么我们需要它？ 当前的信息需求往往需要跨越多个来源、阅读大量非结构化数据。Deep Research 实际上降低了“海量信息收集”与“高质量推理整合”之间的壁垒，尤其擅长挖掘那些需要浏览数十个网页才能拼凑出的小众或非直观信息。

3、核心原理：从 DeepSearch 到 DeepResearch

要理解 Deep Research，通过两个层级来看：底层的搜索循环（DeepSearch）和上层的报告框架（DeepResearch）。

3.1 核心引擎：DeepSearch（循环与迭代）

DeepSearch 的本质是一个“搜索 - 阅读 - 推理”的无限循环。这与我们熟悉的 ReAct Agent 范式高度相似，但通过强化学习（RL）不仅学会了推理，更学会了“搜索策略”：

•搜索（Search）：探索互联网，获取原始信息。

•阅读（Read）：对特定网页进行详尽分析，提取关键片段。

•推理（Think）：这是最关键的一步。模型会评估当前收集到的信息是否足以回答问题。如果不够，它会决定是将问题拆解为更小的子问题，还是尝试全新的搜索关键词。

这种 <think> → <search> → <information> → <think> → <answer> 的模式，让 AI 具备了“自我纠错”和“追根究底”的能力。

3.2 上层框架：DeepResearch（结构化输出）

DeepSearch 负责找答案，而 DeepResearch 负责写报告。它在 DeepSearch 的基础上增加了一个结构化框架：

1.用户意图理解 & 目录生成（TOC）：接收指令后，首先生成报告目录（如引言、方法论、相关工作、结论）。

2.分章节执行：系统性地将 DeepSearch 引擎应用到报告的每一个章节中。每个章节都是一个独立的研究任务。

3.全局整合：最后将所有章节内容整合，进行连贯性润色，生成最终报告。

整个执行过程通常耗时 5 到 30 分钟，这在以前的即时问答中是不可想象的，但对于深度研究来说，却是极高的效率。

让 LLM 在自身推理过程中与搜索引擎交替交互。用户输入query，LLM产生TOC，然后进入循环：查找、读取和推理，直到达到结束的条件，然后再通过LLM做总结，最终给用户输出完整的研究报告（<think> → <search> → <information> → <think> → <answer> ）的模式，已经非常接近我们熟悉的 ReAct Agent 范式。不同的是，这里的 Agent 不依赖提示词，而是通过 RL 真正“学会了”搜索策略。实质上就是一个 “带搜索能力的 ReAct Agent”，只不过不再依赖提示词工程，而是直接通过强化学习学会何时搜索、何时推理。注意，它是主动认知到何时需要检索信息，这是一个非常显著的特点和不同。

4、工程化挑战与解决方案

Deep Research 之所以能超越普通的 RAG（检索增强生成），在于它解决了一系列棘手的工程问题。通过对技术细节的复盘，我们可以了解到其背后的技术实现。

4.1 解决“垃圾进，垃圾出”：URL 排序与清洗

4.1.1 问题

Deep Research 在一次任务中可能扫描数百个 URL。如果把这些内容一股脑塞给 LLM，不仅浪费 Token，还会导致模型“瞎选”答案。在每一次 DeepReSearch 漫长过程中，你可能会从搜索引擎结果页（SERP）里收集一堆 URL，每打开一个网页，又能顺藤摸瓜找出不少新链接，就算是去重后，也是轻轻松松几百个网址。同样的，一股脑儿全塞给 LLM 肯定不行，浪费宝贵的上下文长度不说，更要命的是，我们发现 LLM 基本上就是瞎选。所以，得想办法引导 LLM 去挑出那些最有可能包含答案的 URL。

4.1.2 解决方案：两阶段重排序（Re-ranking）

URL 排序打分评测是 Deep Research 系统中的关键技术环节，它直接影响到信息获取的效率和质量。系统采用了多层次、多维度的排序策略，确保能够从海量的搜索结果中快速定位最有价值的信息源。

综合评分机制是 URL 排序的核心。系统会综合考虑多个因素：最后更新时间、域名出现的频率、网页路径结构，以及最重要的与问题的语义相关性，算出一个综合评分。这种多维度的评分机制能够全面评估 URL 的价值，避免了单一维度排序的局限性。

具体的评分因素包括：

1.频率信号：如果某个 URL 在不同的信息源中多次出现，它的权重就会更高。另外，如果某个域名在搜索结果中经常出现，来自这个域名的 URL 也会被加分。因为一般来说，热门域名往往包含更权威的内容。

2.路径结构：会分析 URL 的路径结构，来判断哪些内容是聚集在一起的。如果多个网址都属于同一个路径层级，它们的分数会更高；但路径越深，分数加成会逐渐减少。

3.语义相关性：使用小模型（例如：jina-reranker-v2-base-multilingual）或者大模型来评估问题和每个 URL 的文本信息（例如标题和摘要）的语义相关性，这是一个典型的重排序问题。每个 URL 的文本信息来自搜索引擎结果页（SERP）API 返回的标题和摘要，以及页面上 URL 的锚文本。

4.最后更新时间：有些查询对时效性要求很高，所以一般来说，越新的 URL 价值越高。系统采用一套组合拳，综合考虑 SERP API 提供的筛选功能、HTTP Header 信息分析、元数据提取、内容模式识别等，最终给出一个带有置信度评分的时间戳。

5.受限内容识别：某些社交媒体平台的内容是受限的，或者需要付费才能访问。系统会积极维护一份黑名单，把这些有问题的 URL 和域名都记录下来，降低它们的排名，避免在这些无法访问的内容上浪费计算资源。

6.域名多样性：为了提高结果的多样性，避免陷入 "局部最优"，系统采用 "探索 - 利用" 的策略：从每个域名下选择排名 Top K 的 URL。

粗排和精排：

•粗排：快速筛选，追求召回率。

•精排：针对粗排结果进行深度评估。这里通常采用基于重排模型（Cross-Encoder）或基于 LLM 的重排序。利用 LLM 的语义理解能力，甚至使用滑动窗口算法（从后向前滑动），对候选段落进行相关性打分，确保只有含金量最高的信息进入下一步。

粗排检索效率较快，但是召回的内容并不一定强相关。而精排效率较低，因此适合在粗排的基础上进行进一步优化。重排的任务就是评估这些上下文的相关性，优先考虑那些最有可能提供准确和相关信息的内容。

重排方法主要分为以下两类：

基于重排模型：这些模型可以输出文档与查询之间的相关性；够针对一个查询和文档对，输出它们的相似度分数。我们利用这个分数对文档按照与查询的相关性进行重新排序。解决传统检索方法（如BM25、向量检索）的局限性，例如语义模糊性、长尾关键词漏检、多模态意图理解不足等问题。优化检索结果的Top-K排序，提升后续LLM生成答案的准确性和效率

基于 LLM：由于大模型可以更全面地捕捉语义信息，也可被用于重排序。使用 Prompt 的方式引导 LLM 进行重排序。直接利用 LLM 的语义理解能力对所有候选段落进行相关性程度排名。如果文档的数量通常非常大，而 LLM 可能无法一次性处理所有的文本数据。使用滑动窗口算法原理，滑顺序是从后向前的，将前一个窗口中的前两个段落参与下一个窗口的重排序。

4.2 解决“大海捞针”与“上下文丢失”：长网页内容提取

4.2.1 问题

读取网页内容后，我们需要把它作为一条知识，放到 Agent 的上下文里，供它推理。虽然把全部内容一股脑塞进 LLM 的上下文是最省事的办法，但考虑到 Token 成本和生成速度，这肯定不是最好的选择。在实际应用里，我们需要找出内容中与问题最相关的部分，只把这些部分作为知识添加到 Agent 的上下文里。

我们一边是问题（原始查询或“信息差”问题），另一边是大量的 Markdown 内容，其中大部分内容都是无关紧要的。我们需要选出与问题最相关的片段。

有限数量文档中的有限数量的文本块：假设每个块大约有 500 个 Token，那么一个典型的长网页文档大约有 20 万 Token（中位数）到 100 万 Token。我们每一步抓取 4-5 个 URL，这样大概会产生几百个文本块。也就是说，几百个向量和几百个余弦相似度。在内存里就能轻松处理，根本不需要向量数据库。

我们需要连续的文本块来形成有效的知识摘要：我们不能接受由分散的句子组成的摘要。更有用的知识摘要，更能保持文本的连贯性。这样 LLM 更容易从知识源中复制和引用，也能减少“幻觉”。

网页内容动辄数万 Token，且充满噪音。如何提取有效信息且保持上下文连贯？

4.2.2 解决方案：迟分算法（Late Chunking）

传统的 RAG 会直接把文档切块（Chunking）然后向量化，但这会导致切块丢失全局上下文（例如一个代词“它”在切块后不知道指代谁）。

•Late Chunking（迟分）： 这是一个极其精妙的优化。它不急着切块，而是先用支持超长上下文的模型（如 jina-embeddings-v3）对整个文档进行编码，保留全局语义。

长文档切块，有俩个问题，第一个问题是：文本块分割得准不准，这不仅关系到搜索结果好不好读，还关系到做 RAG 的时候，给 LLM 喂进去的文本块是不是正好，不多不少；第二个问题是：每个分块里的上下文信息容易丢失。文档切完之后，下一步就是把每个分块拿去批量向量化。但这么做容易把原文档里的全局上下文信息给丢了。

迟分（Late Chunking）主要就是解决第二个问题 —— 上下文丢失。它不是用来找最佳断点或者语义边界的。该用正则表达式，启发式方法，或者其他技术来分块，还是得用。

但迟分不一样的地方是，它不是一切完就立马把每个块拿去向量化，而是先把整个文档在一个上下文窗口里编码了（jina-embeddings-v3最新 SOTA 向量模型，支持 8192 Token 的长输入），然后再根据边界线索去进行均值池化操作。

它的工作原理类似于一维卷积（Conv1D）。这个过程首先把一个长文档分割成固定长度的块，然后用开启了迟分的 jina-embeddings-v3 向量化这些文本块。计算完每个块和问题之间的相似度分数后，一个滑动窗口会在这些相似度分数上移动，以找到平均值最高的窗口。

用迟分和类似“一维卷积”的平均池化，挑出跟问题最相关的段落。

•均值池化： 在生成向量后，再根据边界线索进行切分和均值池化。这就像是先读完一整本书理解了全意，再回过头去摘录段落，而不是每读一段就摘录一段。这样提取出的“知识块”既精准又保留了上下文，极大减少了 LLM 的幻觉。

4.3 解决“写不长”：突破 Token 输出限制

4.3.1 问题

上下文窗口的根本性限制：大部分模型，例如：DeepSeek-V3，单次输出通常限制在 8K Token（约 8000 字）以内，难以一次性生成数万字的详尽报告。（可能有人会提出好多模型输出几万字或者几十万字，例如GPT-5和Claude Opus等，但是又会出现下面"上下文腐烂" 现象的问题）。

"上下文腐烂" 现象：当智能体开始频繁调用多次工具，每次调用返回的 "观察结果" 都会追加到对话历史中，导致上下文长度爆炸式增长。这不仅带来高昂的计算成本，更会导致 "上下文腐烂" (Context Rot)—— 随着上下文变长，模型性能反而下降。

具体表现为：

1.性能下降：随着上下文长度增加，模型性能会明显下降。Anthropic 把这个现象称为 "上下文腐烂"（context rot）。具体表现是模型开始重复输出、推理速度变慢、回答质量下降。

2.注意力分散：Agent 的上下文随时间推移必然熵增，导致注意力机制分散。

3.信息利用效率降低：研究发现，当相关信息位于长输入上下文的开头或结尾时，模型的性能表现最佳，而当信息被放置在中间位置时，性能会显著下降。此外，在长上下文任务中，模型有时会倾向于直接依赖其预训练的参数知识来回答问题，而不是有效利用所提供的外部长文本，这进一步加剧了性能的下降。

4.3.2 解决方案：双层级 Agent 架构（Planner + Workers）

Deep Research 实际上采用了一种“规划-执行”的分离架构：

•规划 Agent (Planner)：它是“包工头”。负责理解任务，生成详细的 JSON 格式大纲，并分配每个章节的字数预算。

•执行 Agent 集群 (Workers)：它是“建筑工”。多个 Agent 并行工作，每个 Agent 认领一个章节的标题，独立去搜索、阅读和写作。

•聚合器：最后由一个模块像拼积木一样将各章节拼接，并进行逻辑顺滑和长度控制。

双层架构的核心设计包括：

1.监督者层级：作为系统的 "大脑"，负责将模糊需求转化为可执行计划。在 prompts.py 中定义的结构化提示模板指导规划器完成三项核心任务：需求澄清（通过 clarify_with_user 节点实现）、子主题分解（最大支持 5 个并行子任务）、以及资源分配（根据主题复杂度选择模型与工具）。

2.执行者层级：负责具体的信息检索、内容提取和初步分析工作。执行者层级包含多个专门的 Agent，如搜索 Agent、阅读 Agent、分析 Agent 等，每个 Agent 负责特定的任务。

3.状态机控制：基于 LangGraph 构建的状态机实现了复杂流程的精确控制。状态机能够跟踪研究过程的每个步骤，确保任务执行的有序性和完整性。

上下文管理的创新方案：

为了缓解上下文腐烂问题，系统采用了多种上下文管理策略：

1.上下文卸载技术：系统采用 "上下文卸载"来缓解上下文污染，这能帮 agent 保持在正确轨道上。上下文卸载就是把信息存在语言模型的 "活跃上下文窗口" 之外。把关键信息卸载出去，只在需要时检索，我们就避免了模型工作内存的 "过载"。

2.分级存储架构：在于引入分级存储架构。通过将信息按照重要性和使用频率进行分级存储，系统能够在有限的上下文中保留最重要的信息，同时在需要时快速检索其他信息。

3.智能剪枝策略：系统采用上下文剪枝技术。这个技巧是在 RAG 的基础上做的优化。它的核心是在将检索到的信息交给主模型之前，先进行一次 "剪枝"。具体做法是：先检索出相关文档，然后使用一个更小、更快的模型，让它读一遍这些文档，这个小模型的任务是，根据用户的原始问题，只从文档中提取最核心、最相关的信息。

长文档处理的技术突破：

1.分段处理策略：系统将长文档分成多个段落或章节，每个部分独立处理，然后通过监督者层级进行整合。这种方法避免了一次性处理整个长文档带来的上下文限制问题。

2.增量生成机制：系统采用增量生成的方式处理长篇报告。监督者层级负责制定整体结构和各部分的生成顺序，执行者层级按照顺序逐步生成各部分内容。这种方式不仅避免了输出长度限制，还提高了生成内容的连贯性。

3.智能整合算法：在各部分内容生成后，监督者层级会对内容进行智能整合。这包括检查逻辑一致性、消除重复内容、优化章节顺序等，确保最终报告的质量。

4.4 生成内容打分

Deep Research 在生成内容的质量控制方面采用了多层次、多维度的评分和优化机制，确保最终输出的内容既准确又有价值。

自适应评估框架是内容评分的基础。包括两个互补的评估框架来评估 DRA 能力：RACE（基于参考的自适应标准驱动评估框架，具有动态加权）用于评估生成研究报告的质量，FACT（事实丰富性和引用可信度框架）用于评估信息检索有效性和引用准确性。

RACE 框架的核心特点包括：

1.动态权重分配：对于每个任务，评判 LLM 通过多次试验获得每个维度的权重，并取平均值作为最终权重，确保评估与任务意图一致。所有维度的生成标准被聚合到一个综合列表中，评判 LLM 然后根据每个标准分析目标报告和参考报告，为两份报告生成每个标准的分数列表，用于最终得分计算。

2.多维度评估：框架首先基于领域知识确立四个顶层评测维度：全面性（COMP）、洞察力 / 深度（DEPTH）、指令遵循（INST）和可读性（READ）。对于每个具体任务，评判 LLM 会动态计算各维度的权重，并为每个维度生成一组定制化的评测标准。

3.自适应逐点质量评估：评估模块包含自适应逐点质量评估和主动事实核查两大核心组件，既解决了 "判分死板" 的问题，又实现了 "全面查错" 的目标。自适应逐点质量评估打破了固定维度的限制，为每个任务量身定制评分标准。该组件首先保留 4 个通用评估维度，同时针对每个具体任务自动生成 1-3 个专属评估维度。

主动事实核查机制确保了内容的准确性。系统不会只傻傻地检查报告里标出来的引用来源，而是会像一个侦探一样主动去网上搜索交叉验证报告里的每一个说法，不管你有没有给出处，这就保证了评分的绝对严格。

这种机制的实现包括：

1.自动识别关键陈述：系统会自动识别报告中的关键陈述和数据，包括事实性描述、数值数据、因果关系等。

2.多源交叉验证：对于每个关键陈述，系统会从多个独立来源进行验证，确保其准确性。

3.置信度评估：系统会为每个验证结果给出置信度评分，高置信度的内容会被保留，低置信度的内容会被标记为需要进一步核实。

内容修改与优化策略：基于评分结果，系统会采用多种策略对内容进行修改和优化：

1.基于评分的自动修正：当系统发现内容存在事实错误或逻辑问题时，会自动进行修正。这种修正不是简单的替换，而是基于多个可靠来源的信息进行综合判断。

2.人工干预机制：对于复杂的问题或存在争议的内容，系统会提示用户进行人工干预，确保最终内容的准确性和客观性。

3.风格一致性优化：系统会检查整篇报告的语言风格、术语使用、格式规范等，确保全文的一致性和专业性。

4.结构优化：根据内容的逻辑关系，系统会对报告的结构进行优化，确保章节安排合理、层次分明。

5、 Deep Research vs Manus

Manus 更像是一个高度工程化的 Agent 平台，它整合了大量工具（浏览器、代码解释器等），强在“调度”。而 Deep Research 是模型层面和架构层面的进化，它通过强化学习或者架构优化让模型了解“如何搜索”和“如何推理”的策略，是一种更原生和自主的智能。所以Deep Research可以进行撰写文献综述、市场与竞品分析、行业研报、投融资研报、市场调研、新闻热点追踪、生活决策等，也可以在检索时沉淀有用信息。

6、总结

Deep Research是我在25年年中接触的，当时感觉就很惊艳，感觉正在跨越到一个新的门槛：从信息的搬运工，变成了信息的加工者。它不再需要用户费尽心思想 Prompt，也不需要用户去点击一个个的链接。它展示了 AI 作为一个“思考者”的潜力——它知道自己不知道什么，并且知道去哪里找到答案。对于使用者而言，这意味着我们可以将最耗时的“信息收集与整理”阶段外包给 AI，从而专注于更高维度的决策与创新。

后面会继续写我怎么在真实业务中利用DeepResearch的能力，最后祝大家早安、午安、晚安。

posted @ 2026-02-04 14:32 京东云开发者阅读(4) 评论(0) 收藏举报

刷新页面返回顶部