DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

1. 一段话总结


为填补深度研究智能体(DRA)评估的空白,研究团队提出DeepResearch Bench基准,包含 100 个博士级研究任务(覆盖 22 个领域,50 中文 + 50 英文),基于 96,147 条真实用户查询统计设计;同时提出RACE(参考驱动的自适应标准评估框架)和FACT(事实丰富度与引用可信度评估框架)两大评估方法,分别用于评估报告质量(从全面性、深度、指令遵循度、可读性 4 维度动态加权)和信息检索能力(计算引用准确率与平均有效引用数)。实验显示,Gemini-2.5-Pro Deep Research在 RACE 整体得分(48.88)和 FACT 有效引用数(111.21)上表现最优,且 RACE 与人类判断一致性高( pairwise agreement rate 达 71.33%,超人类专家间一致性),目前该基准已开源(https://github.com/Ayanami0730/deep_research_bench)。


2. 思维导图(mindmap)

image


3. 详细总结

一、研究背景与核心目标

  1. 行业痛点

    • 深度研究智能体(DRA)可将数小时人工研究压缩至分钟级,但缺乏专门评估基准:现有框架仅测单一能力(如网页浏览、生成能力),无法覆盖 DRA “检索 - 分析 - 报告” 全流程。
    • 复杂研究报告评估难度高:无明确 “标准答案”,且内部推理 / 检索过程不透明,仅能通过最终报告判断性能。
  2. 研究目标

    • 构建反映真实需求的 DRA 评估基准(DeepResearch Bench)。
    • 设计与人类判断高度对齐的评估方法,分别评估报告质量与信息检索能力。

二、DeepResearch Bench 基准设计

  1. 数据来源与任务筛选

    • 初始数据:收集 96,147 条带网页搜索功能的 LLM 聊天机器人用户查询,匿名化处理后,用 DeepSeek-V3-0324 筛选出 44,019 条符合 “深度研究任务” 定义的查询(需多轮检索、分析、生成报告)。
    • 领域分类:参考 WebOrganizer taxonomy,将 44,019 条任务归为 22 个领域,统计真实需求分布(如科技、金融占比最高,分别 17.80%、16.86%)。
    • 最终任务:按真实分布比例压缩至 100 条,50 中文 + 50 英文,由博士或 5 年以上资深从业者设计,经人工筛选确保难度与真实性。
  2. 基准特征

三、核心评估方法:RACE 与 FACT

(1)RACE 框架:报告质量评估
  • 设计逻辑:解决固定标准不适应多领域任务的问题,通过 “动态权重 + 参考对比” 实现自适应评估。

  • 4 大核心维度(表 1):

    维度描述
    Comprehensiveness(COMP) 覆盖主题关键领域,无重要信息遗漏
    Insight/Depth(DEPTH) 深入分析原因、影响、趋势,提供有价值洞见
    Instruction-Following(INST) 紧扣研究主题,直接回答任务问题
    Readability(READ) 结构清晰、语言流畅、易于理解

     

  • 关键步骤

    image

(2)FACT 框架:信息检索评估
  • 设计逻辑:评估 DRA 检索信息的 “量”(有效引用数)与 “质”(引用准确率)。
  • 关键步骤
    1. 陈述 - URL 对提取与去重:Judge LLM(Gemini-2.5-Flash)从报告中提取离散陈述及对应 URL,去重重复事实的对。
    2. 支持性判断:用 Jina Reader API 获取网页内容,Judge LLM 判断内容是否支持陈述(二元结果:支持 / 不支持)。
    3. 指标计算(表 2):

      指标定义计算公式
      Citation Accuracy(C. Acc.) 引用准确率,反映陈述与 URL 的匹配度

      image

       

      Average Effective Citations(E. Cit.) 平均有效引用数,反映有效信息总量

      image

       

       

四、实验结果与验证

  1. 实验设置

    • 评估模型:4 个 DRA(Gemini-2.5-Pro Deep Research、OpenAI Deep Research 等)+12 个带搜索功能的 LLM(Claude-3.7-Sonnet w/Search、GPT-4o-Search-Preview 等)。
    • Judge LLM 选择:RACE 用 Gemini-2.5-Pro(平衡性能与成本),FACT 用 Gemini-2.5-Flash(与人类判断一致性达 92%-96%,成本更低)。
  2. 核心结果

    • RACE 框架表现(表 3,仅列 DRA):

      模型RACE 整体得分全面性深度指令遵循可读性
      Gemini-2.5-Pro Deep Research 48.88 48.53 48.50 49.18 49.44
      OpenAI Deep Research 46.98 46.87 45.25 49.27 47.14
      Perplexity Deep Research 42.25 40.69 39.39 46.40 44.28
      Grok Deeper Search 40.24 37.97 35.37 46.30 44.05

       

    • FACT 框架表现(表 4,仅列 DRA):

      模型引用准确率(%)平均有效引用数
      Gemini-2.5-Pro Deep Research 81.44 111.21
      OpenAI Deep Research 77.96 40.79
      Perplexity Deep Research 90.24 31.26
      Grok Deeper Search 83.59 8.15

       

  3. 人类一致性验证

    • 实验设计:50 个中文任务,4 个 DRA 生成报告,70 + 硕士以上专家评分(3 人 / 任务)。
    • 关键指标:RACE 的 pairwise agreement rate 达 71.33%(超人类专家间的 68.44%),Overall Pearson Correlation 达 99.54%,证明与人类判断高度对齐。

五、局限性与 Broader Impact

  1. 局限性

    • 基准规模:100 条任务虽高质量,但统计稳健性不足,需扩大规模。
    • 领域偏差:可能存在领域覆盖偏倚,需引入更多外部专家审核。
    • 人类评估:仅 600 份报告(50 任务 ×4DRA×3 专家),样本有限。
  2. Broader Impact

    • 积极:推动 DRA 可靠发展, democratize 深度研究能力。
    • 风险缓解:通过 FACT 的事实验证和 RACE 的质量评估,减少误导性、过度依赖等问题。

4. 关键问题

问题 1:DeepResearch Bench 的任务设计如何确保与真实研究需求对齐?


答案:通过 “数据驱动 + 专家验证” 双环节实现:

  1. 数据驱动:先收集 96,147 条带网页搜索功能的 LLM 用户查询,匿名化后用 DeepSeek-V3-0324 筛选出 44,019 条符合 “深度研究任务” 定义的查询(需多轮检索、分析、生成报告);再参考 WebOrganizer taxonomy 将其归为 22 个领域,统计真实需求分布(如科技占 17.80%、金融占 16.86%)。
  2. 专家验证:按真实分布比例将 44,019 条任务压缩至 100 条(50 中文 + 50 英文),由博士或 5 年以上资深从业者设计任务,经人工筛选确保难度(博士级)、清晰度与真实性,最终形成覆盖 22 个领域的基准,完全匹配真实研究场景需求。

问题 2:RACE 框架如何解决传统固定标准评估深度研究报告的局限性?


答案:RACE 通过 “动态权重 + 参考对比 + 相对得分” 三大设计突破传统框架局限:

截屏2025-09-04 11.48.13

问题 3:在 FACT 框架中,为何选择 Gemini-2.5-Flash 作为 Judge LLM,其评估效果如何?


答案:选择 Gemini-2.5-Flash 基于 “准确率 - 成本” 平衡原则,且评估效果与高性能模型持平:

  1. 选择原因:FACT 需处理 “陈述 - URL 对提取”“支持性判断” 等 token 密集型任务,对成本敏感;Gemini-2.5-Flash 在测试中与人类判断一致性达 92%-96%(“支持” 判断一致 96%,“不支持” 判断一致 92%),准确率接近 Gemini-2.5-Pro,但成本更低,适合大规模评估。
  2. 评估效果:通过 FACT 的两大指标验证,Gemini-2.5-Flash 能有效区分模型能力:
    • 引用准确率:Perplexity Deep Research 以 90.24% 居首,反映其能更精准匹配陈述与 URL;
    • 平均有效引用数:Gemini-2.5-Pro Deep Research 达 111.21,显著高于其他模型,证明其检索有效信息的能力更强。 同时,FACT 的评估结果与 RACE 形成互补(如 Gemini-2.5-Pro Deep Research 在 RACE 全面性得分高,对应 FACT 有效引用数多),共同构成 DRA 的综合能力评估。

https://deepresearch-bench.github.io/

2401.04056v2.pdf

2411.15594v5.pdf

2505.10527v1.pdf

image

image

 

posted on 2025-09-04 11:48  limingqi  阅读(88)  评论(0)    收藏  举报

导航