2025年9月4日

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要: 1. 一段话总结 为填补深度研究智能体(DRA)评估的空白,研究团队提出DeepResearch Bench基准,包含 100 个博士级研究任务(覆盖 22 个领域,50 中文 + 50 英文),基于 96,147 条真实用户查询统计设计;同时提出RACE(参考驱动的自适应标准评估框架)和FACT( 阅读全文

posted @ 2025-09-04 11:48 limingqi 阅读(88) 评论(0) 推荐(0)

导航