2025 年 9月 4 日随笔档案 - limingqi

2025年9月4日

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要： 1. 一段话总结为填补深度研究智能体（DRA）评估的空白，研究团队提出DeepResearch Bench基准，包含 100 个博士级研究任务（覆盖 22 个领域，50 中文 + 50 英文），基于 96,147 条真实用户查询统计设计；同时提出RACE（参考驱动的自适应标准评估框架）和FACT（阅读全文

posted @ 2025-09-04 11:48 limingqi 阅读(181) 评论(0) 推荐(0)

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

导航

公告