摘要: SWE-bench 数据集从 12 个流行的 Python 仓库中,收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark,要么数据泄露要么训练阶段作弊,已经没办法很好辨别顶尖模型的优劣,SWE-bench 更能反应出语言模型在真实世界的应用。 paper:SWE-be 阅读全文
posted @ 2024-11-12 15:20 zion03 阅读(989) 评论(0) 推荐(0)