2024 年 11月 12 日随笔档案 - zion03

2024年11月12日

摘要： SWE-bench 数据集从 12 个流行的 Python 仓库中，收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark，要么数据泄露要么训练阶段作弊，已经没办法很好辨别顶尖模型的优劣，SWE-bench 更能反应出语言模型在真实世界的应用。 paper：SWE-be 阅读全文

posted @ 2024-11-12 15:20 zion03 阅读(1099) 评论(0) 推荐(0)

CD Yang

公告