会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CD Yang
博客园
首页
新随笔
联系
管理
订阅
2024年11月12日
SWE-bench: 自动解决 GitHub issue 能力的评估方法
摘要: SWE-bench 数据集从 12 个流行的 Python 仓库中,收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark,要么数据泄露要么训练阶段作弊,已经没办法很好辨别顶尖模型的优劣,SWE-bench 更能反应出语言模型在真实世界的应用。 paper:SWE-be
阅读全文
posted @ 2024-11-12 15:20 zion03
阅读(989)
评论(0)
推荐(0)
公告