摘要:
介绍 (1) 发表:ICLR'24 (2) 背景 现有 benchmarks 已经饱和,无法捕获最先进的语言模型和无法做到的前沿,需要具有挑战性的新 benchmark 来更准确的反映语言模型的现实应用 工作 (1) 数据集构建 该工作从 Github 上流行的 12 个开源 python 库中收集 阅读全文
posted @ 2025-08-06 22:40
绵满
阅读(297)
评论(0)
推荐(0)
摘要:
介绍 (1) 发表:ICSE'24 (2) 背景 APR 任务的这些模型的当前评估仅关注错误所在的单个功能或文件的有限上下文,从而忽略了存储库级上下文中的有价值信息。现有的数据集要么不是在存储库中构建的,例如 Quixbugs,要么无法准确恢复存储库级错误的方案,例如 Defects4J。本文研究了 阅读全文
posted @ 2025-08-06 22:37
绵满
阅读(262)
评论(0)
推荐(0)

浙公网安备 33010602011771号