2025 年 8月 6 日随笔档案 - 绵满

2025年8月6日

"SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" 论文笔记

摘要：介绍 (1) 发表：ICLR'24 (2) 背景现有 benchmarks 已经饱和，无法捕获最先进的语言模型和无法做到的前沿，需要具有挑战性的新 benchmark 来更准确的反映语言模型的现实应用工作 (1) 数据集构建该工作从 Github 上流行的 12 个开源 python 库中收集阅读全文

posted @ 2025-08-06 22:40 绵满阅读(298) 评论(0) 推荐(0)

"When Large Language Models Confront Repository-Level Automatic Program Repair How Well They Done" 论文笔记

摘要：介绍 (1) 发表：ICSE'24 (2) 背景 APR 任务的这些模型的当前评估仅关注错误所在的单个功能或文件的有限上下文，从而忽略了存储库级上下文中的有价值信息。现有的数据集要么不是在存储库中构建的，例如 Quixbugs，要么无法准确恢复存储库级错误的方案，例如 Defects4J。本文研究了阅读全文

posted @ 2025-08-06 22:37 绵满阅读(268) 评论(0) 推荐(0)

绵满の博客

公告