摘要: 我会不时上传一些自己的笔记,如果有理解错误的地方请在评论区指出,我会及时回复的! 如果我的笔记有帮助到你的话,可以动动小手登录一下,你的点赞评论和关注是我持续更新的动力!(成就感↑↑↑) 阅读全文
posted @ 2025-03-07 21:49 绵满 阅读(273) 评论(0) 推荐(1)
摘要: 介绍 (1) 发表:EMNLP'24 (2) 背景 现有方法通常存在一些缺点,例如只关注变化的行是不够的,或者在变化周围包含不相关的行会带来噪声。如图 1 所示,添加和删除的代码实际上是相同的,只是位置不同,导致代码更改定义不明确。此外,由于缺乏程序依赖关系分析,更改的行和程序的未更改部分之间的关联 阅读全文
posted @ 2025-09-22 15:29 绵满 阅读(23) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICSE'25 (2) 背景 最近的一些工作研究了基于 LLM 的提交信息生成,然而目前尚不清楚 LLM 通过 ICL 在该领域的表现如何 (3) 贡献 本文对通过 ICL 使用 LLM 进行提交信息生成进行了实证研究,并创建了一个新的数据集 工作 (1) 研究设计 RQ1:不同 阅读全文
posted @ 2025-09-20 09:34 绵满 阅读(18) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICSE'25 (2) 背景 之前的研究表明,与传统的代码摘要模型相比,LLM 生成的摘要在表达方式上与参考摘要有很大不同,并且倾向于描述更多的细节。因此,传统的评估方法是否适合评估 LLM 生成摘要的质量仍然未知 (3) 贡献 受到 NLP 工作的启发,本文对使用 LLM 本身 阅读全文
posted @ 2025-09-18 15:46 绵满 阅读(30) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:Arxiv 09.03 (2) 背景 查明对长执行跟踪链路中错误负责的特定代理或步骤被定义为代理系统故障归因的任务。然而,当前最新的推理 LLMS 仍不为此挑战而明显不足,精度通常低于10% 尽管现有工作已经作出了初步尝试,但他们仍然存在实质性的研究差距:① 培训资源(涉及大规模 阅读全文
posted @ 2025-09-08 16:45 绵满 阅读(50) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:BuildingTrust'25 (2) 背景 尽管对多智能体 LLM 系统(MAS)的热情越来越多,但与单机准则框架相比,它们在流行的基准测试中的性能往往仍然很少。这一差距强调了系统地分析阻碍 MAS 有效性的挑战的必要性 (3) 贡献 对 MAS 执行轨迹进行了首次系统评估, 阅读全文
posted @ 2025-08-26 23:24 绵满 阅读(83) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:EMNLP'25 (2) 背景 高级 LLM 的正确翻译率较低,导致不同类型的执行错误。本文认为此问题的根本原因是 LLM 的预训练任务和代码翻译任务要求之间的差异。与自然语言不通,编程语言具有其他信息,这些信息表明了代码的执行状态,现有 LLM 仅学习代码的上下文语义,忽略了这 阅读全文
posted @ 2025-08-24 00:51 绵满 阅读(34) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:FSE'25 (2) 挑战 现有工作都在探索基于 Agent 的方式来解决软件问题,但人与当前 LLM 能力之间的差异会导致基于 Agent 的方法的以下局限性: 复杂的工具使用/设计:当前基于 Agent 的方法在 Agent 和环境之间采用抽象层,将真实操作映射到 API 调 阅读全文
posted @ 2025-08-13 22:22 绵满 阅读(41) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:NIPS'24 (2) 背景 考虑直接与 Linux 终端直接互动的 Agent 的简单设置,我们发现 LM Agent 很难在这种环境下可靠地采取行动。例如,它无法提供简单的命令来编辑一个小文件段,并且如果用户进行无效编辑,则不会提供任何反馈。这些缺陷大大阻碍了性能,激发了对代 阅读全文
posted @ 2025-08-13 22:21 绵满 阅读(48) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:Arxiv 06.12 (2) 挑战 主要探讨了基于 LLM 的 APR 的两个主要类别:代理和程序。尽管这两个范式都表现出希望,但它们依然表现出两个重要的局限性: 忽视历史修复经验:现有方法都忽略了从同一存储库中先前解决的问题中积累的宝贵历史经验,而实际上,软件项目在其演变过程 阅读全文
posted @ 2025-08-11 17:41 绵满 阅读(44) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ISSTA'24 (2) 背景 软件工程涉及程序改进的过程,特别是软件维护(例如,程序错误修复)和软件演变(例如,功能添加) 自动化程序维修任务对实现自动软件工程愿景的重要性。鉴于自动化程序维修的动机,并且开发人员经常花费大量的时间来修复错误。本工作提出了 AutoCodeRov 阅读全文
posted @ 2025-08-10 02:12 绵满 阅读(27) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICLR'24 (2) 背景 现有 benchmarks 已经饱和,无法捕获最先进的语言模型和无法做到的前沿,需要具有挑战性的新 benchmark 来更准确的反映语言模型的现实应用 工作 (1) 数据集构建 该工作从 Github 上流行的 12 个开源 python 库中收集 阅读全文
posted @ 2025-08-06 22:40 绵满 阅读(297) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表:ICSE'24 (2) 背景 APR 任务的这些模型的当前评估仅关注错误所在的单个功能或文件的有限上下文,从而忽略了存储库级上下文中的有价值信息。现有的数据集要么不是在存储库中构建的,例如 Quixbugs,要么无法准确恢复存储库级错误的方案,例如 Defects4J。本文研究了 阅读全文
posted @ 2025-08-06 22:37 绵满 阅读(262) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表 2024-07 ISSTA'24 (2) 背景 对于某些较为复杂的 bug,需要强大的代码理解和推理能力才能解决 方法 (1) 收集阶段 prompt 准备:角色描述+任务描述+思维链启示 思维链收集:prompt 给 LLM 生成思维链,这里的输出是样本的集合,其中样本包括 b 阅读全文
posted @ 2025-04-24 01:21 绵满 阅读(272) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表 2025-02 ICSE'25 (2) 挑战 当前方法的推理目标与 LLM 的训练目标没有对齐。现有 LLM-based 方法通常采用 MLM 的方式预测修复代码(然而尽管模型参数被增大百倍但修复结果甚至没有翻一番,这与其他任务的明确可伸缩性形成对比)。因此本文假设在训练中 <m 阅读全文
posted @ 2025-03-22 23:27 绵满 阅读(61) 评论(0) 推荐(0)
摘要: 介绍 (1) 发表 2023-10 FSE'23 (2) 背景 代码库的其他地方通常可以找到修复补丁,这一假设已经得到证实。同时现有 APR 方法的性能通常收到固定的模型参数的限制 (3) 贡献 我们提出了一种用于 APR 的新型 RAG 补丁生成框架 RAP-Gen。它是一个通用框架,可以轻松地与 阅读全文
posted @ 2025-03-22 15:53 绵满 阅读(57) 评论(0) 推荐(0)