绵满 - 博客园

摘要：我会不时上传一些自己的笔记，如果有理解错误的地方请在评论区指出，我会及时回复的！如果我的笔记有帮助到你的话，可以动动小手登录一下，你的点赞评论和关注是我持续更新的动力！（成就感↑↑↑）阅读全文

posted @ 2025-03-07 21:49 绵满阅读(283) 评论(0) 推荐(1)

2026年3月10日

摘要： PPL PPL 困惑度衡量的是语言模型对文本的不确定程度，困惑度越低说明模型越确定下一步要生成什么词，模型越好 \(ppl=\exp(-\frac{1}{N}\sum_{n=1}{N} P(w_n|w_{<n}))\) 其计算方法是计算句子每个 token 的平均对数似然，再过一个指数函数 BLEU 阅读全文

posted @ 2026-03-10 16:24 绵满阅读(6) 评论(0) 推荐(0)

2026年3月9日

监督微调（SFT）笔记

摘要： SFT 简介 (1) 什么是监督微调监督微调（SFT）通过利用特定于任务的标签数据集将预训练的 LLM 适应特定任务。SFT 的数据集通常组织如下，一条样本包含一个指令和对应的回答：\(D=\{(I_K,A_K)\}_{K=1}^N\) (2) 监督微调和预训练的区别在训练方式上没有任何区别，损阅读全文

posted @ 2026-03-09 15:29 绵满阅读(13) 评论(0) 推荐(0)

2025年9月22日

"Leveraging Context-Aware Prompting for Commit Message Generation" 论文笔记

摘要：介绍 (1) 发表：EMNLP'24 (2) 背景现有方法通常存在一些缺点，例如只关注变化的行是不够的，或者在变化周围包含不相关的行会带来噪声。如图 1 所示，添加和删除的代码实际上是相同的，只是位置不同，导致代码更改定义不明确。此外，由于缺乏程序依赖关系分析，更改的行和程序的未更改部分之间的关联阅读全文

posted @ 2025-09-22 15:29 绵满阅读(45) 评论(0) 推荐(0)

2025年9月20日

"An Empirical Study on Commit Message Generation using LLMs via In-Context Learning" 论文笔记

摘要：介绍 (1) 发表：ICSE'25 (2) 背景最近的一些工作研究了基于 LLM 的提交信息生成，然而目前尚不清楚 LLM 通过 ICL 在该领域的表现如何 (3) 贡献本文对通过 ICL 使用 LLM 进行提交信息生成进行了实证研究，并创建了一个新的数据集工作 (1) 研究设计 RQ1：不同阅读全文

posted @ 2025-09-20 09:34 绵满阅读(27) 评论(0) 推荐(0)

2025年9月18日

"Source Code Summarization in the Era of Large Language Models" 论文笔记

摘要：介绍 (1) 发表：ICSE'25 (2) 背景之前的研究表明，与传统的代码摘要模型相比，LLM 生成的摘要在表达方式上与参考摘要有很大不同，并且倾向于描述更多的细节。因此，传统的评估方法是否适合评估 LLM 生成摘要的质量仍然未知 (3) 贡献受到 NLP 工作的启发，本文对使用 LLM 本身阅读全文

posted @ 2025-09-18 15:46 绵满阅读(44) 评论(0) 推荐(0)

2025年9月8日

"AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?" 论文笔记

摘要：介绍 (1) 发表：Arxiv 09.03 (2) 背景查明对长执行跟踪链路中错误负责的特定代理或步骤被定义为代理系统故障归因的任务。然而，当前最新的推理 LLMS 仍不为此挑战而明显不足，精度通常低于10％尽管现有工作已经作出了初步尝试，但他们仍然存在实质性的研究差距：① 培训资源（涉及大规模阅读全文

posted @ 2025-09-08 16:45 绵满阅读(90) 评论(0) 推荐(0)

2025年8月26日

"Why Do Multi-Agent LLM Systems Fail?" 论文笔记

摘要：介绍 (1) 发表：BuildingTrust'25 (2) 背景尽管对多智能体 LLM 系统（MAS）的热情越来越多，但与单机准则框架相比，它们在流行的基准测试中的性能往往仍然很少。这一差距强调了系统地分析阻碍 MAS 有效性的挑战的必要性 (3) 贡献对 MAS 执行轨迹进行了首次系统评估，阅读全文

posted @ 2025-08-26 23:24 绵满阅读(130) 评论(0) 推荐(0)

2025年8月24日

"ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation" 论文笔记

摘要：介绍 (1) 发表：EMNLP'25 (2) 背景高级 LLM 的正确翻译率较低，导致不同类型的执行错误。本文认为此问题的根本原因是 LLM 的预训练任务和代码翻译任务要求之间的差异。与自然语言不通，编程语言具有其他信息，这些信息表明了代码的执行状态，现有 LLM 仅学习代码的上下文语义，忽略了这阅读全文

posted @ 2025-08-24 00:51 绵满阅读(48) 评论(0) 推荐(0)

2025年8月13日

"Demystifying LLM-Based Software Engineering Agents" 论文笔记

摘要：介绍 (1) 发表：FSE'25 (2) 挑战现有工作都在探索基于 Agent 的方式来解决软件问题，但人与当前 LLM 能力之间的差异会导致基于 Agent 的方法的以下局限性：复杂的工具使用/设计：当前基于 Agent 的方法在 Agent 和环境之间采用抽象层，将真实操作映射到 API 调阅读全文

posted @ 2025-08-13 22:22 绵满阅读(62) 评论(0) 推荐(0)

"SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering" 论文笔记

摘要：介绍 (1) 发表：NIPS'24 (2) 背景考虑直接与 Linux 终端直接互动的 Agent 的简单设置，我们发现 LM Agent 很难在这种环境下可靠地采取行动。例如，它无法提供简单的命令来编辑一个小文件段，并且如果用户进行无效编辑，则不会提供任何反馈。这些缺陷大大阻碍了性能，激发了对代阅读全文

posted @ 2025-08-13 22:21 绵满阅读(98) 评论(0) 推荐(0)

2025年8月11日

"ExpeRepair: Dual-Memory Enhanced LLM-based Repository-Level Program Repair" 论文笔记

摘要：介绍 (1) 发表：Arxiv 06.12 (2) 挑战主要探讨了基于 LLM 的 APR 的两个主要类别：代理和程序。尽管这两个范式都表现出希望，但它们依然表现出两个重要的局限性：忽视历史修复经验：现有方法都忽略了从同一存储库中先前解决的问题中积累的宝贵历史经验，而实际上，软件项目在其演变过程阅读全文

posted @ 2025-08-11 17:41 绵满阅读(78) 评论(0) 推荐(0)

2025年8月10日

"AutoCodeRover: Autonomous Program Improvement" 论文笔记

摘要：介绍 (1) 发表：ISSTA'24 (2) 背景软件工程涉及程序改进的过程，特别是软件维护（例如，程序错误修复）和软件演变（例如，功能添加）自动化程序维修任务对实现自动软件工程愿景的重要性。鉴于自动化程序维修的动机，并且开发人员经常花费大量的时间来修复错误。本工作提出了 AutoCodeRov 阅读全文

posted @ 2025-08-10 02:12 绵满阅读(62) 评论(0) 推荐(0)

2025年8月6日

"SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" 论文笔记

摘要：介绍 (1) 发表：ICLR'24 (2) 背景现有 benchmarks 已经饱和，无法捕获最先进的语言模型和无法做到的前沿，需要具有挑战性的新 benchmark 来更准确的反映语言模型的现实应用工作 (1) 数据集构建该工作从 Github 上流行的 12 个开源 python 库中收集阅读全文

posted @ 2025-08-06 22:40 绵满阅读(312) 评论(0) 推荐(0)

"When Large Language Models Confront Repository-Level Automatic Program Repair How Well They Done" 论文笔记

摘要：介绍 (1) 发表：ICSE'24 (2) 背景 APR 任务的这些模型的当前评估仅关注错误所在的单个功能或文件的有限上下文，从而忽略了存储库级上下文中的有价值信息。现有的数据集要么不是在存储库中构建的，例如 Quixbugs，要么无法准确恢复存储库级错误的方案，例如 Defects4J。本文研究了阅读全文

posted @ 2025-08-06 22:37 绵满阅读(280) 评论(0) 推荐(0)

2025年4月24日

"ThinkRepair: Self-Directed Automated Program Repair" 论文笔记

摘要：介绍 (1) 发表 2024-07 ISSTA'24 (2) 背景对于某些较为复杂的 bug，需要强大的代码理解和推理能力才能解决方法 (1) 收集阶段 prompt 准备：角色描述+任务描述+思维链启示思维链收集：prompt 给 LLM 生成思维链，这里的输出是样本的集合，其中样本包括 b 阅读全文

posted @ 2025-04-24 01:21 绵满阅读(299) 评论(0) 推荐(0)

绵满の博客

公告