自然语言处理 - 随笔分类 - 颀周

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

摘要：论文发表于人工智能顶会ICLR（原文链接）。基于定位和修改的模型编辑方法（针对ROME和MEMIT等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit： 1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。 2、从理论上证明，这种预测确保了在查询保留的阅读全文

posted @ 2025-07-10 17:33 颀周阅读(761) 评论(0) 推荐(1)

论文解读：MASS-EDITING MEMORY IN A TRANSFORMER（MEMIT）

摘要：论文发表于人工智能顶会ICLR（原文链接）。在模型编辑方法中，过去工作主要局限于更新单个事实。因此，基于ROME，本文开发了MEMIT，在大模型GPT-J（6B）和GPT-NeoX（20B）上实现了数千的批量编辑。阅读本文请同时参考原始论文图表。方法模型定义为文中式(1)，其中$[x_{[1] 阅读全文

posted @ 2025-07-09 10:26 颀周阅读(348) 评论(0) 推荐(2)

Benchmark论文解读：Evaluating the Ripple Effects of Knowledge Editing in Language Models

摘要：论文发表于自然语言处理顶刊TACL-2024（原文链接）。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入，以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限，因为注入一个事实会产生涟漪效应，模型应该同步更新一系列的额外事实。比如当注入：z是e的母亲时。模型应该同步更新：z的阅读全文

posted @ 2025-06-11 01:25 颀周阅读(244) 评论(0) 推荐(0)

论文解读：Knowledge Neurons in Pretrained Transformers

摘要：论文发表于自然语言处理顶会ACL-2022（原文链接）。本文引入知识神经元 (Knowledge Neuron) 的概念，初步研究了预训练Transformer中是如何存储事实知识的： 1、通过研究预训练的BERT，本文发现预训练语言模型的知识是独立存在于中间神经元激活中的 2、可以通过编辑FFN层阅读全文

posted @ 2025-06-08 13:47 颀周阅读(253) 评论(0) 推荐(0)

论文解读：Fast Model Editing at Scale (MEND)

摘要：论文发表于人工智能顶会ICLR（原文链接）。为了实现大规模编辑，提出基于梯度分解的模型编辑网络（Model Editor Networks with Gradient Decomposition, MEND）：训练一个小型辅助编辑网络的集合，对通过微调获得的梯度的低阶分解进行变换，使用变换后的梯度更阅读全文

posted @ 2025-06-07 12:51 颀周阅读(285) 评论(0) 推荐(0)

综述论文解读：Editing Large Language Models: Problems, Methods, and Opportunities

摘要：论文为大语言模型知识编辑综述，发表于自然语言处理顶会ACL（原文链接）。由于目前存在广泛的模型编辑技术，但一个统一全面的分析评估方法，所以本文： 1、对LLM的编辑方法进行了详尽、公平的实证分析，探讨了它们各自的优势和劣势。 2、构建了一个新的数据集，旨在揭示当前模型编辑方法的缺点，特别是泛化和效率阅读全文

posted @ 2025-06-07 12:35 颀周阅读(360) 评论(0) 推荐(0)

论文解读：Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adapters

摘要：论文发表于人工智能顶会NeurIPS（原文链接）。当前的模型编辑器会因多次编辑损害模型性能，提出用于连续编辑的通用检索适配器(General Retrieval Adapters for Continual Editing, GRACE)：使用一个类似字典的结构（适配器）为需要修改的潜在表示构建新的阅读全文

posted @ 2025-06-06 12:59 颀周阅读(222) 评论(0) 推荐(0)

论文解读：Locating and Editing Factual Associations in GPT（ROME）

摘要：论文发表于人工智能顶会NeurIPS（原文链接），研究了GPT（Generative Pre-trained Transformer）中事实关联的存储和回忆，发现这些关联与局部化、可直接编辑的计算相对应。因此： 1、开发了一种因果干预方法，用于识别对模型的事实预测起决定性作用的神经元。 2、为了验证阅读全文

posted @ 2025-06-05 20:11 颀周阅读(396) 评论(0) 推荐(0)

Transformers包使用记录

摘要：Transformers是著名的深度学习预训练模型集成库，包含NLP模型最多，CV等其他领域也有，支持预训练模型的快速使用和魔改，并且模型可以快速在不同的深度学习框架间（Pytorch/Tensorflow/Jax）无缝转移。以下记录基于HuggingFace官网教程：https://github. 阅读全文

posted @ 2023-08-19 13:54 颀周阅读(904) 评论(0) 推荐(0)

自然语言处理NLP程序包（NLTK/spaCy）使用总结

摘要：NLTK和SpaCy是NLP的Python应用，提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性，便于对NLP研究的组成形式有一个基本的了解。 NLTK Natural Language Toolkit (NLTK) 由宾夕法尼亚大学开发，提供了超过50种语料库，以及一些常用的文阅读全文

posted @ 2022-09-30 16:20 颀周阅读(2508) 评论(0) 推荐(5)

NLP语言学基础

摘要：不同的自然语言有不同的语法结构，因此需要对语言数据进行语法解析，才能让机器更准确地学到相应的模式。而语言不同于图像，数据标注工作需要有一定的语言学知识，因此数据的整理也相对更困难。下面以英语为例（别的咱也看不懂），对NLP研究中常见的基本语言学概念进行记录。词性（Part Of Speech）词阅读全文

posted @ 2022-09-18 20:40 颀周阅读(388) 评论(0) 推荐(4)

LOADING . . .

qizhou

随笔分类 - 自然语言处理

公告