通过直接编辑网络层更新大型语言模型

更新大型语言模型:通过直接编辑网络层

大型语言模型的吸引力之一在于它们编码了关于现实世界的信息。但世界在不断发展,而大型语言模型的信息仅限于其训练时所使用的数据。训练一个大型语言模型可能需要数月时间,即使在任务被并行分配到1000台服务器上时也是如此,因此人工智能研究人员一直在寻找更新大型语言模型知识的替代方法。

其中一种方法是直接编辑大型语言模型的特定层,以改进其在特定基于知识的任务上的表现。这是一种针对特定任务的解决方案,而非通用方案,但它的实施只需数小时,而非数月。

现有的直接层编辑技术通常需要手动选择要编辑的层,或需要一个耗时的过程来确定编辑哪些层最有效。在上周于计算语言学协会欧洲分会2024年会议上,我们提出了一种自动选择待编辑层的新方法,相比之前的自动化方法,它能产生更准确的更新。与之前手动选择层的方法相比,它还能限制回归,即在模型先前正确处理过的数据上出现性能倒退。在某些数据集上,我们将此方法命名为SaLEM(关键层编辑模型),在提供同等新数据准确性的同时,将回归减少了一个数量级。

识别层

我们考虑的情况是,一个大型语言模型已经针对特定任务(例如,判断一个输入句子在逻辑上是否蕴含或支持/反对另一个句子)进行了微调。在这种情况下,模型输入通常是一对文本,输出是诸如“蕴含”或“支持”之类的判断。

在先前的层选择方法中,进行因果追踪时,每个训练示例的第一个标记会被输入模型,然后是第一个和第二个,接着是第一个、第二个和第三个,依此类推。随后,该过程会在模型中的某一层被遮蔽的情况下重复。这个两步分析又必须针对网络的每一层重复进行,是一个耗时的过程。

在我们的方法中,我们准备一个“编辑数据集”,由来自三组的输入-输出对组成:

  1. 通过样本:现有模型能输出正确答案的样本。
  2. 失败样本:现有模型输出错误答案的样本。
  3. 适应样本:与失败样本语义相同但措辞不同的样本。

对于每个样本,我们计算现有模型输出与目标输出之间的损失以及相应的梯度——这些模型权重的修改使得正确答案出现的可能性更高。然后,我们对模型的每一层和所有训练样本的梯度进行平均。平均梯度最高的层——即为了适应关于世界的新事实而需要最大修改的层——就是我们编辑的层。

层编辑

为了编辑选定的层,我们使用了某机构研究人员在2022年提出的MEND方法。使用MEND时,需要训练第二个机器学习模型(即编辑器模型),其本质上是将梯度作为输入,并输出参数编辑。

但模型的输入不是原始梯度,而是梯度的低秩近似,这通过识别数据方差发生最多的轴来降低数据维度。这有点像找出较大梯度背后的根本原因,有助于模型更好地泛化。我们还通过将梯度以10个为一组进行聚合,然后再计算其低秩近似,来防止过拟合。

我们使用两个训练目标来训练编辑器:一个目标是最大化在来自失败集和适应集的输入上获得正确答案的可能性;另一个目标是最小化在来自通过集的输入上的输出差异。这有助于防止回归。

在原始的MEND论文中,研究人员使用这种方法来编辑一个微调后的大型语言模型的顶部三层,这是在编辑效率、输出修正和防止回归之间进行权衡的合理启发式方法。由于SaLEM识别了与新模型更新最相关的一个层,它可以在新数据上匹配MEND的性能。但因为它只修改一个层而不是三个层的参数,所以能减少回归。

实验

我们在六个用于微调大型语言模型处理自然语言处理任务的数据集上评估了SaLEM。其中四个数据集与自然语言推理相关,一个是问答数据集,另一个是用于大型语言模型标准任务——下一标记预测的数据集。对于问答和生成任务,我们在四种不同的大型语言模型架构上比较了SaLEM与基线方法。我们使用编辑准确率(编辑后在新数据上的准确率)和回撤(衡量在旧数据上的回归程度)来测量性能。

在推理任务上,SaLEM在编辑准确率上与表现最佳者持平,但在回撤方面显著优于其他方法——在其中两个数据集上,其表现比第二名好四倍和十倍。在其他两个任务上,SaLEM在这两项指标上均名列第二,仅次于一种名为可编辑神经网络的方法。但可编辑神经网络需要同时运行一个大型语言模型的两个副本,这非常耗费资源。实际上,在我们测试的四种大型语言模型架构中,由于计算需求,我们无法运行可编辑神经网络。

在正在进行的研究中,我们正在探索:

  1. 用更好的失败样本及其语义和反事实等价样本来丰富编辑数据集。
  2. 一种更好的权重更新机制,以告知编辑器对于边界实例需要更新的程度。
  3. 一种无需像目前这样将完整模型加载到内存中即可执行编辑的方法。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2026-01-09 05:59  CodeShare  阅读(2)  评论(0)    收藏  举报