Benchmark论文解读：Evaluating the Ripple Effects of Knowledge Editing in Language Models

论文发表于自然语言处理顶刊TACL-2024（原文链接）。目前模型编辑方法的评估主要集中在测试单个事实是否被成功注入，以及模型对其它事实的预测是否没有改变。作者认为这样的评估模式有限，因为注入一个事实会产生涟漪效应，模型应该同步更新一系列的额外事实。比如当注入：z是e的母亲时。模型应该同步更新：z的孩子是e的兄弟姐妹。为了解决这个问题：

1、提出一套新的评价标准，考虑模型编辑对涟漪效应的影响。

2、基于知识图构建了数据集RIPPLEDITS，用于捕捉各种类型的涟漪效应。

3、在RIPPLEDITS上评估了之前的编辑方法，发现简单的in-context编辑baseline获得了最好的分数，为模型编辑提供了一个有前途的研究方向。

阅读本文请同时参考原始论文图表。

方法

评价指标

如图1所示，当将埃菲尔铁塔所在城市修改为伦敦时，模型不但要回答出埃菲尔铁塔所在城市是伦敦，并且无关事实对的回答不能变动，还要回答出：1、所在国家是英国而不是法国。2、对应的协调世界时是UTC+0。也就是一系列受到这个编辑影响的事实都要作相应的修改，称为这些事实为涟漪效应 (Ripple Effects)。

对于一个给定模型，假设它学习到的知识可以表示为知识图谱的形式$\mathcal{K}=\{(e_i,r_i,o_i)\}_{i=1}^N$。则对于该模型的一个知识编辑$\delta:(e,r,o)\to (e,r,o^*)$，定义其涟漪效应为受到$\delta$影响的事实集合$\mathcal{R}(\delta)$，并称集合大小$|\mathcal{R}(\delta)|$为这个编辑的严重程度。

由于涟漪效应跨度可能十分大，本文主要关注与编辑事实的实体$e,o$距离两跳以内的事实。为了评估模型的涟漪效应，提出了六个具体的评估标准。以修改事实(Prince, sibling, Nicholas Carminowe)为例，即修改后的模型关于问题：The sibling of Prince are …，有答案Nicholas Carminowe。六个评估标准如图2所示：

A、逻辑泛化 (Logical generalization, LG)：测试模型是否回忆事实$(x,r',z)$，其中$x\in \{e,o,o^*\}$，$r'$是与$r$语义相关的关系。A中举了一个与原始提问对称的例子，即测试事实$(o^*,r,e)$。

B、组合I (Compositionality I, CI)：通过链接$(e,r,o^*)$与$(o^*,r',z)$，测试模型是否回忆事实$(e,r'',z)$。其中模型在编辑之前就已知事实$(o^*,r',z)$，关系$r''$为$r,r'$的组合，从而通过关系组合跳过$o^*$。

C、组合II (Compositionality II, CII)：通过链接$(e',r',e)$与$(e,r,o^*)$，测试模型是否回忆事实$(e',r'',o^*)$。其中模型在编辑之前就已知事实$(e',r',e)$，关系$r''$为$r',r$的组合，从而通过关系组合跳过$e$。

D、主体别名 (Subject Aliasing, SA)：测试模型是否回忆事实$(e',r,o^*)$，其中$e'$是$e$的别名。

E、遗忘度 (Forgetfulness, FN)：对于1-N的关系$r$，测试模型是否回忆$(e,r,o')$。其中$(e,r,o')$是模型编辑前已知的事实。

F、关系特异性 (Relation Specificity, RS)：测试模型是否回忆与编辑事实无关的事实。

数据集构建

本文使用知识图构建基于以上评价指标的数据集RIPPLEDITS：

1、事实三元组的收集：从WIKIDATA（由事实三元组构成的关系知识库）中收集待编辑的事实三元组，依据三个原则：最近(Recent)、随机(Random)、流行(Popular)。

2、事实三元组的修改：对于Recent类型的三元组，模型训练时没有涉及，因此可以直接使用。对于Random和Popular类型的三元组，将相应的三元组事实修改为反事实。

3、关于以上得到的每个待编辑事实三元组，收集六个评估指标对应的测试三元组。

4、将所有事实三元组用模板转换为自然语言。

统计数据如表1所示和图4所示。

实验

图5：in-context编辑 (ICE) 的例子。

表3/4/5：各编辑方法在各模型上以及不同数据类别上的编辑结果。可以看出In-context编辑的综合效果最好。

表6：SOTA方法编辑GPT-2在4个评价指标上的平均结果。可以看出这些方法在这些涟漪效应上效果很差。

图6：ROME在不同参数的模型上编辑的准确率变化图。可以看出，模型参数量越大，ROME准确率越高。

图7：ROME、MEMIT、MEND分别使用三类数据编辑GPT-2在6个评价指标上的平均结果。

总结

1、本文在MQUAKE和浙大综述之后，2023/7/24发布arxiv。

2、本文所讨论的涟漪效应和浙大综述论文(Yao 等, 2023)中提到的可移植性 (Portability) 类似，但本文进一步细化为6个类别，综述中仅主要考虑了本文的2效应。

posted @ 2025-06-11 01:25 颀周阅读(205) 评论(0) 收藏举报

刷新页面返回顶部

LOADING . . .

qizhou

Benchmark论文解读：Evaluating the Ripple Effects of Knowledge Editing in Language Models

方法

评价指标

数据集构建

实验

总结

公告