【文献阅读】通过学习和放弃学习进行知识交换
通过学习和放弃学习进行知识交换
原文标题:Knowledge Swapping via Learning and Unlearning
作者:
- Mingyu Xing (邢明宇):合肥工业大学 (Hefei University of Technology) 软件工程专业本科生。
- Lechao Cheng (程乐超):浙江实验室 (Zhejiang Lab) 副教授,也曾获得浙江大学博士学位。
- Shengeng Tang (唐申庚):合肥工业大学 (Hefei University of Technology) 计算机与信息工程学院讲师。
- Yaxiong Wang (王亚雄):合肥工业大学 (Hefei University of Technology) 计算机与信息工程学院副教授,曾任职于浙江实验室。
- Zhun Zhong (钟准):诺丁汉大学 (University of Nottingham) 助理教授。
- Meng Wang
期刊: ICML 2025
1 背景
深度学习的激增导致了预训练模型的广泛采用(Han等人,2021),这些模型通常使用特定任务的数据进行微调,以实现参数高效的适应。在流任务的背景下,研究人员越来越多地探索了不断优化和调整预训练模型以适应新任务的方法(Lin等人,2023;Chen等人,2024;Zhu等人,2023),这是一种被称为持续学习的范式(Wang等人,2024)。然而,在实际应用中,随着深度模型整合了更多的知识,它们经常会遇到额外的要求,例如需要不断阻止或忘记某些敏感内容。最近的工作,如 machine unlearning,已经开始着手解决预训练模型中特定内容的单边遗忘问题。尽管如此,同时能够学习新知识和忘记特定内容的方法仍然没有得到充分探索。
受到这一见解的启发,我们提出了一项名为“知识交换”的新任务,该任务能够选择性地遗忘特定类别的知识,同时保留其他类别的知识。如图1所示,持续学习旨在将新的任务知识整合到现有的预训练模型中。当前的主流方法(Li等人,2024;Wang等人,2022b)通常涉及为每个任务附加一个新的适配器并对其进行微调,但忘记过时或相关性较低的知识的需要仍然是一个尚未充分探索的挑战。机器忘却的最新进展(Liu等人,2024b;Wang等人,2025)表明,从预训练模型中分离或删除特定知识需要一个明确的忘却过程。相比之下,我们提出的知识交换任务有助于学习新任务,同时忘记不太重要的先验知识或需要保护的敏感数据,从而保留了预训练模型的核心能力。
我们进一步深入研究了如何通过利用经验见解更有效地进行知识交换。直观地说,这个过程可以分为两个阶段:忘记具体知识和学习新知识。一个自然的假设可能是,模型应该首先忘记不太重要或可能有害的先验,以便“释放”新信息的容量。我们进行了一组简单的实验,单独分析增量学习和有针对性的遗忘如何影响每个模型参数。我们的研究结果表明,增量学习通常从低级表示发展到高级语义特征,而遗忘往往发生在相反的方向——从高级语义开始,向下发展到低级特征。这种对比为设计知识交换任务的策略提供了宝贵的见解。具体来说,如果我们首先执行有针对性的遗忘,我们可能会在低级特征空间发生任何重大调整之前完成高级语义的遗忘。一旦我们之后开始引入新内容,这些低级更改可能不再与之前被遗忘的高级语义表示保持一致,从而产生潜在的冲突。相反,如果我们首先学习新任务(从而更新低级特征分布),然后才进行有针对性的遗忘,则该过程更有可能局限于更高级的语义。因此,更新的低级分布在遗忘阶段不太可能受到干扰,这有助于保持先前获得的知识的完整性。我们实证表明,先学习新任务,然后选择性遗忘特定知识,会带来明显更好的结果。我们的贡献总结如下:
- 我们提出了知识交换的概念,这是一种新的任务,它有助于学习新任务,同时忘记不太重要的先验知识并保留基本的预训练能力。
- 我们发现,增量学习从低级语义特征向高级语义特征发展,而有针对性的遗忘从高级语义开始向下发展。这种方向性对比为如何设计有效的知识交换程序提供了关键的见解。
- 基于特征层次相互作用的见解,我们提出通过顺序学习然后遗忘的原则来实现知识交换。综合实验还表明,所提出的策略显著提高了整体性能。
2 相关工作
2.1 持续学习
持续学习,也称为终身学习,旨在使模型能够逐步学习新任务,同时减轻灾难性遗忘。现有方法可大致分为基于正则化的方法、基于记忆的方法和基于架构的方法。
- 基于正则化的方法在损失函数中引入约束,以保留过去的知识。例如,EWC(Kirkpatrick等人,2017)将旧模型中的知识提取到新模型中,以实现预测的一致性。
- 基于记忆的方法维护外部存储器来存储或生成过去的知识。BMKP(Sun等人,2023)引入了一个双层记忆框架,其中工作记忆适应新任务,长期记忆保留紧凑的知识表示。
- 基于架构的方法扩展了模型以适应新任务。渐进式神经网络(Rusu等人,2016)使用梯度增强扩展了模型,并通过知识蒸馏对其进行压缩。ArchCraft(Lu等人,2024)利用神经架构搜索(NAS)来平衡稳定性和可塑性,生成以最小参数开销增强知识保留的架构。
我们提出的方法的目标是通过持续学习方法平衡记忆和学习。然而,知识交换带来了选择性遗忘的额外挑战,这在传统的持续学习方法中没有明确解决。
2.2 Machine Unlearning
机器忘却侧重于在不需要完全重新训练的情况下,有效地从训练模型中删除特定数据或知识,这对数据隐私合规至关重要。最早的方法之一是微调,它通过在保留数据集上重新训练模型来利用灾难性遗忘,尽管它可能会留下被遗忘数据的残留痕迹。这种方法为后续的忘却技巧奠定了基础。在此基础上,出现了影响函数(Koh&Liang,2017),它估计了单个数据点对模型参数的影响,为数据删除提供了一种更精确、计算效率更高的方法,而无需重新训练整个模型。后来,引入了更复杂的方法。NegGrad+(Kurmanji等人,2024)平衡了遗忘集和保留数据集的损失,在遗忘过程中提供了更可控的权衡。为了进一步细化特定知识的去除,L1稀疏(Liu等人,2024a)引入了L1正则化来消除与遗忘数据相关的参数,有效地消除了它们对模型的影响。此外,重新标记技术,如显著性取消学习(Feldman,2020),通过改变标签来破坏模型对被遗忘数据的记忆,注重修改存储数据影响的关键参数。
与主要关注单个数据点的传统遗忘方法不同,我们提出的框架引入了一种新的类别级遗忘方法。通过将学习、记忆和遗忘过程整合到一个统一的系统中,该框架为知识管理提供了更大的灵活性和控制力,标志着该研究领域的重大进步。
3 Knowledge Swapping
3.1 任务定义
pass
3.2 先忘后学,还是先学后忘?
回顾一下,我们已经对知识交换任务进行了全面的定义,我们注意到,根据其标准,它可以自然地分为两个核心阶段:遗忘和学习。这突显了一个关键问题:模型在学习新信息(这似乎直观上很有吸引力)之前,应该先忘记某些现有知识,还是应该先学习新内容,然后再进行遗忘?我们回答这个序列困境的方式直接告诉我们如何设计一个稳健的知识交换基准。虽然直观上,忘记旧知识似乎可以释放容纳新知识的能力,但这真的是最佳方法吗?为了探索这一点,我们对语义分割等密集预测任务进行了两组实验,每组对应于这两个学习顺序中的一个。然后,我们研究了神经网络的参数在各个层上是如何在每种方法下演变的(见图2)。
Knock-on Feature Hierarchy。在本节中,我们直接评估流程每个阶段的权重规范和参数差异。具体来说,\(L\rightarrow F\) 代表遗忘前的学习,而 \(F\rightarrow L\) 表示遗忘后学习。上标 \(W\) 表示每个序列下不同阶段的权重标准。我们汇总了多个图像分割任务的结果,并观察到,当遵循 \(L\rightarrow F\) 序列中,大多数参数更新发生在神经网络的后一层——负责生成语义级特征的层。相反,在 \(F\rightarrow L\) 序列,主要变化集中在早期层,产生低级特征。根据这些结果,我们发现:
发现-I:增量学习通常从低级表示发展到高级语义特征,而遗忘往往发生在相反的方向——从高级语义开始,向下发展到低级特征。
备注:这一看似直观的发现的实际意义是什么?显然,它的层次特征含义为设计知识交换策略提供了宝贵的见解。具体来说,如果我们首先进行有针对性的遗忘,我们可能会在对低级特征参数空间进行任何实质性调整之前删除高级语义参数。然而,一旦我们随后引入新内容,对低级参数的进一步修改可能会导致高级语义的不一致(由于更改低级参数而破坏遗忘管道),从而可能导致冲突。相比之下,如果我们从学习一项新任务(从而更新低级参数)开始,然后进行有针对性的遗忘,遗忘过程更有可能局限于高级语义参数。
原则:先学后忘。回想一下,我们证明了在学习之前启动遗忘过程会由于低级特征学习的改变而破坏预期的遗忘。这就提出了一个问题:在遗忘之前进行学习过程是否同样会干扰先前获得的知识?我们还测量了两个主要序列的平均梯度变化,\(L\rightarrow F\) 和 \(F\rightarrow L\),如图4所示。上标 \(G\) 表示现阶段的对数平均梯度。首先,学习阶段的参数变化(\(L^G\rightarrow F\) 和 \(F\rightarrow L^G\))始终更重要,表明学习过程相对具有挑战性;第二,在 \(L\rightarrow F^G\) 阶段,遗忘梯度的最终更新仍然很小,这表明遗忘前学习更稳定。
4 Benchmark
4.1 概述
如图3所示,我们采用低秩自适应(LoRA)技术(Hu等人,2021)来微调预训练模型M0(第4.2节)。此外,我们利用群稀疏正则化来约束特定知识的选择性学习和遗忘(第4.3节)。
4.2 基于 LoRA 的微调
基于(Geva等人,2020)中的发现,即Transformers中的线性层封装了大量模型知识,我们采用低秩自适应(LoRA)技术(Hu等人,2021)仅对这些线性层进行微调。
设 \(X\) 表示第 \(t\) 次梯度更新后第 \(k\) 个变压器块的前馈网络(FFN)的输入。第一线性层的权重和偏置分别由 \(W_{k1}^t\) 和 \(b_{k1}^t\) 表示,而第二线性层的那些由 \(W_{k2}^t\) 和 \(b_{k2}^t\) 表示。FFN执行的计算可以表示为:
使用 LoRA,权重被分解为其原始的预训练分量和可学习的低阶自适应:
这种方法通过仅关注 Transformer 的线性层来确保高效适应,这些线性层被假定存储了模型的大部分知识。虽然偏置 \(b_{k1}^t\) 和 \(b_{k2}^t\) 也可以被微调,但与权重相比,它们通常涉及更少的参数。通过限制对低秩矩阵的更新,LoRA实现了高效的微调,减少了计算和存储开销,同时保留了原始预训练权重中嵌入的知识。
4.3 稀疏约束
我们采用组系数正则化来选择性地保留前馈网络(FFN)模块中的特定知识。具体来说,我们采用Lasso策略(Liu等人,2015;Wen等人,2016;袁和林,2006)进行群稀疏正则化。Lasso通过将 LoRA 中不相关的 FFN 模块的 \(A\) 和 \(B\) 矩阵归零来实现知识的选择性保留,从而实现有针对性的学习和遗忘。Lasso正则化损失 \(\mathcal{L}_{re}\) 定义如下:
其中 \({||\cdot ||}_F\) 表示 Frobenius 范数,计算为矩阵平方元素之和的平方根,\(n\) 表示FFN群的数量。
备注:稀疏约束通过限制非零参数、减少计算和存储开销以及加速推理来提高参数效率。在知识交换任务中,它们能够有选择地保留当前任务的关键参数,同时抑制冗余参数,从而防止新知识和现有知识之间的冲突。此外,参数稀疏化减轻了学习和遗忘过程中不相关变量的干扰(模型修剪中的类似想法),使模型能够专注于重要信息。具体来说,Lasso 正则化会惩罚矩阵的 Frobenius 范数,从而促进组稀疏化。这可以在模块级别选择性地保留和遗忘知识,并在引入新知识时保持低级特征参数的稳定性。因此,模型在保留新知识的同时,也能维持现有表示的稳定性。总的来说,稀疏约束能有效管理知识交换中的参数,从而实现对新任务的有效适应并保持先前获取的知识,进而支持可扩展的持续学习。
4.4 训练和推理协议
在学习阶段,目标是让模型在保留基本现有知识的同时获取新知识。因此,该阶段的损失函数定义如下:
在遗忘阶段,目标是消除特定知识,同时保留原始知识和新获得的知识。这涉及最小化 \(\mathcal{L}(f(X_r),Y_r)\) 和 \(\mathcal{L}(f(X_l),Y_l)\),同时最大化 \(\mathcal{L}(f(X_r),Y_r)\)。然而,直接最大化负损失(即最小化 \(-\mathcal{L}(f(X_r),Y_r)\))可能会导致无限制的损失增长,从而导致优化不稳定。为了解决这个问题,我们引入了边界约束(BND)来稳定损耗。遗忘阶段的最终损失函数定义为:
5 实验
5.1 图像分类任务
-
基础模型: 采用在 ImageNet-100 上预训练的 VIT-B16 模型。
-
数据集:
- 学习集: 包含 CUB-200-2011、Oxford IIIT Pet、RESISC45 和 PlantVillage。
- 保留集与遗忘集: 均从 ImageNet-100 中选择。
-
超参数:
- 训练阶段: α=0.05, β=0.2。
- 遗忘阶段: BND=105。
-
评估指标: 准确性 (Accuracy)。
-
结果:
-
如表1所示,在“先忘后学”设置下,模型表现出卓越的知识管理能力。学习集的准确率从约0%持续提升至90%以上,充分证明了模型高效的新知识获取能力。同时,遗忘集的准确率从约80%大幅下降至0%,表明遗忘过程极为成功。值得注意的是,保留集即使在整个过程中受到有限的负面影响,其性能也得到了良好的保持。
进一步对“先学后忘”逆序进行评估时,我们观察到尽管遗忘集在遗忘阶段准确性显著下降,但随后的学习阶段导致模型低级别参数发生实质性变化,使得之前被遗忘的高级参数变得无效,反而在后期阶段导致遗忘集准确性回升。这一发现有力地支持了本研究的核心假设。
-
5.2 目标检测任务
-
基础模型: 采用在 COCO 数据集上预训练的 DINO 模型。
-
数据集:
- 学习集: 包含 CUB-200-2011 和 Stanford Dogs。具体类别为:
- CUB-200-2011:黑脚信天翁、黑背信天翁、暗色信天翁、凹嘴安尼鸟、布鲁尔黑鸟。
- Stanford Dogs:吉娃娃、马尔济斯犬、巴吉度猎犬、美国斯塔福郡梗、诺维奇梗。
- 保留集与遗忘集: 均来自 COCO 数据集。其中,遗忘集包含:人、泰迪熊、马桶、长凳、床。
- 学习集: 包含 CUB-200-2011 和 Stanford Dogs。具体类别为:
-
超参数:
- 学习阶段: α=0.01, β=0.9。
- 遗忘阶段: BND=15, α=0.01, β=0.2。
-
评估指标: 平均精度 (mAP)。
-
结果:
-
表3中的定量结果明确展示了“先忘后学” 策略在目标检测任务中的优越性:保留集的 mAP 稳定在约55%;遗忘集的 mAP 从 44.5% 显著下降至1%以下;而学习集的 mAP 从 0 提升至令人满意的水平。这些结果共同证实了我们方法的成功。
与之形成对比的是,“先学后忘”(F → L)设置下,遗忘集仍然保留了相对较高的 mAP,这表明遗忘效果不佳。这一观察进一步支持了我们的核心假设:学习过程是从低级特征向高级特征推进,而遗忘过程则恰恰相反,是从高级特征向低级特征进行。
-
5.3 语义分割任务
-
基础模型: 采用在 ADE20K 上预训练的 Mask2Former 模型。
-
数据集:
- 学习集: 包含 Pascal VOC、COCO、Oxford IIIT Pet 和 DeepGlobe Land,涵盖多种细分领域。
-
超参数:
- 学习阶段: α=0.01, β=0.9。
- 遗忘阶段: BND=115, α=0.01, β=0.2。
-
评估指标: 平均交并比 (mIoU)。
-
结果:
-
表2的结果显示,在“先忘后学”策略下,保留集的 mIoU 保持稳定,确保了现有知识的有效记忆。相比之下,遗忘集的 mIoU 从 68.31% 大幅下降至接近0%,表明实现了完全遗忘。同时,学习集的 mIoU 达到了较高水平,确认了新知识获取的成功。图5形象地展示了这一过程:例如,“灯”和“路灯”类别被成功遗忘并融入“墙”中,而新学习的“牛”类别即使在随后的遗忘阶段后也得到了很好的保留。
相反,在“先学后忘”设置下(表2),尽管保留集和学习集表现良好,但遗忘集的 mIoU 在学习后反而增加。这主要归因于低级参数的显著变化,导致之前调整过的高级遗忘参数失效。图7直观地突出了这一问题,最初被擦除并融入沙子中的“山脉”,在学习后重新出现,揭示了这种方法的不稳定性。
-
5.4 见解和讨论
为了进一步验证我们策略的有效性,我们额外进行了一项“遗忘-学习-遗忘” (Forget-Learn-Forget)序列实验。如表2所示,尽管遗忘集在初始遗忘和随后的学习阶段后,其 mIoU 仍然保持较高水平,但在第二次遗忘阶段后,mIoU 显著降低。这一结果证明了“先学后忘” (Learn Before Forget)策略的鲁棒性。此外,L → F → L (学习-遗忘-学习) 的结果也间接证明了将学习阶段放在序列末尾会影响之前被遗忘的内容。我们分析了模型参数在不同阶段的 L2 范数,如图6所示。红线表示从“遗忘”到“遗忘-学习”的参数变化,而黑线表示从“遗忘-学习”到“遗忘-学习-遗忘”的参数变化。结果显示,学习引起的参数变化主要集中在模型的早期层,而与遗忘相关的变化在后期层更为显著。这些观察结果与我们之前的发现高度吻合。
6 结论
我们提出了知识交换,这是一项新任务,通过实现三个目标来实现对模型知识的选择性调节:忘记用户指定的知识、保留基本知识和学习新知识。为了实现这一目标,我们引入了一种基于“遗忘前学习”原则的两阶段训练策略,该策略将学习和遗忘解耦,以有效减轻灾难性遗忘。我们用各种实验来衡量遗忘前的学习。然而,我们的实验也表明,学习不同类别的新知识和忘记旧知识的难度各不相同。未来研究的一个有趣方向是探索和分析遗忘特定知识和学习类别新知识的困难。

浙公网安备 33010602011771号