知识蒸馏优化多任务学习收敛性

多任务学习的收敛挑战

传统多任务学习(MTL)通过最小化任务损失总和进行优化,但由于任务难度差异,常导致某些任务过拟合而其他任务欠拟合(左图)。现有方法试图通过静态/动态损失权重或梯度操纵来平衡任务收敛速度,但效果有限。

知识蒸馏异步收敛法

我们在NAACL 2022提出的方法创新性地允许任务按自身节奏收敛:当某任务验证曲线达到峰值时(右图虚线),即切换为该任务的知识蒸馏损失,使用其最佳参数生成的软标签继续训练,同时其他任务仍用真实标签学习。该方法通过两种模式实现:

  1. 联合训练:所有任务同时训练,逐任务切换为KD损失
  2. 顺序训练:逐个添加新任务,已收敛任务始终使用KD损失

电商场景实验验证

在两个包含5个任务的电商数据集上测试:

  • 相似任务组(均为分类任务):平均提升0.9%
  • 异构任务组(多样化任务类型):平均提升1.5%
    验证曲线显示该方法能有效维持已收敛任务的峰值性能(下图),避免传统方法中出现的性能下降。

技术优势

该方法突破了强制同步收敛的限制,通过:

  1. 保留任务特异性收敛节奏
  2. 知识蒸馏锁定峰值性能
  3. 支持联合/顺序两种训练范式
    为电商场景下的多任务学习提供了新的优化路径。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
    公众号二维码
posted @ 2025-07-30 06:03  CodeShare  阅读(21)  评论(0)    收藏  举报