知识蒸馏优化多任务学习收敛性

多任务学习的收敛挑战

传统多任务学习（MTL）通过最小化任务损失总和进行优化，但由于任务难度差异，常导致某些任务过拟合而其他任务欠拟合（左图）。现有方法试图通过静态/动态损失权重或梯度操纵来平衡任务收敛速度，但效果有限。

知识蒸馏异步收敛法

我们在NAACL 2022提出的方法创新性地允许任务按自身节奏收敛：当某任务验证曲线达到峰值时（右图虚线），即切换为该任务的知识蒸馏损失，使用其最佳参数生成的软标签继续训练，同时其他任务仍用真实标签学习。该方法通过两种模式实现：

联合训练：所有任务同时训练，逐任务切换为KD损失
顺序训练：逐个添加新任务，已收敛任务始终使用KD损失

电商场景实验验证

在两个包含5个任务的电商数据集上测试：

相似任务组（均为分类任务）：平均提升0.9%
异构任务组（多样化任务类型）：平均提升1.5%
验证曲线显示该方法能有效维持已收敛任务的峰值性能（下图），避免传统方法中出现的性能下降。

技术优势

该方法突破了强制同步收敛的限制，通过：

保留任务特异性收敛节奏
知识蒸馏锁定峰值性能
支持联合/顺序两种训练范式
为电商场景下的多任务学习提供了新的优化路径。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-07-30 06:03 CodeShare 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部