AdamW优化器

AdamW 是对经典 Adam 的改进版本,通过解耦权重衰减(Weight Decay)与L2正则化,避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。

核心原理: 传统Adam将L2正则化项直接加到梯度中,导致衰减强度依赖学习率;AdamW则在参数更新阶段单独减去 lr * weight_decay * 参数值,实现真正的解耦

 

https://juejin.cn/post/7425521050056261669

 

posted @ 2026-01-20 17:00  blcblc  阅读(0)  评论(0)    收藏  举报