AdamW优化器

AdamW 是对经典 Adam 的改进版本，通过解耦权重衰减（Weight Decay）与L2正则化，避免了原Adam中权重衰减受自适应学习率影响而失效的问题。这一特性在 Transformer、BERT 等NLP模型以及部分CV任务中表现尤为突出。

核心原理：传统Adam将L2正则化项直接加到梯度中，导致衰减强度依赖学习率；AdamW则在参数更新阶段单独减去 lr * weight_decay * 参数值，实现真正的解耦

https://juejin.cn/post/7425521050056261669