摘要: 1.Warmup(热身)和余弦衰减(Cosine Decay)是深度学习训练中「学习率调度」的黄金组合,核心是解决「训练初期不稳定」和「后期难收敛」的问题,以下结合实操逻辑、实现方式和关键细节,帮你彻底落地这两个技巧: Warmup 的目的:训练初期,梯度估计和 batch norm/layer n 阅读全文
posted @ 2025-10-27 10:29 15375357604 阅读(8) 评论(0) 推荐(0)