会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
15375357604
博客园
首页
新随笔
联系
订阅
管理
2025年10月27日
大模型训练
摘要: 1.Warmup(热身)和余弦衰减(Cosine Decay)是深度学习训练中「学习率调度」的黄金组合,核心是解决「训练初期不稳定」和「后期难收敛」的问题,以下结合实操逻辑、实现方式和关键细节,帮你彻底落地这两个技巧: Warmup 的目的:训练初期,梯度估计和 batch norm/layer n
阅读全文
posted @ 2025-10-27 10:29 15375357604
阅读(8)
评论(0)
推荐(0)
公告