摘要:
AdamW优化器 对于大模型训练最常用的 Adam / AdamW 优化器来说,优化器状态占用的显存通常是模型参数本身大小的 2 倍到 3 倍。这是训练显存爆炸的“头号元凶”。 以下是详细的拆解和计算: 1. 核心结论:优化器里到底存了什么? 在混合精度训练(FP16 训练)中,AdamW 优化器内 阅读全文
posted @ 2026-05-05 11:56
LiJMING
阅读(9)
评论(0)
推荐(0)
浙公网安备 33010602011771号