• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • YouClaw
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
我的博客园
首页 文章 关于我 联系
with45
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2026年5月5日

AdamW优化器
摘要: AdamW优化器 对于大模型训练最常用的 Adam / AdamW 优化器来说,优化器状态占用的显存通常是模型参数本身大小的 2 倍到 3 倍。这是训练显存爆炸的“头号元凶”。 以下是详细的拆解和计算: 1. 核心结论:优化器里到底存了什么? 在混合精度训练(FP16 训练)中,AdamW 优化器内 阅读全文
posted @ 2026-05-05 11:56 LiJMING 阅读(9) 评论(0) 推荐(0)
 
 

2026年4月29日

DeepSpeed原理
摘要: DeepSpeed 原理 阅读全文
posted @ 2026-04-29 09:11 LiJMING 阅读(9) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3

© 2026 我的博客园 | 关于我 | 联系 | 隐私政策

Powered by Blog Platform