会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
2025年7月24日
[LLM]大模型训练DeepSpeed(一)-原理介绍
摘要: 前言 DeepSpeed核心思想 DeepSpeed的核心就在于,GPU显存不够,CPU内存来凑。 比方说,我们只有一张10GB的GPU,那么我们很可能需要借助80GB的CPU,才能够训练一个大模型。 看一下官网对于这个理念的描述: Why would you want to use DeepSpe
阅读全文
posted @ 2025-07-24 15:42 有何m不可
阅读(224)
评论(0)
推荐(0)
公告