摘要: 分布式通信原语 Broadcast: 将一张XPU卡数据复制同步到其它所有XPU卡上 Scatter: 将一张XPU卡数据切片分发到其它所有XPU卡上 Reduce:接收其它所有XPU卡上数据,通过某种操作(Sum/Mean/Max)之后,最终放到某个XPU卡上 Gather: 接受其它所有XPU卡 阅读全文
posted @ 2025-07-02 20:21 fariver 阅读(21) 评论(0) 推荐(0)
摘要: 背景 大语言模型(LLM)参数量已突破万亿,单次训练计算量达千亿亿次浮点运算(ExaFLOPs)。单卡GPU显存上限仅80GB(A100),算力峰值312 TFLOPS,显存墙与通信墙成为千卡/万卡分布式训练的核心瓶颈。 前置知识 1. DDP训练过程 ​​数据切片​​:全局Batch拆分为子Bat 阅读全文
posted @ 2025-07-02 20:19 fariver 阅读(173) 评论(0) 推荐(0)