2025 年 7月 2 日随笔档案 - fariver

2025年7月2日

摘要：分布式通信原语 Broadcast: 将一张XPU卡数据复制同步到其它所有XPU卡上 Scatter: 将一张XPU卡数据切片分发到其它所有XPU卡上 Reduce：接收其它所有XPU卡上数据，通过某种操作(Sum/Mean/Max)之后，最终放到某个XPU卡上 Gather: 接受其它所有XPU卡阅读全文

posted @ 2025-07-02 20:21 fariver 阅读(21) 评论(0) 推荐(0)

[思考] LLM训练工程优化

摘要：背景大语言模型（LLM）参数量已突破万亿，单次训练计算量达千亿亿次浮点运算（ExaFLOPs）。单卡GPU显存上限仅80GB（A100），算力峰值312 TFLOPS，显存墙与通信墙成为千卡/万卡分布式训练的核心瓶颈。前置知识 1. DDP训练过程数据切片：全局Batch拆分为子Bat 阅读全文

posted @ 2025-07-02 20:19 fariver 阅读(173) 评论(0) 推荐(0)

fariver

公告