摘要: 并行计算/分布式 充分运用多机、多卡的算力,来组织大模型权重的加载,模型的训练、数据的分配、梯度的更新等 核心思想:抓准资源瓶颈,进行合适的调度 NCCL与通信原语 NCCL是nvidia同机多卡间通信的协议,包含几个基本的操作,称为原语 Broadcast:将一份数据复制到所有显卡上 reduce 阅读全文
posted @ 2025-05-23 19:26 Phile-matology 阅读(30) 评论(0) 推荐(0)