2025年8月1日
摘要: 主流分布式训练框架 | 框架名称 | 开发机构 | 核心特性 | 适用场景 | 代表模型/案例 | | | | | | | | DeepSpeed | 微软 | ZeRO-1/2/3 内存优化、3D并行、混合精度、推理压缩一体化 | 超大规模稠密/稀疏模型训练 | GPT-3、BLOOM、MT-NL 阅读全文
posted @ 2025-08-01 15:59 Knight7788 阅读(31) 评论(0) 推荐(0)
摘要: 并行策略 1、数据并行 2、模型并行 3、流水线并行 4、混合并行 阅读全文
posted @ 2025-08-01 15:51 Knight7788 阅读(9) 评论(0) 推荐(0)
摘要: 分布式训练(Distributed Training)是指将深度学习模型的训练任务拆分到多个计算节点(GPU/TPU/CPU)上并行执行,以解决模型规模过大或数据量过大导致的单机训练瓶颈。它通过并行计算、梯度同步和通信优化,实现加速训练、扩展模型规模、降低显存占用等目标。 1、分布式训练的三种核心并 阅读全文
posted @ 2025-08-01 14:39 Knight7788 阅读(36) 评论(0) 推荐(0)