摘要:
主流分布式训练框架 | 框架名称 | 开发机构 | 核心特性 | 适用场景 | 代表模型/案例 | | | | | | | | DeepSpeed | 微软 | ZeRO-1/2/3 内存优化、3D并行、混合精度、推理压缩一体化 | 超大规模稠密/稀疏模型训练 | GPT-3、BLOOM、MT-NL 阅读全文
posted @ 2025-08-01 15:59
Knight7788
阅读(31)
评论(0)
推荐(0)
摘要:
并行策略 1、数据并行 2、模型并行 3、流水线并行 4、混合并行 阅读全文
posted @ 2025-08-01 15:51
Knight7788
阅读(9)
评论(0)
推荐(0)
摘要:
分布式训练(Distributed Training)是指将深度学习模型的训练任务拆分到多个计算节点(GPU/TPU/CPU)上并行执行,以解决模型规模过大或数据量过大导致的单机训练瓶颈。它通过并行计算、梯度同步和通信优化,实现加速训练、扩展模型规模、降低显存占用等目标。 1、分布式训练的三种核心并 阅读全文
posted @ 2025-08-01 14:39
Knight7788
阅读(36)
评论(0)
推荐(0)
浙公网安备 33010602011771号