Knight7788 - 博客园

2025年8月1日

posted @ 2025-08-01 15:59 Knight7788 阅读(38) 评论(0) 推荐(0)

分布式训练2

摘要：并行策略 1、数据并行 2、模型并行 3、流水线并行 4、混合并行阅读全文

posted @ 2025-08-01 15:51 Knight7788 阅读(13) 评论(0) 推荐(0)

分布式训练1

摘要：分布式训练（Distributed Training）是指将深度学习模型的训练任务拆分到多个计算节点（GPU/TPU/CPU）上并行执行，以解决模型规模过大或数据量过大导致的单机训练瓶颈。它通过并行计算、梯度同步和通信优化，实现加速训练、扩展模型规模、降低显存占用等目标。 1、分布式训练的三种核心并阅读全文

posted @ 2025-08-01 14:39 Knight7788 阅读(59) 评论(0) 推荐(0)