数据并行真能 “瘦身” 内存?
摘要:
数据并行(Data Parallelism)** 不能减少单卡的内存占用 ,反而可能略微增加总内存消耗。但它能通过分摊计算压力 **,让大模型或大批次训练在有限显存的 GPU 上可行。以下是具体分析: 一、数据并行的原理与内存关系 数据并行的核心逻辑是: 每个 GPU 保存 ** 完整的模型副本 * 阅读全文
posted @ 2025-08-19 10:36 limingqi 阅读(12) 评论(0) 推荐(0)