2025年8月19日

数据并行真能 “瘦身” 内存?

摘要: 数据并行(Data Parallelism)** 不能减少单卡的内存占用 ,反而可能略微增加总内存消耗。但它能通过分摊计算压力 **,让大模型或大批次训练在有限显存的 GPU 上可行。以下是具体分析: 一、数据并行的原理与内存关系 数据并行的核心逻辑是: 每个 GPU 保存 ** 完整的模型副本 * 阅读全文

posted @ 2025-08-19 10:36 limingqi 阅读(12) 评论(0) 推荐(0)

Qwen2.5-3B 奖励模型显存瘦身术:轻量运行,性能不减

摘要: 要优化 Qwen2.5-3B 奖励模型的显存占用,需从模型加载、数据处理、训练策略三个维度综合优化。以下是具体可落地的方案,按显存节省效果排序: 一、缩短序列长度(显存优化最显著) Qwen2.5-3B 在 8192 tokens 时显存需求极高,优先缩短序列长度: python运行 # 在toke 阅读全文

posted @ 2025-08-19 10:20 limingqi 阅读(95) 评论(0) 推荐(0)

导航