2025年2月18日

模型训练和计算过程中的一些优化

摘要: 优化 I/O 加载 主要是为了减少 CPU-GPU 之间的数据传输瓶颈,提升推理效率。DeepSeek 可能采用了以下几种 极致优化方案: 🔹 1. CPU-GPU 直接访问(Pinned Memory & Zero Copy) ✅ 问题:普通数据传输 • CPU 内存(系统 RAM)和 GPU 阅读全文

posted @ 2025-02-18 17:24 zhangkele 阅读(283) 评论(0) 推荐(0)

大模型计算和模型训练过程中-量化/稀疏计算 (Sparsity Pruning)技术的学习

摘要: 在大模型计算(如深度学习模型)中,量化是一种用较低精度数据类型表示模型参数和激活值的技术。它可以带来以下主要收益: 1. **降低存储需求**: - 使用低精度数据表示(如 `int8` 而不是 `float32`)可以显著减少模型所需的存储空间。这对于在内存有限的设备(如移动设备、嵌入式系统)上部 阅读全文

posted @ 2025-02-18 16:04 zhangkele 阅读(716) 评论(0) 推荐(0)

导航