2025 年 5月随笔档案 - stardsd

Microsoft DeepSpeed

摘要：DeepSpeed Chat：轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练要引用 DeepSpeed Chat，请引用我们的arxiv 报告： @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an 阅读全文

posted @ 2025-05-08 16:02 stardsd 阅读(88) 评论(0) 推荐(0)

The NVIDIA Data Loading Library (DALI®)

摘要：https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行，包括数据的加载、解码、裁剪、调整大小等操作，这些操作往往是计算密集型的，且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执阅读全文

posted @ 2025-05-08 15:38 stardsd 阅读(132) 评论(0) 推荐(0)

数据并行、张量并行及其实现

摘要：在大模型训练中，通信成本是影响训练效率的关键瓶颈之一。数据并行（Data Parallelism）和张量并行（Tensor Parallelism）通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。一、数据并行（Data Parallelism）原理：每个 G 阅读全文

posted @ 2025-05-08 15:29 stardsd 阅读(803) 评论(0) 推荐(0)

MFU（Model FLOPs Utilization）与大模型的训练效率

摘要：一、问题背景随着AIGC领域的兴起，各大厂商都在训练和推出自研的大模型结构，并结合业务进行落地和推广。在大模型分布式训练场景中，主流的主要是基于英伟达GPU进行训练（如A100），如何有效地压榨GPU的计算能力，提升训练效率，降低训练成本，是一个非常重要的实践优化问题。 1.1 直接目标最直接地阅读全文

posted @ 2025-05-08 14:58 stardsd 阅读(1365) 评论(0) 推荐(0)

赏月斋

慎终如始宁静致远

05 2025 档案

公告

赏月斋

慎终如始 宁静致远

05 2025 档案

公告

慎终如始宁静致远