05 2025 档案
摘要:DeepSpeed Chat:轻松、快速且经济地在所有规模上对 ChatGPT 类模型进行 RLHF 训练 要引用 DeepSpeed Chat,请引用我们的arxiv 报告: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast an
阅读全文
摘要:https://github.com/NVIDIA/DALI DALI库的核心优势在于其GPU加速能力。传统的数据预处理过程大多在CPU上执行,包括数据的加载、解码、裁剪、调整大小等操作,这些操作往往是计算密集型的,且受限于CPU的计算能力。而DALI库通过将部分或全部数据预处理任务卸载到GPU上执
阅读全文
摘要:在大模型训练中,通信成本是影响训练效率的关键瓶颈之一。数据并行(Data Parallelism) 和 张量并行(Tensor Parallelism) 通过各自的策略来降低通信开销、提升效率。下面从它们的通信特点和优化方式来分析。 一、数据并行(Data Parallelism) 原理: 每个 G
阅读全文
摘要:一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地
阅读全文