摘要:
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-08 16:31
罗西的思考
阅读(10513)
评论(3)
推荐(1)
摘要:
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。本文将对 Megatron 的基本架构做一下梳理。 阅读全文
posted @ 2022-02-07 20:12
罗西的思考
阅读(14141)
评论(2)
推荐(0)
浙公网安备 33010602011771号