随笔分类 -  001_机器学习

上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要:在这系列文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-23 17:42 罗西的思考 阅读(975) 评论(0) 推荐(0)
摘要:在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-22 18:09 罗西的思考 阅读(1146) 评论(0) 推荐(0)
摘要:在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-21 19:36 罗西的思考 阅读(763) 评论(0) 推荐(0)
摘要:在本系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-17 17:40 罗西的思考 阅读(917) 评论(0) 推荐(0)
摘要:在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-16 20:04 罗西的思考 阅读(1218) 评论(0) 推荐(1)
摘要:本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。 阅读全文
posted @ 2022-02-15 19:29 罗西的思考 阅读(2914) 评论(2) 推荐(0)
摘要:NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-14 17:31 罗西的思考 阅读(7032) 评论(3) 推荐(0)
摘要:NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-10 18:42 罗西的思考 阅读(8948) 评论(0) 推荐(2)
摘要:NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-08 16:31 罗西的思考 阅读(10232) 评论(3) 推荐(1)
摘要:NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。本文将对 Megatron 的基本架构做一下梳理。 阅读全文
posted @ 2022-02-07 20:12 罗西的思考 阅读(13649) 评论(2) 推荐(0)
摘要:NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-01-27 18:50 罗西的思考 阅读(26443) 评论(2) 推荐(1)
摘要:FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,本文我们介绍 Activation recomputation 相关知识。 阅读全文
posted @ 2022-01-26 08:47 罗西的思考 阅读(1517) 评论(0) 推荐(0)
摘要:FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,之前文章之中我们谈到了FSDP支持混合精度训练,所以我们再来看看相关知识。 阅读全文
posted @ 2022-01-24 18:44 罗西的思考 阅读(1561) 评论(3) 推荐(0)
摘要:FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现 offload。 阅读全文
posted @ 2022-01-21 14:35 罗西的思考 阅读(3880) 评论(6) 推荐(0)
摘要:FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现参数分区。 阅读全文
posted @ 2022-01-19 19:53 罗西的思考 阅读(3349) 评论(2) 推荐(0)
摘要:FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。 阅读全文
posted @ 2022-01-17 19:47 罗西的思考 阅读(5103) 评论(0) 推荐(0)
摘要:本文以Google 论文 [Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training]为主来学习Parameter Sharding。 阅读全文
posted @ 2022-01-13 19:48 罗西的思考 阅读(1285) 评论(2) 推荐(0)
摘要:本文以论文和官博为主来进行分析ZeRO,这是微软开发的一个可以高效利用显存的优化器,其会将模型状态量(优化器状态,梯度和模型参数)分布在多个并行 GPU 之上,目的是在不使用模型并行的情况下对让数十亿参数模型进行训练。 阅读全文
posted @ 2022-01-11 10:13 罗西的思考 阅读(5738) 评论(6) 推荐(1)
摘要:PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。Zero Redundacy Optimizer 的思想来源于微软的ZeRO,具体实现是基于 Fairscale 的OSS。 阅读全文
posted @ 2022-01-10 16:47 罗西的思考 阅读(5455) 评论(0) 推荐(2)
摘要:“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。 阅读全文
posted @ 2022-01-06 20:13 罗西的思考 阅读(1150) 评论(5) 推荐(0)

上一页 1 2 3 4 5 6 7 8 ··· 11 下一页