001_机器学习 - 随笔分类(第4页) - 罗西的思考

[翻译] NVIDIA HugeCTR，GPU 版本参数服务器 --(10)--- 推理架构

摘要：经过9篇文章之后，我们基本把 HugeCTR 的训练过程梳理了以下，现在我们有必要看看HugeCTR如何进行推理，这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练，此处恰好可以看看分布式推理。阅读全文

posted @ 2022-03-10 17:24 罗西的思考阅读(1023) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(9)--- Local hash表

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。阅读全文

posted @ 2022-03-09 20:09 罗西的思考阅读(909) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(8) ---Distributed Hash之后向传播

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 DistributedSlotSparseEmbeddingHash 的后向操作。阅读全文

posted @ 2022-03-04 17:31 罗西的思考阅读(793) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(7) ---Distributed Hash之前向传播

摘要：在这系列文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-28 16:44 罗西的思考阅读(1592) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (6) --- Distributed hash表

摘要：在这系列文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-23 17:42 罗西的思考阅读(996) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (5) 嵌入式hash表

摘要：在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-22 18:09 罗西的思考阅读(1169) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-21 19:36 罗西的思考阅读(770) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

摘要：在本系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-17 17:40 罗西的思考阅读(935) 评论(0) 推荐(0)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

摘要：在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-16 20:04 罗西的思考阅读(1237) 评论(0) 推荐(1)

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(1)

摘要：本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-15 19:29 罗西的思考阅读(2949) 评论(2) 推荐(0)

[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-14 17:31 罗西的思考阅读(7159) 评论(3) 推荐(0)

[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-10 18:42 罗西的思考阅读(9143) 评论(0) 推荐(2)

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-08 16:31 罗西的思考阅读(10393) 评论(3) 推荐(1)

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。本文将对 Megatron 的基本架构做一下梳理。阅读全文

posted @ 2022-02-07 20:12 罗西的思考阅读(13931) 评论(2) 推荐(0)

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-01-27 18:50 罗西的思考阅读(27075) 评论(2) 推荐(1)

[源码分析] Facebook如何训练超大模型--- (5)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，本文我们介绍 Activation recomputation 相关知识。阅读全文

posted @ 2022-01-26 08:47 罗西的思考阅读(1542) 评论(0) 推荐(0)

[源码分析] Facebook如何训练超大模型---(4)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，之前文章之中我们谈到了FSDP支持混合精度训练，所以我们再来看看相关知识。阅读全文

posted @ 2022-01-24 18:44 罗西的思考阅读(1603) 评论(3) 推荐(0)

[源码分析] Facebook如何训练超大模型 --- (3)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍 FSDP 如何实现 offload。阅读全文

posted @ 2022-01-21 14:35 罗西的思考阅读(3941) 评论(6) 推荐(0)

[源码分析] Facebook如何训练超大模型 --- (2)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍 FSDP 如何实现参数分区。阅读全文

posted @ 2022-01-19 19:53 罗西的思考阅读(3418) 评论(2) 推荐(0)

[源码分析] Facebook如何训练超大模型---(1)

摘要：FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。阅读全文

posted @ 2022-01-17 19:47 罗西的思考阅读(5198) 评论(0) 推荐(0)

随笔分类 - 001_机器学习

公告