001_机器学习 - 随笔分类(第5页) - 罗西的思考

[论文翻译] 分布式训练 Parameter Sharding 之 Google Weight Sharding

摘要：本文以Google 论文 [Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training]为主来学习Parameter Sharding。阅读全文

posted @ 2022-01-13 19:48 罗西的思考阅读(1310) 评论(2) 推荐(0)

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO

摘要：本文以论文和官博为主来进行分析ZeRO，这是微软开发的一个可以高效利用显存的优化器，其会将模型状态量（优化器状态，梯度和模型参数）分布在多个并行 GPU 之上，目的是在不使用模型并行的情况下对让数十亿参数模型进行训练。阅读全文

posted @ 2022-01-11 10:13 罗西的思考阅读(5817) 评论(6) 推荐(1)

[源码解析] PyTorch 分布式之 ZeroRedundancyOptimizer

摘要：PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。Zero Redundacy Optimizer 的思想来源于微软的ZeRO，具体实现是基于 Fairscale 的OSS。阅读全文

posted @ 2022-01-10 16:47 罗西的思考阅读(5517) 评论(0) 推荐(2)

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(3)

摘要：“Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。阅读全文

posted @ 2022-01-06 20:13 罗西的思考阅读(1168) 评论(5) 推荐(0)

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(2)

摘要：“Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。阅读全文

posted @ 2022-01-05 21:08 罗西的思考阅读(995) 评论(0) 推荐(0)

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(1)

摘要：“Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。阅读全文

posted @ 2022-01-04 19:18 罗西的思考阅读(1539) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(7)---节点变化

摘要：本文分析如何处理节点变化。即对成员更改作出反应，并使用新的成员来重启所有workers，从而实现弹性训练。阅读全文

posted @ 2021-12-31 14:31 罗西的思考阅读(1048) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错

摘要：关于PyTorch弹性训练，迄今为止我们已经分别介绍了 Agent 和 rendezous，但是有些部分并没有深入，比如监控，本文就把它们统一起来，对弹性训练做一个整体逻辑上的梳理。阅读全文

posted @ 2021-12-29 18:02 罗西的思考阅读(2829) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第五篇，看看Rendezvous 的内部引擎，比如如何处理节点加入，节点离开，等待，心跳等等。阅读全文

posted @ 2021-12-28 09:55 罗西的思考阅读(1836) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(4)---Rendezvous 架构和逻辑

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第四篇，看看Rendezvous 的结构和总体逻辑。阅读全文

posted @ 2021-12-27 10:15 罗西的思考阅读(3075) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(3)---代理

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第三篇，看看弹性代理的基本功能。阅读全文

posted @ 2021-12-25 10:15 罗西的思考阅读(2323) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第二篇，重点关注的是如何启动弹性训练，并且可以对系统总体架构有所了解。阅读全文

posted @ 2021-12-24 09:01 罗西的思考阅读(5791) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第一篇，介绍其历史和设计理念，也会与Horovod做一下对比。阅读全文

posted @ 2021-12-22 09:36 罗西的思考阅读(3603) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用 RPC 来完成分布式管道并行。阅读全文

posted @ 2021-12-20 10:03 罗西的思考阅读(1494) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式(17) --- 结合DDP和分布式 RPC 框架

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何把DDP和RPC framework结合起来。阅读全文

posted @ 2021-12-16 20:38 罗西的思考阅读(1943) 评论(0) 推荐(0)

[源码解析] PyTorch 分布式(16) --- 使用异步执行实现批处理 RPC

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用异步执行操作来实现批处理 RPC，大家可以学习到PyTorch对参数服务器一个新的实现方式。阅读全文

posted @ 2021-12-15 21:04 罗西的思考阅读(1269) 评论(3) 推荐(1)

[源码解析] PyTorch 分布式(15) --- 使用分布式 RPC 框架实现参数服务器

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何使用分布式 RPC 框架实现参数服务器。阅读全文

posted @ 2021-12-14 17:03 罗西的思考阅读(1741) 评论(2) 推荐(0)

[源码解析] PyTorch 分布式(14) --使用 Distributed Autograd 和 Distributed Optimizer

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，接下来我们通过几篇文章来看看如何把这些模块应用到实践之中，顺便把PyTorch分布式逻辑整体梳理一下。本文介绍如何把分布式自动微分和分布式优化器结合起来训练一个模型。阅读全文

posted @ 2021-12-13 09:39 罗西的思考阅读(1393) 评论(0) 推荐(1)

[源码解析] PyTorch分布式优化器(3)---- 模型并行

摘要：本系列介绍分布式优化器，分为三篇文章，分别是基石篇，DP/DDP/Horovod 之中数据并行的优化器，PyTorch 分布式优化器，按照深度递进。本文介绍PyTorch 分布式优化器和PipeDream之中的优化器，主要涉及模型并行（流水线并行）。阅读全文

posted @ 2021-12-09 19:08 罗西的思考阅读(2820) 评论(0) 推荐(0)

[源码解析] PyTorch分布式优化器(2)----数据并行优化器

摘要：本系列介绍分布式优化器，分为三篇文章，分别是基石篇，DP/DDP/Horovod 之中数据并行的优化器，PyTorch 分布式优化器，按照深度递进。本文介绍数据并行DP/DDP/Horovod 之中的优化器。阅读全文

posted @ 2021-12-08 19:36 罗西的思考阅读(1696) 评论(0) 推荐(2)

随笔分类 - 001_机器学习

公告