摘要:        
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现参数分区。    阅读全文
        
            posted @ 2022-01-19 19:53
罗西的思考
阅读(3391)
评论(2)
推荐(0)
        
        
            
        
        
摘要:        
FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。    阅读全文
        
            posted @ 2022-01-17 19:47
罗西的思考
阅读(5145)
评论(0)
推荐(0)
        
        
            
        
        
摘要:        
本文以Google 论文 [Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training]为主来学习Parameter Sharding。    阅读全文
        
            posted @ 2022-01-13 19:48
罗西的思考
阅读(1296)
评论(2)
推荐(0)
        
        
            
        
        
摘要:        
本文以论文和官博为主来进行分析ZeRO,这是微软开发的一个可以高效利用显存的优化器,其会将模型状态量(优化器状态,梯度和模型参数)分布在多个并行 GPU 之上,目的是在不使用模型并行的情况下对让数十亿参数模型进行训练。    阅读全文
        
            posted @ 2022-01-11 10:13
罗西的思考
阅读(5783)
评论(6)
推荐(1)
        
        
            
        
        
摘要:        
PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。Zero Redundacy Optimizer 的思想来源于微软的ZeRO,具体实现是基于 Fairscale 的OSS。    阅读全文
        
            posted @ 2022-01-10 16:47
罗西的思考
阅读(5488)
评论(0)
推荐(2)
        
        
            
        
        
摘要:        
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。    阅读全文
        
            posted @ 2022-01-06 20:13
罗西的思考
阅读(1160)
评论(5)
推荐(0)
        
        
            
        
        
摘要:        
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。    阅读全文
        
            posted @ 2022-01-05 21:08
罗西的思考
阅读(990)
评论(0)
推荐(0)
        
        
            
        
        
摘要:        
“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。    阅读全文
        
            posted @ 2022-01-04 19:18
罗西的思考
阅读(1528)
评论(0)
推荐(0)
        
        
 
                    
                     
                    
                 
                    
                 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号