摘要:        
本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练,借此进入Strategy世界。    阅读全文
        
            posted @ 2022-04-10 09:50
罗西的思考
阅读(1516)
评论(1)
推荐(1)
        
        
            
        
        
摘要:        
当计算图在设备之间划分之后,跨设备的 PartitionGraph 之间可能存在着数据依赖关系,因此 TF 在它们之间插入 Send/Recv 节点,这样就完成数据交互。而在分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们需要先看看 TF 之中的数据交换机制 Rendezvous。    阅读全文
        
            posted @ 2022-04-06 15:52
罗西的思考
阅读(1228)
评论(1)
推荐(0)
        
        
            
        
        
摘要:        
前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,本文我们就来看看 GrpcWorkerService 如何处理。    阅读全文
        
            posted @ 2022-04-01 16:47
罗西的思考
阅读(728)
评论(0)
推荐(0)
        
        
 
                     
                    
                 
                    
                 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号