摘要: 分布式机器学习:异步SGD和Hogwild!算法(Pytorch) 同步算法的共性是所有的节点会以一定的频率进行全局同步。然而,当工作节点的计算性能存在差异,或者某些工作节点无法正常工作(比如死机)的时候,分布式系统的整体运行效率不好,甚至无法完成训练任务。为了解决此问题,人们提出了异步的并行算法。在异步的通信模式下,各个工作节点不需要互相等待,而是以一个或多个全局服务器做为中介,实现对全局模型的更新和读取。这样可以显著减少通信时间,从而获得更好的多机扩展性。 阅读全文
posted @ 2023-02-13 22:07 orion-orion 阅读(736) 评论(0) 推荐(0) 编辑