摘要:https://zhuanlan.zhihu.com/p/79030485 众所周知,训练深度学习模型非常耗时。PB级别的数据加上大型的模型往往需要几天甚至一周的时间才能训练完成。所以加速训练是一个非常热门的研究话题,其中的核心技术之一就是分布式训练。 分布式训练一般分为同步训练和异步训练,同步训练
阅读全文
posted @ 2020-10-15 17:55
文章分类 - 分布式计算
摘要:https://zhuanlan.zhihu.com/p/79030485 众所周知,训练深度学习模型非常耗时。PB级别的数据加上大型的模型往往需要几天甚至一周的时间才能训练完成。所以加速训练是一个非常热门的研究话题,其中的核心技术之一就是分布式训练。 分布式训练一般分为同步训练和异步训练,同步训练
阅读全文
posted @ 2020-10-15 17:55
摘要:https://zdyxry.github.io/2020/03/02/RDMA-%E6%A6%82%E5%BF%B5/ DMA 系统架构 rdma1 先来看一个典型的系统架构,其中,CPU 通过某种内存总线(memory bus)或互连电缆连接到系统内存。图像或者其他高性能 I/O 设备通过常规的
阅读全文
posted @ 2020-10-15 17:42
|
||