Loading

随笔分类 -  读论文

摘要:本文是谷歌发表在NeurIPS 2012上的一篇论文,主要讨论了在几万个CPU节点上训练大规模深度网络的问题,并提出了一个名为DistBelief的软件框架。在该框架下实现了两种大规模分布式训练算法:Downpour SGD和Sandblaster L-BFGS,这两种算法都增加了深度网络训练的规模 阅读全文
posted @ 2020-12-16 19:30 shuo-ouyang 阅读(340) 评论(0) 推荐(0)
摘要:本文发表在MLHPC 2018上,主要介绍了一个名为Aluminum通信库,这个库针对Allreduce做了一些关于计算通信重叠以及针对延迟的优化,以加速分布式深度学习训练过程。 分布式训练的通信需求 通信何时发生 一般来说,神经网络的训练过程分为三步:前向传播、反向传播以及参数优化。在使用数据并行 阅读全文
posted @ 2020-10-09 22:18 shuo-ouyang 阅读(820) 评论(0) 推荐(0)
摘要:为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法。DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较“重要”的梯度元素,以达到降低整个训练过程通信量的目的。为了保证使用DGC后模型的精度,作者还使用了几种花 阅读全文
posted @ 2020-05-24 18:33 shuo-ouyang 阅读(2294) 评论(0) 推荐(1)
摘要:本文主要研究HPC上进行数据并行训练的可行性。作者首先在HPC上实现了两种通信量化算法( "1 Bit SGD" 以及 "阈值量化" ),然后提出了自适应量化算法以解决它们的缺点。此外,发挥出量化算法的性能,作者还自己实现了一个Allreduce算法。 1 Bit SGD可以实现良好的重构和较低的误 阅读全文
posted @ 2020-04-12 21:08 shuo-ouyang 阅读(526) 评论(6) 推荐(0)
摘要:一般来说,全连接层的前向和后向传递所需的计算量与权重的数量成正比。此外,数据并行训练中所需的带宽与可训练权重的数量成比例。因此,随着每个节点计算速度的提高,所需的网络带宽也随之增加。这篇文章主要是根据阈值进行梯度的稀疏化和量化操作,从而降低分布式训练中的通信开销。稀疏化指的是只传输那些比较重要的梯度 阅读全文
posted @ 2020-04-11 21:21 shuo-ouyang 阅读(545) 评论(0) 推荐(0)
摘要:这篇文章之前也读过,不过读的不太仔细,论文中的一些细节并没有注意到。最近为了写开题报告,又把这篇论文细读了一遍。据笔者了解,这篇论文应该是梯度量化领域的开山之作,首次使用了梯度量化技术来降低分布式神经网络训练的通信开销。除此之外,这篇文章还提出了误差补偿机制,这种机制可以缓解梯度量化的负面影响,降低 阅读全文
posted @ 2020-04-10 21:28 shuo-ouyang 阅读(834) 评论(0) 推荐(0)
摘要:将深度学习模型的训练从单GPU扩展到多GPU主要面临以下问题:(1)训练框架必须支持GPU间的通信,(2)用户必须更改大量代码以使用多GPU进行训练。为了克服这些问题,本文提出了Horovod,它通过Ring Allreduce实现高效的GPU间通信,而且仅仅更改少量代码就可以实现多GPU训练。 T 阅读全文
posted @ 2020-03-28 11:57 shuo-ouyang 阅读(609) 评论(0) 推荐(0)
摘要:MXNet是一个支持多种编程语言的机器学习库,使用MXNet可以方便地实现机器学习算法,尤其是深度神经网络。通过嵌入在宿主语言中,它将声明式符号表达与命令式张量计算相结合。它提供自动求导以计算梯度。MXNet具有高效的计算和存储操作,可运行在从移动设备到分布式GPU集群的各种异构系统上。MXNet的 阅读全文
posted @ 2020-03-28 11:53 shuo-ouyang 阅读(375) 评论(0) 推荐(0)
摘要:由于良好的可扩展性,随机梯度下降(SGD)的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此,研究者们提出了一些启发式的梯度压缩方法,使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效,但它们有时并不会收敛。 本文提出了量化SGD(Quantiz 阅读全文
posted @ 2020-03-24 19:08 shuo-ouyang 阅读(3027) 评论(1) 推荐(0)
摘要:通过将分布式随机梯度下降(SGD)中的稠密更新替换成稀疏更新可以显著提高训练速度。当大多数更新接近于0时,梯度更新会出现正偏差,因此我们将99%最小更新(绝对值)映射为零,然后使用该稀疏矩阵替换原来的稠密矩阵。该方法可以于梯度量化相结合来进一步压缩梯度。我们探索了不同的的参数配置并将它们应用到神经机 阅读全文
posted @ 2020-03-24 19:06 shuo-ouyang 阅读(1068) 评论(0) 推荐(0)
摘要:在深度神经网络的分布式训练中,梯度和参数同步时的网络开销是一个瓶颈。本文提出了一个名为TernGrad梯度量化的方法,通过将梯度三值化为${-1, 0, 1}$来减少通信量。此外,本文还使用逐层三值化和梯度裁剪加速算法的收敛。 在传统的数据并行SGD的每次迭代$t$中,训练数据会被分成$N$份以供$ 阅读全文
posted @ 2020-03-24 15:42 shuo-ouyang 阅读(895) 评论(0) 推荐(0)