AI多种并行算法

AI多种并行算法

并行模型

  • 模型并行( model parallelism ):分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如,神经网络模型的不同网络层被分配到不同的机器,或者同一层内部的不同参数被分配到不同机器;[14]
  • 数据并行( data parallelism ):不同的机器有同一个模型的多个副本,每个机器分配到不同的数据,然后将所有机器的计算结果按照某种方式合并。

 

  • 当然,还有一类是混合并行(Hybrid parallelism),在一个集群中,既有模型并行,又有数据并行,例如,可以在同一台机器上采用模型并行化(在GPU之间切分模型),在机器之间采用数据并行化。

 

数据并行

数据并行化式的分布式训练,在每个工作节点上,存储一个模型的备份,在各台机器上处理数据集的不同部分。数据并行化式训练方法,需要组合各个工作节点的结果,在节点之间同步模型参数。各种方法之间的主要区别在于:

  1. 参数平均法 vs. 更新式方法
  2. 同步方法 vs. 异步方法
  3. 中心化同步 vs. 分布式同步

参数平均 model averaging

参数平均是最简单的一种数据并行化。若采用参数平均法,训练的过程如下所示:

  1. 基于模型的配置随机初始化网络模型参数
  2. 将当前这组参数分发到各个工作节点
  3. 在每个工作节点,用数据集的一部分数据进行训练
  4. 将各个工作节点的参数的均值作为全局参数值
  5. 若还有训练数据没有参与训练,则继续从第二步开始

上述第二步到第四步的过程如下图所示。在图中,W表示神经网络模型的参数(权重值和偏置值)。下标表示参数的更新版本,需要在各个工作节点加以区分。

 

参数平均法在数学意义上,等同于用单个机器进行训练;每个工作节点处理的数据量是相等的。(实际上如果采用momentum等技术,不是严格相等的)

假设该集群有n个工作节点,每个节点处理m个样本,总共是对nxm个样本求均值。如果在单台机器上处理所有nxm个样本,学习率设置为α,权重更新的方程为: 

 

假设把样本分配到n个工作节点,每个节点在m个样本上进行学习(节点1处理样本1,……,m,节点2处理样本m+1,……,2m,以此类推),得到: 

 

 参数平均法听上去非常简单,但事实上并没有看上去这么容易。

首先,应该如何求平均值?简单将每轮迭代之后的参数进行平均。一旦这样实现了,会发现此方法在计算之外的额外开销非常巨大;网络通信和同步的开销许就能抵消额外机器带来的效率收益。因此,参数平均法通常有一个大于1的平均周期averaging period(就每个节点的minibatch而言)。如果求均值周期太长,每个节点得到的局部参数更多样化,求均值之后的模型效果非常差。想法是N个局部最小值的均值并不保证就是局部最小:

 

 

 什么样的平均的周期算是过高呢?这个问题还没有结论性的回答,和其它超参数搅和在一起之后变得更为复杂,比如学习率、minibatch的大小,和工作节点的数量。有些初步的研究结论,建议平均的周期为每10~20个minibatch计算一次(每个工作节点),能够取得比较好的效果。随着平均的周期延长,模型的准确率则随之下降。

另一类额外的复杂度则是与优化算法相关,比如adagrad,momentum和RMSProp。这些优化方法,在神经网络的训练过程中,能够显著提升收敛的特性。这些updater都有中间状态(通常每个模型参数有1或2个状态值)—— 需要对这些状态值求均值吗?对每个节点的中间状态求均值可以加快收敛的速度,牺牲的代价则是两倍(或者多倍)增加网络的传输数据量。有些研究在参数服务器的层面应用类似的“updater”机制,而不仅仅在每个工作节点。

参考链接:

https://blog.csdn.net/xbinworld/article/details/74781605

posted @ 2021-10-12 06:20  吴建明wujianming  阅读(529)  评论(0编辑  收藏  举报