摘要:
简介 神经网络的并行训练通常需要数据并行和模型并行。数据并行的常见方法涉及每个minibatch中模型参数的通信。该文献采用了不同的数据并行方法:在不同机器上运行多个SGD进程,每隔一段时间对模型参数进行平均并将平均后的模型参数分发到每台机器上。这对于大规模语音识别系统训练来说十分高效,但必须使用自然梯度随机梯度下降(natural gradient stochastic descent,NG-S... 阅读全文
摘要:
在线自然梯度 对于任意对称矩阵Σ,存在一个特征值分解(eigenvalue decomposition,EVD): 然后,输出将等于: 对方差的低秩近似 低秩近似 也可表示为: ... 阅读全文
摘要:
简介 随机梯度下降 一般梯度(最陡下降方向) 当参数面具有隐含的特定结构时,最陡的方向并非一般梯度,而是自然梯度。 在欧几里得正交空间中,G是单位矩阵I。 自然梯度 自然梯度表示延着雷曼(Riemannian)参数面的梯度迈出一步,这相当于在常规参数空间的一条弯曲路径,并且很难计算。 《基于自然梯... 阅读全文