梯度下降的任意深度宽神经网络都会演变成线性模型

深度学习研究的一个长期目标是精确表征训练和一般化(泛化)。
然而,神经网络通常复杂的损失情况(loss landscapes)使学习动力学的理论变得难以捉摸。(learning dynamics elusive 难以捉摸)
在这项工作中,我们表明,对于宽神经网络,学习动力学已大大简化,并且在无限的宽度限制下,它们受线性模型控制,该线性模型从网络围绕其初始参数的一阶泰勒展开中获得。
此外,通过镜像宽贝叶斯神经网络和高斯过程之间的对应关系,对具有平方损失的宽神经网络进行基于梯度的训练,可以从具有特定成分核的高斯过程得出测试集预测。
尽管这些理论结果仅在无限宽度范围内是精确的(exact),但即使对于有限的实际规模的网络,我们仍然在原始网络的预测与线性化版本的预测之间找到了极好的经验(excellent empirical)一致性。
该协议在不同的体系结构,优化方法和损失函数之间都非常可靠。

posted @ 2021-01-03 08:25  xinkevinzhang  阅读(157)  评论(0)    收藏  举报