一文搞懂深度学习中的梯度下降
本文算是对常用梯度图下降的算法综述,从方向导数开始得到梯度下降的原始算法,接着描述了动量梯度下降算法。 而由于超参数学习率对梯度下降的重要性,所以梯度算法就有多个自适应梯度下降算法。 主要有以下内容:
- 方向导数和梯度下降
- 梯度下降的形式,批量梯度下降,SGD以及mini-batch 梯度下降
- 梯度下降的进化,主要是几种自适应梯度下降算法:AdaGrad,RMSprop,AdaDelta,Adam
方向导数和梯度
方向导数
方向导数指的是函数z=f(x,y)在某一点P沿某一方向的变化率,其表示形式为

浙公网安备 33010602011771号