梯度下降算法实现
梯度下降算法的原理及实现。
一.梯度下降的算法方程式为:

二.方程式详解:
参数:
1.:
:表示网络中需要训练的参数。
2.
:表示学习率。
3.
:表示图像中一点的斜率。
含义:
假设一个二次函数,初始位置在曲线上蓝色点,

如果学习率α设置过大,则θ的每一次更新幅值将会很大。如此,若蓝点已非常接近最低点,则下一次参数更新的更新则会偏离最低点。
如果学习率α设置过小,则θ的每一次更新幅值将会很小。如此,将会增加参数训练的成本。
在确定学习率α以后,随着蓝点的移动,蓝点在曲线上每一点处 的斜率会发生变化,向下则变小,向上则变大。所以,随着蓝点越来越接近最低点,斜率变小,θ的更新幅值也会越来越小。

浙公网安备 33010602011771号