批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

https://www.cnblogs.com/lliuye/p/9451903.html

梯度下降法作为机器学习中较常使用的优化算法，其有着三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来，我们将对这三种不同的梯度下降法进行理解。
为了便于理解，这里我们将使用只含有一个特征的线性回归来展开。此时线性回归的假设函数为：

h θ (x (i)) = θ 1 x (i) + θ 0

其中 $i = 1, 2, . . ., m$

J (θ 0, θ 1) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y

$i = 1, 2, . . ., m$

1、批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。从数学上理解如下：
（1）对目标函数求偏导：

Δ J ( θ 0 , θ 1 ) Δ θ j = 1 m \sum i = 1 m ( h θ ( x ( i

$i = 1, 2, . . ., m$

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

$i = 1, 2, . . ., m$

2、随机梯度下降（Stochastic Gradient Descent，SGD）

随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
对于一个样本的目标函数为：

J (i) (θ 0, θ 1) = 1 2 ( h θ ( x ( i ) ) - y ( i ) ) 2

$i = 1, 2, . . ., m$

Δ J ( i ) ( θ 0 , θ 1 ) θ j = ( h θ ( x ( i ) ) - y ( i )

$i = 1, 2, . . ., m$

θ j := θ j - α (h θ (x (i)) - y (i)) x (i) j

$i = 1, 2, . . ., m$

3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代 使用 ** batch_size** 个样本来对参数进行更新。
这里我们假设 $b a t c h_{s} i z e = 10$

引用及参考：
[1] https://www.cnblogs.com/maybe2030/p/5089753.html
[2] https://zhuanlan.zhihu.com/p/37714263
[3] https://zhuanlan.zhihu.com/p/30891055
[4] https://www.zhihu.com/question/40892922/answer/231600231

写在最后：本文参考以上资料进行整合与总结，文章中可能出现理解不当的地方，若有所见解或异议可在下方评论，谢谢！

posted @ 2019-07-14 09:51 Alexander 阅读(2263) 评论(0) 收藏举报

刷新页面返回顶部

自助者天助！

批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

1、批量梯度下降（Batch Gradient Descent，BGD）

2、随机梯度下降（Stochastic Gradient Descent，SGD）

3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

公告