有关梯度下降法及其优化算法的资源总结

1.梯度下降法的三种形式Batch Gradient Desecnt、Stochastic Gradient Desecnt、Min-Batch Gradient Desecnt及其总结

详见:Poll的笔记 写的非常清楚,看一看就能明白

2.关于梯度下降的优化算法

详见:机器之心深度解读最流行的优化算法:梯度下降

英文版见:Sebastian Ruder博士写的《An overview of gradient descent optimization algorithms》

3. 关于SGD+momentum中两种形式的理解,其实是一回事

在阅读SGD+momentum相关资料时,遇到了不同的地方公式写法不一致的情况,经历了一番小纠结后经大腿点拨,其实两个公式是一回事,具体如下:

momentum动量,模拟物体运动的惯性,当进行参数更新时,SGD+momentum在一定程度上保留速度的方向,同时结合当前batch的梯度微调,确定最终需要更新方向。这样做可以更稳定,学习地更快,并且还有一定摆脱局部最优的能力。

公式1:

v=μv-αΔL(1)

w=w+v(2)

公式2:

v=μv+αΔL(3)

w=w-v(4)

因为从初始时刻算起,初始化v=0,所以两个公式中的v不停的累加,公式1中(1)v累加的是负值,公式2中(3)v累加的是正值。如论如何,在进行参数w的更新时,肯定是要减去一个正数,即公式(4),也就是相当于加上一个负数,也即公式(2)。

 

posted @ 2018-01-06 11:24  Fintech带你飞  阅读(320)  评论(0编辑  收藏  举报