有关梯度下降法及其优化算法的资源总结

1.梯度下降法的三种形式Batch Gradient Desecnt、Stochastic Gradient Desecnt、Min-Batch Gradient Desecnt及其总结

详见：Poll的笔记写的非常清楚，看一看就能明白

2.关于梯度下降的优化算法

3. 关于SGD+momentum中两种形式的理解，其实是一回事

在阅读SGD+momentum相关资料时，遇到了不同的地方公式写法不一致的情况，经历了一番小纠结后经大腿点拨，其实两个公式是一回事，具体如下：

momentum动量，模拟物体运动的惯性，当进行参数更新时，SGD+momentum在一定程度上保留速度的方向，同时结合当前batch的梯度微调，确定最终需要更新方向。这样做可以更稳定，学习地更快，并且还有一定摆脱局部最优的能力。

公式1:

v=μv-αΔL（1）

w=w+v（2）

公式2：

v=μv+αΔL（3）

w=w-v（4）

因为从初始时刻算起，初始化v=0,所以两个公式中的v不停的累加，公式1中（1）v累加的是负值，公式2中（3）v累加的是正值。如论如何，在进行参数w的更新时，肯定是要减去一个正数,即公式（4），也就是相当于加上一个负数，也即公式（2）。

posted @ 2018-01-06 11:24 Fintech带你飞阅读(320) 评论(0) 编辑收藏举报

刷新页面返回顶部

MKYAN