Nesterov Momentum  这里指的是优化训练的算法:

1、为了防止局部最小值,非凸函数的那种,加一个冲量,让梯度下降有一个累计,可能会由于冲量,直接冲出局部最小值的鞍点部分;

2、adam 算法是一个好东西;

3、使学习率迭代次数或者时间衰变;

4、牛顿法是梯度下降的进一步发展,不仅仅考虑了一阶偏导,而且考虑了二阶偏导的影响;不过牛顿法要求连续可导,这样在工程的应用中,可能会存在一定的难度,不过,不知道是否可以用定义法来求二阶偏导,计算量大的话,可能现在不太好利用;

5、收藏一个好博客:https://blog.csdn.net/itplus/article/details/21896619

6、L-BFGS 是一个比较好的,考虑到二阶偏导影响的一个 拟牛顿算法,但是 在 随机梯度下降中表现不好,不过在全局的表现中,似乎可以,full的那种;不过,这样的话,在deep nn中可能就不太适合了;

 

疑问

1、什么。。adam如果 一个图片 旋转,坐标系旋转什么的,就解决不了问题????

2、dropout的时候,反向修改w的时候,不工作的神经元,是否被修改呢?

3、

posted @ 2018-08-22 20:44  loooffeeeey  阅读(117)  评论(0)    收藏  举报