摘要: 转自:http://blog.csdn.net/bvl10101111/article/details/72615621 先上结论: 1.动量方法主要是为了解决Hessian矩阵病态条件问题(直观上讲就是梯度高度敏感于参数空间的某些方向)的。 2.加速学习 3.一般将参数设为0.5,0.9,或者0. 阅读全文
posted @ 2017-10-12 21:54 fisherinbox 阅读(6017) 评论(0) 推荐(0) 编辑