摘要: Nesterov Momentum 这里指的是优化训练的算法: 1、为了防止局部最小值,非凸函数的那种,加一个冲量,让梯度下降有一个累计,可能会由于冲量,直接冲出局部最小值的鞍点部分; 2、adam 算法是一个好东西; 3、使学习率迭代次数或者时间衰变; 4、牛顿法是梯度下降的进一步发展,不仅仅考虑 阅读全文
posted @ 2018-08-22 20:44 loooffeeeey 阅读(117) 评论(0) 推荐(0)