摘要: cs231n笔记 动量 原始的SGD优化方法是 $$ x_{t+1}=x_t-\alpha\nabla f(x_t) $$ 就是单纯在梯度方向下降,加入动量的目的是为了加速学习,也就是加快梯度下降的速度 如何做到加快梯度下降的速度,模仿滚石,滚石在梯度方向上肯定是越滚越快,但如果有拐弯的话也会减速, 阅读全文
posted @ 2022-12-14 16:28 zcaoyao 阅读(74) 评论(0) 推荐(0)