摘要: 梯度下降 https://zhuanlan.zhihu.com/p/32626442 SGD 原始的梯度下降算法:对参数减去当前参数的负梯度 动量算法 梯度=上一次的梯度 和 当前梯度的加权和 优点:减少收敛过程中的震荡,使得收敛过程更加平滑,能加速收敛过程。 Nesterov 比Momentum更 阅读全文
posted @ 2021-02-17 18:06 wa007 阅读(106) 评论(0) 推荐(0) 编辑