摘要: 3.3 自适应学习率 当梯度大小不再下降时,并不代表梯度本身已经变得很小接近于0了,有可能是梯度在波谷之间来回震荡。 原始的梯度下降在很简单的误差表面上都不一定能够达到临界点,因此引入自适应学习率。 3.3.1 AdaGrad 传统的梯度下降更新参数 \(\theta_t^i\) 的过程是 \[\t 阅读全文
posted @ 2024-08-31 23:19 youth518 阅读(27) 评论(0) 推荐(0)