摘要: Task2.1:《深度学习详解》- 3.3&4&5 自适应学习率的概念和方法,包括AdaGrad、RMSProp和Adam等优化器。 - **训练网络时的梯度和损失变化**:训练网络时损失可能不再下降,但梯度范数不一定小,梯度可能在山谷壁间“震荡”,多数训练未到临界点就停止。- **不同学习率的影响 阅读全文
posted @ 2024-08-31 21:54 LYLtim 阅读(73) 评论(0) 推荐(0)