摘要: 深度学习中,典型的参数更新方法首先是SGD 它的更新方法如下$$\eta,\alpha都是超参数$$ \(w_{2}=w_{1}-\eta \frac{\partial L}{\partial w_{1}}\) 但该方法面对非匀向的损失函数(如呈现延伸状),是收敛不到最小值的,以 \[ F1(x1, 阅读全文
posted @ 2021-10-17 15:18 原来是只呆燕 阅读(1639) 评论(0) 推荐(0)