随笔分类 - DataWhale
摘要:3.7 批量归一化 批量归一化的核心思想在于把误差函数图像的“山铲平”,在某些误差表面上不同参数方向的变化率可能差别很大,此时在损失函数上找到临界点会比较困难 比如对一个简单的线性函数 \(y=\sigma(w_1\times x_1+w_2\times x_2 + b)\) 来说,我们考虑对于参数
阅读全文
摘要:3.3 自适应学习率 当梯度大小不再下降时,并不代表梯度本身已经变得很小接近于0了,有可能是梯度在波谷之间来回震荡。 原始的梯度下降在很简单的误差表面上都不一定能够达到临界点,因此引入自适应学习率。 3.3.1 AdaGrad 传统的梯度下降更新参数 \(\theta_t^i\) 的过程是 \[\t
阅读全文
摘要:3.1 局部极小值与鞍点 3.1.1 临界点及其分类 参数对于损失函数的微分为零时,就无法进一步优化了,训练即停止了。所以我们把这些梯度为零的点统称为临界点 。 临界点可以分为两类:极值点 (局部极小值)和 鞍点 。 鞍点就是指那些梯度为零但不是局部极小值或者局部极大值的点,因为其在损失函数的图像上
阅读全文

浙公网安备 33010602011771号