基础优化方法

梯度下降

梯度是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。梯度在物理学、机器学习和数学优化等领域有着广泛的应用。

挑选一个初始值\(w_0\)
重复迭代参数t=1,2,3
沿梯度方向将增加损失函数的值
学习率：步长的超参数

学习率的选择；
不能太小：因为梯度计算是有花费
不能太大：因为步子太大会跨过最优解，导致结果一直在震荡并没有真正的使损失函数减小

小批量随机梯度下降

在整个训练集上算梯度太贵
在深度神经网络模型对训练集求一遍梯度可能需要数分钟至数小时
我们可以随机采样\(b\)个样本\(i_1、i_2、......、i_b\)来近似损失

b是批量大小，另一个重要的超参数

posted @ 2024-03-29 16:45 cxy8 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部