基础优化方法

梯度下降

梯度是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。梯度在物理学、机器学习和数学优化等领域有着广泛的应用。

  1. 挑选一个初始值\(w_0\)
  2. 重复迭代参数t=1,2,3
    image
  3. 沿梯度方向将增加损失函数的值
  4. 学习率:步长的超参数

学习率的选择;
不能太小:因为梯度计算是有花费
不能太大:因为步子太大会跨过最优解,导致结果一直在震荡并没有真正的使损失函数减小

小批量随机梯度下降

  1. 在整个训练集上算梯度太贵
    在深度神经网络模型对训练集求一遍梯度可能需要数分钟至数小时
  2. 我们可以随机采样\(b\)个样本\(i_1、i_2、......、i_b\)来近似损失
    image
    b是批量大小,另一个重要的超参数

image

image

posted @ 2024-03-29 16:45  cxy8  阅读(5)  评论(0编辑  收藏  举报