梯度下降法 (Gradient Descent)的数学原理。

1. 背景:优化问题

在机器学习和统计建模中,我们常常需要找到一个模型的参数,使得 损失函数 (Loss Function) 最小。

比如线性回归的损失函数(均方误差 MSE):

\[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \]

其中:

  • \(\theta\):参数(如权重 \(w\)、偏置 \(b\)
  • \(h_\theta(x^{(i)})\):预测值 \(\hat{y}^{(i)}\)
  • \(y^{(i)}\):真实值
  • \(m\):样本数量

目标:

\[\min_\theta J(\theta) \]


2. 梯度的含义

在多元函数中,梯度(gradient) 是偏导数组成的向量:

\[\nabla J(\theta) = \left( \frac{\partial J}{\partial \theta_1}, \frac{\partial J}{\partial \theta_2}, \cdots, \frac{\partial J}{\partial \theta_n} \right) \]

直观理解:

  • 梯度的方向 = 函数上升最快的方向。
  • 负梯度的方向 = 函数下降最快的方向。

所以,我们要最小化函数,就朝 负梯度 方向走。


3. 梯度下降的迭代公式

基本更新规则:

\[\theta := \theta - \alpha \nabla J(\theta) \]

其中:

  • \(\theta\):参数向量
  • \(\alpha\):学习率(step size),控制每一步走多远
  • \(\nabla J(\theta)\):损失函数对参数的梯度

4. 一维情况直观理解

假设函数只有一个参数 \(\theta\),更新公式就是:

\[\theta := \theta - \alpha \frac{dJ}{d\theta} \]

  • 如果 \(\frac{dJ}{d\theta} > 0\),说明函数在该点是上升趋势,要往左走(减小 \(\theta\))。
  • 如果 \(\frac{dJ}{d\theta} < 0\),说明函数在该点是下降趋势,要往右走(增大 \(\theta\))。

这样逐步迭代,就会逼近函数的最小值。


5. 梯度下降的几种形式

  • 批量梯度下降 (Batch GD)
    每次使用所有样本来计算梯度。稳定但计算量大。

  • 随机梯度下降 (SGD)
    每次只用一个样本来更新参数。速度快,但震荡大。

  • 小批量梯度下降 (Mini-batch GD)
    每次使用一小批样本更新。结合了批量和随机的优点,是最常用的方法。


6. 学习率 \(\alpha\) 的影响

  • \(\alpha\) 太小:收敛慢。
  • \(\alpha\) 太大:可能震荡甚至发散。
  • 现代优化常用 自适应学习率算法(如 Adam、RMSProp)来调节。

7. 收敛与局部极小值

  • 在凸函数(如线性回归的 MSE)中,梯度下降一定会收敛到全局最小值。
  • 在非凸函数(如深度神经网络)中,可能收敛到局部最小值或鞍点,但实践中仍然效果很好。

总结
梯度下降法的核心思想:

  1. 计算目标函数对参数的梯度;
  2. 沿着负梯度方向更新参数;
  3. 不断迭代,直到损失函数收敛或达到迭代上限。

公式核心:

\[\theta := \theta - \alpha \nabla J(\theta) \]

posted @ 2025-09-06 22:47  立体风  阅读(146)  评论(0)    收藏  举报