实用指南：12-机器学习与大模型开发数学教程-第1章1-4 导数与几何意义

在机器学习里，导数（Derivative）几乎无处不在：

换句话说：不会导数 → 不懂梯度下降 → 无法理解深度学习是怎么“学”的。

想象你开车：

数学上，这个“瞬时速度”就是一个极限：

$\lim_{\Delta t \to 0} \frac{\Delta s}{\Delta t}$

这就是 导数的定义：函数的“瞬时变化率”。

如果函数 $f (x)$ 在点 $x = a$ 附近存在极限：

$\lim_{h \to 0} \frac{f(a+h) - f(a)}{h}$

那么我们称 $f (x)$ 在 $x = a$ 处可导，导数为 $f^{'} (a)$ 。

直观意义：

曲线在某点的切线斜率。就是在几何上，导数就

说明：曲线 $y = f (x)$ 在点 $(a, f (a))$ 处的导数，就是切线的斜率。

梯度下降（Gradient Descent）
- 我们希望找到使损失函数 $L(θ)L(\theta)$ 最小的参数 $θ\theta$ 。
- 更新规则：
  θt+1=θt−η⋅dLdθ\theta_{t+1} = \theta_t - \eta \cdot \frac{dL}{d\theta}
- 其中 $dLdθ\frac{dL}{d\theta}$ 就是损失函数的导数（梯度）。
类比：站在山坡上，斜率告诉你“哪边更陡”，顺着下坡方向走，就能更快到山谷。

损失函数的最小值
- 在单变量函数中，极值点满足：
  f′(x)=0f’(x) = 0
- 在机器学习中，训练过程就是在寻找损失函数的“极小点”。
例子：
- 在线性回归中，损失函数（平方误差）是个“碗形”的二次函数，导数为 0 的地方就是最优解。

神经网络的反向传播
- 神经网络本质上是函数的嵌套：
  y=f(g(h(x)))y = f(g(h(x)))
- 要计算参数的更新量，就必须用链式法则：
  dydx=dydh⋅dhdg⋅dgdx\frac{dy}{dx} = \frac{dy}{dh} \cdot \frac{dh}{dg} \cdot \frac{dg}{dx}
- 反向传播（Backpropagation）的数学基础。就是这就

导数的定义：极限形式的瞬时变化率。
几何意义：函数在某点的切线斜率。
在机器学习中的作用：
- 梯度下降依赖导数确定更新方向。
- 损失函数极小值对应导数为 0。
- 反向传播用链式法则批量计算导数。
- 可解释 AI 利用导数分析输入对输出的影响。

posted @ 2025-11-14 20:55 yangykaifa 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部