ML From Hung Yi Lee --- Backpropagation #7
\(Backpropagation\)(反向传播)
Gradient Descent

- 实际上Neural Network的Gradient Descent 并没有与一般的Gradient Descent 不一样,只是维度太大,一般都有上百万维
基础知识
链式求导
\[y = g(x) \ \ \ z = h(y) \\
\Delta x \rightarrow \Delta y \rightarrow \Delta z \ \ \frac{dz}{dx} = \frac{dz}{dy}\frac{dy}{dx}
\]
- 多元函数的链式求导

基本原理
定义一个\(Loss\ Function\)
\[L(\theta) = \sum_{n=1}^{N}c^n(\theta) \]\(C^n\)为每一个类的差距:实际差距与拟合函数的差距
要做梯度下降就需要对每一个类做偏微分,也就是求取梯度。

- 要求类误差对weight的偏微分,可以使用链式分解,那么就右上述的分解式子,
- 每一个连接层之间都是线性的计算,那么计算其偏微分直接就是对应的输入数据


- 而且反向传播的那个还不需要计算,是一个常数

看到这里恍然大悟, 我假设后面一个偏微分可以算出来,那么我这个就可以算出来,我这个算不出来,我就接着往后找,因为输出层的偏微分非常好算,那么!!!!!
为什么不直接反向计算呢????
从最后的输出层计算偏微分,然后往输入层传到。
backpropagation: 正向信息传导,反向误差修正。

总结

正向传播信息,反向误差修正
全体起立



浙公网安备 33010602011771号