李宏毅机器学习笔记4：Brief Introduction of Deep Learning、Backpropagation(后向传播算法)

李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料，在YouTube、网易云课堂、B站都能观看到相应的课程视频，接下来这一系列的博客我都将记录老师上课的笔记以及自己对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一起使用效果更佳！）

Lecture 6: Brief Introduction of Deep Learning

本节课主要围绕Deep Learing三步骤：

（1）function set

（2）goodness of function

（3）pick the best function

1.function set

Neuron之间采用不同的连接方式，就会得到不同的网络结构。

给定了网络结构，就定义了一个function set。

给定了网络结构并给定了参数，网络就是一个函数：而输入输出的形式都是向量。如下图所示：

在output layer之前的部分，可以看做特征提取(上一节描述的概念)。output layer是Multi-class Classifier.

但是问题来了，Deep learning中的隐层到底要订多少层合适呢？

2.goodness of function

损失函数表达式以及优化过程如下所示：

3.pick the best function

显而易见，优化损失函数采用的依旧是Gradient Descent。

但是现在市面上有很多软件可以帮我们进行GD的大部分计算：

Backpropagation:后向传播算法，在下一节内容我们将会详细讨论。

Lecture 7: Backpropagation

在神经网络的计算中，神经网络通常含有非常深的隐藏层，换句话说就是可能拥有百万量级的参数，为了在梯度下降时更加有效地计算梯度，所以本节课引入一个概念：反向传播算法(Backpropagation)

先让我们考虑只有一组data的时候对参数的偏微分，如下图：

根据链式法则， $\frac{\partial C}{\partial w} = \frac{\partial z}{\partial w} \frac{\partial C}{\partial z}$

前向过程：从上图中，我们能明显看出前向过程∂z/∂w的值。 $\frac{\partial z}{\partial w_{i}} =$

有关后向过程，让我们一起看下图：

后向过程：根据链式法则， ∂C / ∂z = ∂a / ∂z * ∂C / ∂a，其中∂a / ∂z = σ′(z)。

如下图所示倘若我们从另外一个观点看待上面的式子：有另外一个neuron（下图中的三角形，表示乘法/放大器），input是 $\frac{\partial C}{\partial z^{'}}$ $\frac{\partial C}{\partial z^{'}}$ $\frac{\partial C}{\partial z^{'}}$ $\frac{\partial C}{\partial z^{'}}$ $\frac{\partial C}{\partial z^{'}}$ $\frac{\partial C}{\partial z^{'}}$