Loading

深度学习的数学-笔记

第一章 神经网络的思想

1-1 神经网络和深度学习

构成大脑网络的神经元的主要特点:

1.神经元可以形成网络
2.输入信号如果小于某个阈值则神经元不作出反应
3.输入信号大于某个阈值时神经元点火,向另外的神经元传递固定强度的信号
4.输入信号为多个神经元的总和且每个信号的权重不一样

1-2 神经元的数学表示

\[w_1x_1+w_2x_2+w_3x_3 \tag{1} \]

其中\(w_1、w_2、w_3\)\(x_1、x_2、x_3\)对应的权重。
是否点火可以用单位阶跃函数来表示:

\[y=u(w_1x_1+w_2x_2+w_3x_3-θ) \tag{2} \]

其中θ为点火的阈值。
阶跃函数为:

\[ u(z) = \begin{cases} 0 & (z<0) \\ 1 & (z\geq 0) \end{cases} \tag{3} \]

1-3 激活函数: 将神经元的工作一般化

上一节中运用了激活函数来表示神经元是否点火,但是这对于真实世界太过简单,因此通过修改激活函数来将神经元的工作一般化:

\[y=u(w_1x_1+w_2x_2+w_3x_3-θ) \tag{4} \]

为了与生物中的神经元区别开来,我们将简化、抽象化的神经元(非生物领域的)成为神经单元:

其中神经元与神经单元的区别为:

神经元 神经单元
输出值y 0或1 模型允许的任意数值
激活函数 单位阶跃函数 自由给定,较为著名的是Sigmoid函数
输出解释 点火与否 反映度、兴奋度等

1-4 什么是神经网络

将神经单元连接成网络状,就形成了神经网络。

神经网络可以分为输入层、隐藏层(中间层)、输出层:

输入层:将从数据得到的值原样输出。
中间层:做公式(4)的运算。
输出层:做公式(4)的运算,显示计算结果。

深度学习就是叠加了很多层的神经网络。

1-5 用恶魔来讲解神经网络的结构

1 2 3
3 5 6
7 8 9
10 11 12
隐藏层共有3个神经单元A,B,C,他们分别对应(4,7)、(5,8)、(6,9)。输出共有两个神经单元,分别是输出单元0和1。

读者可以将这个表想象成一张纸,在这张纸上写0和1,当然1只能写在中间,写的时候只能涂黑方格。当写1时,5和8大概率会被涂黑,而写0时4,7和6,9大概率会被涂黑。

因此神经单元A和C 兴奋且B不兴奋时时,结果大概率是0,而当神经单元B兴奋、A和C不兴奋时,结果大概率时1.

1-6 将恶魔的工作翻译为神经网络的语言

全连接神经网络,既输入层的12个神经单元都会和隐藏层的3个神经单元连接,因此输出单元对特征提取贡献的作用大小设置不同的权重。

为了忽略无用甚至启反作用的信号,设置了偏置。

1-7 网络自学习的神经网络

神经网络的参数有权重和偏置,其确定方法分为有监督学习和无监督学习。

有监督学习需要数据既训练数据。

学习的思路为:计算预测值与正解之间的误差,通过一定方法得到误差总和最小权重和偏置(最优化)。

第二章 神经网络的数学基础

2-1 神经网络所需的函数

  1. 一次函数
  2. 二次函数
  3. 单位阶跃函数
  4. Sigmoid函数

\[a(x)=\frac {1}{1+e^{-x}} \tag{5} \]

5.正态分布的概率密度函数

\[f(x)=\frac{1}{\sqrt{2x}}e^{-\frac{(x-y)^2}{2\sigma^2}} \tag{6} \]

2-2 有助于理解神经网络的数列和递推关系式

  1. 数列及递推公式
  2. 联立递推关系式

2-3 神经网络中经常用到的\(\Sigma\)符号

  1. 其含义是求和
  2. 具有线性性质

2-4 有助于理解神经网络的向量基础

向量的基础知识。

  1. 向量是具有方向和大小的量,用箭头表示。
  2. 可以用坐标的形式表示向量。
  3. 向量的大小
  4. 向量的内积
  5. 柯西-施瓦茨不等式

\[-|a||b|\leq a\cdot b\leq|a||b| \tag{7} \]

6.张量(tensor)是向量概念的推广
物理学中的张力来说明,即一个向量在不同的法向下具有不同的表示,并将其合并成为矩阵

2-5 有助于理解神经网络的矩阵基础

  1. 较为简单的矩阵基础知识:和、差、常数倍、乘积
  2. Hadamard乘积

\[ A= \begin{pmatrix} 2&7\\ 1&8 \end{pmatrix}, B=\begin{pmatrix}2&8\\1&3\end{pmatrix}\\ A\bigodot B=\begin{pmatrix} 2\cdot2&7\cdot8\\1\cdot1&8\cdot3 \end{pmatrix}=\begin{pmatrix} 4&6\\1&24 \end{pmatrix} \tag{8} \]

  1. 转置矩阵:行列互换

2-6 神经网络的导数基础

Sigmoid函数的求导公式

\[\sigma '(x)=\sigma (x)(1-\sigma (x)) \]

2-7 神经网络的偏导数基础

  1. 关于某个特定的变量的导数称为偏导数

  2. 多变量函数取得最小值的必要条件:
    函数z=f(x,y,z)取得最小值的必要条件是 $$ \frac{\delta f}{\delta x}=0、\frac{\delta f}{\delta y}=0、\frac{\delta f}{ \delta z}=0 \tag{9}$$

  3. 拉格朗日乘数法

2-8误差方向传播法必须的链式法则

  1. 单变量函数的链式法则
    当y为u的函数,u为v的函数,v为x的函数时

    \[\frac{dy}{du}=\frac{dy}{du}\frac{du}{dv}\frac{dv}{dx} \tag{10} \]

  2. 多变量函数的链式法则
    变量z为u,v的函数,如果u,v分别是x,y的函数,则z为x,y的函数

\[\frac{\delta z}{\delta x}=\frac{\delta z}{\delta u}\frac{\delta u}{\delta x}+\frac{\delta z}{\delta v}\frac{\delta v}{\delta x} \tag{11} \]

2-9 误差反向传播法必须的链式法则

posted @ 2020-12-30 10:25  火柴天堂  阅读(424)  评论(0)    收藏  举报