深度学习常用基本知识整理

1. 张量

从代数角度讲，张量可以看作是向量的推广。标量可以看作是0阶张量，向量可以看作1阶张量，矩阵可以看作2阶张量，n阶张量可以看成一个n维数组。
Reference:

2. 导数，微分和偏导数的区别

设\(k\)为斜率，\(dy\)为纵坐标的增量，\(dx\)是横坐标的增量，那么简单地讲，导数就是斜率\(k=\frac{dy}{dx}\)，微分就是是增量\(dy=kdx\)。
偏导数主要是研究多元函数的导数。比方说，一元函数一个\(y\)对应一个\(x\)，只有一个导数，二元函数一个\(z\)对应一个\(x\)和一个\(y\)，则有两个导数，一个是\(z\)对\(x\)的导数，一个是\(z\)对\(y\)的导数，称之为偏导数。

3. 信息熵，交叉熵和相对熵

信息熵

信息熵的公式为

\[H(X)=-\sum_{x\in X}p(x)log(p(x)) \]

我们用\(log(1/p(x))\)来衡量事情发生的不确定性的大小，其中\(p(x)\)是事件\(x\)发生的概率，\(p(x)\)越大，不确定性越小。信息熵的公式其实是\(log(1/p(x))\)的期望（对于每一个\(x\)，计算\(log(1/p(x))=-log(p(x))\)，然后再乘以\(x\)发生的概率\(p(x)\)，将所有\(x\)的计算结果加起来，即为\(log(1/p(x))\)的期望），信息熵越大，不确定性越大，信息熵越小，不确定性越小。注意其中有个假设，就是服从\(X\)分布的\(x\)是相互独立的。\(log\)的底一般只要大于1即可，一般默认为2，因为信息论中二进制用的比较多。

交叉熵

假设一个数据集有两个概率分布\(p\)和\(q\)，其中\(p\)是真实概率分布，\(q\)是非真实概率分布。根据香浓信息量的定义，基于真实概率分布\(p\)的信息量为\(log(1/p)\),平均编码长度为：\(H(p)=\sum plog(1/p)=-\sum plog(p)\)，也就是信息熵。基于非真实概率分布\(q\)的信息量为\(log(1/q(x))\)，用非真实概率分布\(q\)表示来自真实分布\(p\)的样本的平均编码长度为：\(H(p,q)=\sum plog(1/q)=-\sum plog(q)\)，\(H(p,q)\)即为交叉熵。设在机器学习中使用sigmoid函数作为激活函数，那么在求梯度下降时，若使用均方误差作为损失函数，则其学习速率会不断下降，而使用交叉熵作为损失函数则可以避免这个问题，因为其学习速率由两种概率分布之间的差别控制。

相对熵

一般来说，交叉熵\(H(p,q)\geq\)信息熵\(H(p)\)(当\(p=q\)时等号成立)。相对熵是交叉熵和信息熵的差，即\(D(p||q)=H(p,q)-H(p)\)。因为基于真实分布\(p\)的信息熵\(H(p)\)一般是确定的,所以相对熵\(D(p||q)\)可以由交叉熵\(H(p,q)\)确定，故一般来说，相对熵也可以叫做交叉熵。相对熵一般又叫KL散度（Kullback-Leibler divergence）。相对熵用来衡量两种函数或概率分布的相似性。相对熵越小，两种函数或概率分布越相似；相对熵越大，两种函数或概率分布差别越大。

posted @ 2018-08-17 09:01 wumh7 阅读(869) 评论(0) 收藏举报

刷新页面返回顶部

wumh7

深度学习常用基本知识整理

1. 张量

2. 导数，微分和偏导数的区别

3. 信息熵，交叉熵和相对熵

信息熵

交叉熵

相对熵

公告