信息论基础
信息的引入
信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。例如,当你被告知“今天早上太阳升起”时,你会觉得这件事几乎没有信息量,因为它发生的概率可以说为1;但当你被告知‘‘今天早上有日食’’ 时,你会觉得这件事的信息量挺大的,因为这件事发生的概率较小。
假设\(P(x_i)\)表示事件发生的概率,\(I(x_i)\)表示事件所含的信息量,则信息量,\(I(x_i)\)与事件发生概率\(P(x_i)\)之间的关系应当反映如下规律。
规律1:事件中所含的信息量\(I(x_i)\)是该事件出现概率\(p(x_i)\)的函数,即
规律2:事件的出现概率\(P(x_i)\)越小,所含的信息量\(I(x_i)\)越大;反之,\(P(x_i)\)越大,\(I(x_i)\)越小。特别地
规律3 :若干个互相独立的事件,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即
例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。
自信息和熵
为了满足以上规律,对于事件 \(\mathbf x=x\),定义信息量或自信息self-information为:
自信息仅仅处理单个输出。信息量的单位为比特(bit),1bit对应\(P(x_i)=\frac{1}{2}\)。如果一个二进制码0,1出现的概率相等,则每一个二进制码的信息量就是1bit。
如果计算自信息的期望,它就是熵,记作\(H(P)\):
-
熵刻画了按照真实分布\(P\)来识别一个样本所需要的编码长度的期望(即平均编码长度)。
如:含有4个字母
(A,B,C,D)的样本集中,真实分布\(P=(\frac{1}{2},\frac{1}{2},0,0)\) ,则只需要1bit编码即可识别样本。 -
对于离散型随机变量\(X\),假设其取值集合大小为\(K\) ,则可以证明: \(0<=H(X)<=log K\)。
条件熵
对于随机变量\(X\)和\(Y\),条件熵\(H(Y|X)\)表示:已知随机变量\(X\)的条件下,随机变量\(Y\)的不确定性。
它定义为:\(X\)给定条件下\(Y\)的条件概率分布的熵对\(X\)的期望。
根据定义可以证明:\(H(X,Y) = H(X|Y) + H(X)\)。
即:描述\(X\)和\(Y\)所需要的信息是:描述\(X\)所需要的信息加上给定\(X\)条件下描述\(Y\)所需的额外信息。
KL散度
\(KL\)散度(也称相对熵)是一种测量同一随机变量的不同概率分布差异的方法:对于给定的随机变量\(\mathbf x\),它的两个概率分布函数 \(P(x)\) 和 \(Q(x)\) 的区别可以用\(KL\)散度来度量:
- \(KL\)散度非负。当它为0时,当且仅当 \(P\)和\(Q\)是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。
- 散度并不是通常意义下的距离,一个原因是因为它不满足对称性\(D_{KL}(P||Q) \neq D_{KL}(Q||P)\)。
交叉熵
交叉熵\(cross-entropy\):\(H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbf E_{\mathbf x\sim P}\log Q(x)=-\sum_{i=1}^{n}P(x_i) \log Q(x_i)\)
- 交叉熵刻画了使用错误分布\(Q\)来表示真实分布\(P\)中的样本的平均编码长度。
参考
- [1] 机器学习的数学基础(十五)信息论

浙公网安备 33010602011771号