信息论基础

信息的引入

信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。例如,当你被告知“今天早上太阳升起”时,你会觉得这件事几乎没有信息量,因为它发生的概率可以说为1;但当你被告知‘‘今天早上有日食’’ 时,你会觉得这件事的信息量挺大的,因为这件事发生的概率较小。

假设\(P(x_i)\)表示事件发生的概率,\(I(x_i)\)表示事件所含的信息量,则信息量,\(I(x_i)\)与事件发生概率\(P(x_i)\)之间的关系应当反映如下规律。

规律1:事件中所含的信息量\(I(x_i)\)是该事件出现概率\(p(x_i)\)的函数,即

\[I(x_i) = f(P(x_i)) \]

规律2:事件的出现概率\(P(x_i)\)越小,所含的信息量\(I(x_i)\)越大;反之,\(P(x_i)\)越大,\(I(x_i)\)越小。特别地

\[\lim\limits_{p(x_i)\rightarrow 1}I(x_i) = 0 \]

\[\lim\limits_{p(x_i)\rightarrow 0}I(x_i) = 1 \]

规律3 :若干个互相独立的事件,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即

\[I(x_1x_2x_3 \cdots) = I(x_1) + I(x_2) + I(x_3) \cdots \]

例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

自信息和熵

为了满足以上规律,对于事件 \(\mathbf x=x\),定义信息量或自信息self-information为:

\[I(x)=-\log P(x) \]

自信息仅仅处理单个输出。信息量的单位为比特(bit)​,1bit对应\(P(x_i)=\frac{1}{2}\)。如果一个二进制码0,1出现的概率相等,则每一个二进制码的信息量就是1bit。

如果计算自信息的期望,它就是熵,记作\(H(P)\)

\[H(\mathbf X)=\mathbf E_{\mathbf x\sim P}[I(x)]=-\mathbf E_{\mathbf x\sim P}[\log P(x)] =- \sum_{i=1}^{n}p{(x_i)}\log P{(x_i)} \]

  • 熵刻画了按照真实分布\(P\)来识别一个样本所需要的编码长度的期望(即平均编码长度)。

    如:含有4个字母 (A,B,C,D) 的样本集中,真实分布\(P=(\frac{1}{2},\frac{1}{2},0,0)\) ,则只需要1bit编码即可识别样本。

  • 对于离散型随机变量\(X\),假设其取值集合大小为\(K\) ,则可以证明: \(0<=H(X)<=log K\)

条件熵

对于随机变量\(X\)\(Y\),条件熵\(H(Y|X)\)表示:已知随机变量\(X\)的条件下,随机变量\(Y\)的不确定性。

它定义为:\(X\)给定条件下\(Y\)的条件概率分布的熵对\(X\)的期望。

\[H(\mathbf {Y|X})=\mathbf E_{\mathbf x\sim P}[H(Y|X=x)]=-\mathbf E_{\mathbf {x,y}\sim P}[\log P(X|Y)] =- \sum_{i=1}^{n}p{(y_i|x_i)}\log P{(y_i|x_i)} \]

根据定义可以证明:\(H(X,Y) = H(X|Y) + H(X)\)

即:描述\(X\)\(Y\)所需要的信息是:描述\(X\)所需要的信息加上给定\(X\)条件下描述\(Y\)所需的额外信息。

KL散度

\(KL\)散度(也称相对熵)是一种测量同一随机变量的不同概率分布差异的方法:对于给定的随机变量\(\mathbf x\),它的两个概率分布函数 \(P(x)\)\(Q(x)\) 的区别可以用\(KL\)散度来度量:

\[D_{KL}(P||Q)=\mathbf E_{\mathbf x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbf E_{\mathbf x\sim P}\left[\log P(x) -\log Q(x) \right] = \sum_{i=1}^{n}P(x_i)\log \frac{P(x_i)}{Q(x_i)} \]

  • \(KL\)散度非负。当它为0时,当且仅当 \(P\)\(Q\)是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。
  • 散度并不是通常意义下的距离,一个原因是因为它不满足对称性\(D_{KL}(P||Q) \neq D_{KL}(Q||P)\)

交叉熵

交叉熵\(cross-entropy\)\(H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbf E_{\mathbf x\sim P}\log Q(x)=-\sum_{i=1}^{n}P(x_i) \log Q(x_i)\)

  • 交叉熵刻画了使用错误分布\(Q\)来表示真实分布\(P\)中的样本的平均编码长度。

参考

posted @ 2023-04-06 19:26  crazypigf  阅读(111)  评论(0)    收藏  举报