信息论基础(持续更新)

熵、相对熵与互信息

定义:一个离散型随机变量 \(X\) 的熵 \(H(X)\) 定义为:

\[H(X)=-\sum_{x \in X}p(x) \log p(x) \]

注释\(X\) 的熵又可以理解为随机变量 \(\log \frac{1}{p(X)}\) 的期望值

引理

  1. \(H(X) \geq 0\)
  2. \(H_b(X)=(\log_ba)H_a(X)\)

二元熵

\[H(X)= -p\log p-(1-p)\log (1-p) \rightarrow H(p) \]

\(H(p)\) 为上凸函数,在 \(p= \frac{1}{2}\) 时取得最大值 1

联合熵与条件熵

定义:对于服从联合分布为 \(p(x,y)\) 的一对离散随机变量 \((x,y)\) ,其联合熵 \(H(X,Y)\) 定义为:

\[\begin{align} H(X,Y)=&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x,y)\\ =&-E \log p(X,Y) \end{align} \]

定义:条件熵 \(H(Y|X)\) 定义为:

\[\begin{aligned} H(Y|X)=&\sum_{x \in X}p(x)H(Y|X=x)\\ =&-\sum_{x \in X}p(x)\sum_{y \in Y}p(y|x)\log p(y|x)\\ =&-\sum_{x \in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&-E \log p(Y|X) \end{aligned} \]

定理:链式法则

\[H(X,Y)=H(X)+H(Y|X) \]

证明

\[\begin{align} H(X,Y)=&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x,y)\\ =&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x) p(y|x)\\ =&-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(x) -\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&-\sum_{x \in X}p(x) \log p(x)-\sum_{x\in X} \sum_{y \in Y}p(x,y)\log p(y|x)\\ =&H(X)-H(Y|X) \end{align} \]

等价于:

\[\log p(X,Y)=\log p(X)+\log p(Y|X) \]

推论

\[H(X,Y|Z)=H(X|Z)+H(Y|X,Z) \]

相对熵和互信息

相对熵(relative entropy) 是两个随机分布之间距离的度量。相对熵 \(D(p||q)\) 度量当真实分布为 \(p\) 而假定分布为 \(q\) 时的无效性。

定义:两个概率密度函数为 \(p(x)\)\(q(x)\) 之间的相对熵或 \(\text{Kullback-Leibler}\) 距离定义为

\[\begin{align} D(p||q)=&\sum_{x \in X}p(x)\log \frac{p(x)}{q(x)}\\ =&E_p \log \frac{p(x)}{q(x)} \end{align} \]

互信息(mutual information) 是一个随机变量包含另一个随机变量信息量的度量。互信息也是给定另一个随机变量知识的条件下,原随机变量不确定度的缩减量。

定义:考虑两个随机变量 \(X\)\(Y\),它们的联合概率密度函数为 \(p(x,y)\),其边际概率密度函数为 \(p(x)\)\(p(y)\)。互信息 \(I(X;Y)\) 为联合概率分布 \(p(x,y)\) 和乘积分布 \(p(x)p(y)\) 之间的相对熵

\[\begin{align} I(X;Y)=&\sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ =& D(p(x,y)||p(x)p(y)) \end{align} \]

注:一般情况下 \(D(p||q) \neq D(q||p)\)

熵和互信息的关系

互信息 \(I(X;Y)\) 可重写为:

\[\begin{align} I(X;Y)=&\sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ =& \sum_{x \in X,y \in Y}p(x,y) \log \frac{p(x|y)}{p(x)}\\ =& \sum_{x \in X,y \in Y}p(x,y) \log p(x|y)-\sum_{x \in X,y \in Y}p(x,y) \log p(x)\\ =& \sum_{x \in X,y \in Y}p(x,y) \log p(x|y)-\sum_{x \in X}p(x) \log p(x)\\ =& H(X)-H(X|Y) \end{align} \]

由此可表明互信息 \(I(X;Y)\) 是给定 \(Y\) 的情况下 \(X\) 的不确定度的缩减量。

由对称性,可得:

\[I(X;Y)=H(Y)-H(Y|X) \]

\(H(X,Y)=H(X)+H(Y|X)\) 可得:

\[I(X;Y)=H(X)+H(Y)-H(X,Y) \]

最后注意到:

\[I(X;X)=H(X)-H(X|X)=H(X) \]

因此,随机变量和自身的互信息为该随机变量的熵,因此将熵称为自信息(self-information)

定理:互信息与熵的关系

\[\begin{align} I(X;Y)=&H(X)-H(X|Y)\\ I(X;Y)=&H(Y)-H(Y|X)\\ I(X;Y)=&H(X)+H(Y)-H(X;Y)\\ I(X;Y)=&I(Y;X)\\ I(X;X)=&H(X)\\ \end{align} \]

Venn 图:互信息和熵的关系可由文氏图给出

熵、相对熵与互信息的链式法则

定理(熵的链式法则)

\[H(X_1,X_2, \cdots ,X_n)=\sum_{i=1}^{n}H(X_i|X_{i-1},\cdots,X_1) \]

证明

\[\begin{align} H(X_1,X_2)=&H(X_1)+H(X_2|X_1)\\ H(X_1,X_2,X_3)=&H(X_1)+H(X_2,X_3|X_1)\\ =&H(X_1)+H(X_2|X_1)+H(X_3|X_2,X_1)\\ \cdots\\ H(X_1,X_2, \cdots ,X_n)=&\sum_{i=1}^{n}H(X_i|X_{i-1},\cdots,X_1) \end{align} \]

定义(条件互信息):随机变量 \(X\)\(Y\) 在给定随机变量 \(Z\) 时的条件互信息定义为

\[\begin{align} I(X;Y|Z)=&H(X|Z)-H(X|Y,Z)\\ =&E_{p(x,y,z)} \log \frac{p(X,Y|Z)}{p(X|Z)p(Y|Z)} \end{align} \]

定理(互信息的链式法则)

\[I(X_1,X_2,\cdots ,X_n;Y)=\sum^n_{i=1}I(X_i;Y|X_{i-1},X_{i-2},\cdots ,X_1) \]

证明

\[\begin{align} I(X_1,X_2,\cdots ,X_n;Y)=&H(X_1,X_2,\cdots ,X_n)-H(X_1,X_2,\cdots ,X_n|Y)\\ =& \sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1)-\sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1,Y)\\ =& \sum_{i=1}^n I(X_i;Y|X_{i-1},\cdots,X_1) \end{align} \]

Jensen 不等式及其结果

定义(下凸函数):若对于任意的 \(x_1,x_2 \in (a.b)\)\(0 \leq \lambda \leq 1\),满足

\[f(\lambda x_1+(1-\lambda)x_2) \leq \lambda f(x_1)+(1-\lambda)f(x_2) \]

则称函数 \(f(x)\) 在区间 \((a,b)\) 上是严格下凸的。

定理:如果函数 \(f\) 在某个区间存在非负的二阶导数,则 \(f\) 为该区间的凸函数。

定理(Jessen 不等式):若给定一个下凸函数 \(f\) 和一个随机变量 \(X\) ,则

\[Ef(X)\geq f(EX) \]

证明:利用数学归纳法进行证明,对于一个两点分布,我们有

\[p_1f(x_1)+p_2f(x_2)\geq f(p_1x_1+p_2x_2) \]

设分布点个数为 \(k-1\) 的时候定理成立,此时记 \(p_i'=\frac{p_i}{1-p_k}(i=1,2,\dots k-1)\),则有

\[\begin{align} \sum_{i=1}^k p_if(x_1) =& p_kf(x_k)+(1-p_k)\sum_{i=1}^{k-1}p_i'f(x_i)\\ \geq & p_kf(x_k)+(1-p_k)f(\sum_{i=1}^{k-1}p_i'x_i)\\ \geq & f(p_kx_k+(1-p_k)\sum_{i=1}^{k-1}p_i'x_i)\\ \geq & f(\sum_{i=1}^k p_ix_i) \end{align} \]

定理(信息不等式):设 \(p(x)\)\(q(x)\) 为两个概率密度函数,则

\[D(p(x)||q(x)) \geq 0 \]

当且仅当对任意的 \(x\)\(p(x)=q(x)\) 时等号成立。

证明

\[\begin{align} -D(p||q)=&-\sum_{x \in X}p(x)\log \frac{p(x)}{q(x)}\\ =&\sum_{x \in X}p(x)\log \frac{q(x)}{p(x)}\\ \leq & \log \sum_{x \in X} p(x)\frac{q(x)}{p(x)}\\ =& \log \sum_{x \in X} q(x)\\ =& \log 1\\ =& 0 \end{align} \]

当且仅当 \(\frac{q(x)}{p(x)}=c\) 时等号成立,\(\sum_{x \in X}c p(x)=1 \rightarrow c=1 \rightarrow p(x)=q(x)\)

推论(互信息的非负性):对于任意两个随机变量 \(X\)\(Y\)

\[I(X;Y) \geq 0 \]

证明\(I(X;Y)=D(p(x,y)||p(x)p(y)) \geq 0\),当且仅当 \(p(x,y)=p(x)p(y)\) ,即 \(X\)\(Y\) 相互独立时取等号。

定理\(H(X) \leq \log |\chi|\),其中 \(\chi\)\(X\) 的字母表 \(\chi\) 的元素个数,当且仅当 \(X\) 服从 \(\chi\) 上的均匀分布时,等号成立。

证明:设 \(u(x)=\frac{1}{|\chi|}\)\(p(x)\) 是随机变量 \(X\) 的概率密度函数,有

\[D(p||u)=\sum p(x)\log \frac{p(x)}{u(x)}= \log |\chi | -H(X) \geq 0 \]

定理(条件作用使熵减小)

\[H(X|Y) \leq H(X) \]

\(X\)\(Y\) 相互独立时,等号成立。

定理(熵的独立界)

\[H(X_1,X_2, \cdots ,X_n) \leq \sum_{i=1}^n H(X_i) \]

当且仅当 \(X_i\) 相互独立时等号成立。

证明:根据熵的链式法则

\[\begin{align} H(X_1,X_2, \cdots ,X_n) = & \sum_{i=1}^n H(X_i|X_{i-1},\cdots,X_1)\\ \leq & \sum_{i=1}^n H(X_i) \end{align} \]

posted @ 2025-03-16 18:20  Smera1d0  阅读(16)  评论(0)    收藏  举报