信息论 | 第八章 微分熵
2025-12-10 10:29:13 星期三
回顾:
- 微分熵:设\(f(x)\)是X的概率密度函数,则\(h(X)=h(f)=-\int f log f\)
- 例子: X服从均匀分布\(U[a,b]\), \(h(X)=log (b-a)\); \(X~ N(0,\sigma^2)\),\(h(X)=1/2 log(2\pi e \sigma^2)\)
- AEP及典型集 \(P(X^n)~2^{-nh(X)}\)
- 性质 1. \(P(A_\epsilon ^{(n)}) \to 1\)

8.5 相对熵与互信息
一、相对熵(Kullback-Leibler距离)
- 定义:对于两个密度函数 \(f\) 和 \(g\),相对熵定义为:\[D(f \| g) = \int f \log \frac{f}{g} \, dx \]
- 条件:仅当 \(f\) 的支撑集包含在 \(g\) 的支撑集中时,相对熵有限。
二、互信息
- 定义:对于联合密度为 \(f(x,y)\) 的两个随机变量 \(X\) 和 \(Y\),互信息定义为:\[I(X;Y) = \iint f(x,y) \log \frac{f(x,y)}{f(x)f(y)} \, dx \, dy \]
- 与相对熵的关系:\[I(X;Y) = D(f(x,y) \| f(x)f(y)) \]
- 与熵的关系:\[I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X) = h(X) + h(Y) - h(X,Y) \]
三、互信息的一般形式
- 量化视角:互信息可通过对随机变量的值域进行有限分割来定义。
- 一般定义:\[I(X;Y) = \sup_{P,Q} I([X]_P; [Y]_Q) \]其中 \(P\) 和 \(Q\) 分别是 \(X\) 和 \(Y\) 值域的分割,\([X]_P\) 和 \([Y]_Q\) 为对应的量化随机变量。
- 性质:
- 适用于连续、离散及含奇异部分的分布。
- 连续情形下与微分熵定义的互信息等价;离散情形下与离散互信息等价。
四、例子:相关系数为 ρ 的高斯变量互信息
- 设 \((X,Y) \sim N(0, K)\),其中协方差矩阵为:\[K = \begin{bmatrix} \sigma^2 & \rho\sigma^2 \\ \rho\sigma^2 & \sigma^2 \end{bmatrix} \]
- 互信息为:\[I(X;Y) = h(X) + h(Y) - h(X,Y) = -\frac{1}{2} \log(1 - \rho^2) \]
- 特殊情况:
- 若 \(\rho = 0\),则 \(I(X;Y) = 0\)(相互独立)。
- 若 \(\rho = \pm 1\),则 \(I(X;Y) \to \infty\)(完全相关)。
8.6 微分熵、相对熵以及互信息的性质
一、基本不等式
-
相对熵非负性
- 定理 8.6.1:\[D(f \| g) \geq 0 \]当且仅当 \(f = g\)(几乎处处)时等号成立。
证明:\(- D(f \| g) =\int f \log \frac{g}{f} \, dx \le \int \log (f \frac{g}{f})=\int \log g \le \int \log 1 \le 0\) - 推论:\[I(X,Y) \geq 0 \]等号成立当且仅当 \(X\) 与 \(Y\) 相互独立。
- 推论:\[h(X|Y) \leq h(X) \]等号成立当且仅当 \(X\) 与 \(Y\) 相互独立。
- 定理 8.6.1:
-
链式规则
- 定理 8.6.2:\[h(X_1, X_2, \dots, X_n) = \sum_{i=1}^n h(X_i | X_1, X_2, \dots, X_{i-1}) \]
- 推论:\[h(X_1, X_2, \dots, X_n) \leq \sum_{i=1}^n h(X_i) \]等号成立当且仅当所有 \(X_i\) 相互独立。
- 定理 8.6.2:
二、熵与行列式的不等式(高斯分布情形)
- 若 \(X \sim N(0, K)\),代入熵不等式可得 Hadamard 不等式:\[|K| \leq \prod_{i=1}^n K_{ii} \]说明协方差矩阵的行列式不超过其对角元素的乘积。
三、微分熵的变换性质
-
平移不变性(定理 8.6.3):
\[h(X + c) = h(X) \] -
缩放性质(定理 8.6.4):
\[h(aX) = h(X) + \log |a| \]- 推广至随机向量(推论):\[h(AX) = h(X) + \log |\det A| \]
- 推广至随机向量(推论):
四、最大熵分布(高斯分布)
- 定理 8.6.5:对于零均值、协方差矩阵为 \(K\) 的随机向量 \(X\),有\[h(X) \leq \frac{1}{2} \log \big( (2\pi e)^n |K| \big) \]等号成立当且仅当 \(X \sim N(0, K)\)。
- 要记住取上界的条件⭐
五、估计误差下界(熵功率不等式)
- 定理 8.6.6:对任意随机变量 \(X\) 及其估计 \(\hat{X}\),有\[E\left[ (X - \hat{X})^2 \right] \geq \frac{1}{2\pi e} e^{2h(X)} \]等号成立当且仅当 \(X\) 为高斯分布且 \(\hat{X} = E[X]\)。
- 推论(给定边信息 \(Y\)):\[E\left[ (X - \hat{X}(Y))^2 \right] \geq \frac{1}{2\pi e} e^{2h(X|Y)} \]
回顾:
- 多元正态分布的微分熵 \(h(X^n)=1/2 \log ((2\pi e)^n|K|)\)
- 相对熵 $ D(f | g) = \int f \log \frac{f}{g} , dx $
- 互信息 \(I(X,Y)=h(Y)-h(Y|X)\)
- 微分熵、相对熵和互信息的性质:
- 相对熵的非负性 $ D(f | g) \ge 0\(, 则有\)I(X,Y) \ge 0$, \(h(Y)\le h(Y|X)\)
- 链式法则 \(h(X^n) \le \sum h(X_i | X^{i-1})\)
- 微分熵的平移不变性 \(h(X+c)=h(X)\)
- 微分熵的尺度性 \(h(aX)=h(X)+\log a\)
- 微分熵的上界 设\(X \in R^n\), 协方差矩阵为K, 则\(h(X)\le 1/2 \log ((2\pi e)^n|K|)\)

浙公网安备 33010602011771号