信息论 | 第八章微分熵

2025-12-10 10:29:13 星期三

回顾：

微分熵：设$f(x)$是X的概率密度函数，则$h(X)=h(f)=-\int f log f$
例子： X服从均匀分布$U[a,b]$, $h(X)=log (b-a)$; $X~ N(0,\sigma^2)$,$h(X)=1/2 log(2\pi e \sigma^2)$
AEP及典型集 $P(X^n)~2^{-nh(X)}$
性质 1. $P(A_\epsilon ^{(n)}) \to 1$

899449586df6255784c4c0ae86a7ff15

8.5 相对熵与互信息

一、相对熵（Kullback-Leibler距离）

定义：对于两个密度函数 $f$ 和 $g$，相对熵定义为：
\[D(f \| g) = \int f \log \frac{f}{g} \, dx \]
条件：仅当 $f$ 的支撑集包含在 $g$ 的支撑集中时，相对熵有限。

二、互信息

定义：对于联合密度为 $f(x,y)$ 的两个随机变量 $X$ 和 $Y$，互信息定义为：
\[I(X;Y) = \iint f(x,y) \log \frac{f(x,y)}{f(x)f(y)} \, dx \, dy \]
与相对熵的关系：
\[I(X;Y) = D(f(x,y) \| f(x)f(y)) \]
与熵的关系：
\[I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X) = h(X) + h(Y) - h(X,Y) \]

三、互信息的一般形式

量化视角：互信息可通过对随机变量的值域进行有限分割来定义。
一般定义：
\[I(X;Y) = \sup_{P,Q} I([X]_P; [Y]_Q) \]
其中 $P$ 和 $Q$ 分别是 $X$ 和 $Y$ 值域的分割，$[X]_P$ 和 $[Y]_Q$ 为对应的量化随机变量。
性质：
- 适用于连续、离散及含奇异部分的分布。
- 连续情形下与微分熵定义的互信息等价；离散情形下与离散互信息等价。

四、例子：相关系数为 ρ 的高斯变量互信息

设 $(X,Y) \sim N(0, K)$，其中协方差矩阵为：
\[K = \begin{bmatrix} \sigma^2 & \rho\sigma^2 \\ \rho\sigma^2 & \sigma^2 \end{bmatrix} \]
互信息为：
\[I(X;Y) = h(X) + h(Y) - h(X,Y) = -\frac{1}{2} \log(1 - \rho^2) \]
特殊情况：
- 若 $\rho = 0$，则 $I(X;Y) = 0$（相互独立）。
- 若 $\rho = \pm 1$，则 $I(X;Y) \to \infty$（完全相关）。

8.6 微分熵、相对熵以及互信息的性质

一、基本不等式

相对熵非负性
- 定理 8.6.1：
  \[D(f \| g) \geq 0 \]
  当且仅当 $f = g$（几乎处处）时等号成立。
  证明：$- D(f \| g) =\int f \log \frac{g}{f} \, dx \le \int \log (f \frac{g}{f})=\int \log g \le \int \log 1 \le 0$
- 推论：
  \[I(X,Y) \geq 0 \]
  等号成立当且仅当 $X$ 与 $Y$ 相互独立。
- 推论：
  \[h(X|Y) \leq h(X) \]
  等号成立当且仅当 $X$ 与 $Y$ 相互独立。
链式规则
- 定理 8.6.2：
  \[h(X_1, X_2, \dots, X_n) = \sum_{i=1}^n h(X_i | X_1, X_2, \dots, X_{i-1}) \]
- 推论：
  \[h(X_1, X_2, \dots, X_n) \leq \sum_{i=1}^n h(X_i) \]
  等号成立当且仅当所有 $X_i$ 相互独立。

二、熵与行列式的不等式（高斯分布情形）

若 $X \sim N(0, K)$，代入熵不等式可得 Hadamard 不等式：
\[|K| \leq \prod_{i=1}^n K_{ii} \]
说明协方差矩阵的行列式不超过其对角元素的乘积。

三、微分熵的变换性质

平移不变性（定理 8.6.3）：

\[h(X + c) = h(X) \]
缩放性质（定理 8.6.4）：

\[h(aX) = h(X) + \log |a| \]
- 推广至随机向量（推论）：
  \[h(AX) = h(X) + \log |\det A| \]

四、最大熵分布（高斯分布）

定理 8.6.5：对于零均值、协方差矩阵为 $K$ 的随机向量 $X$，有
\[h(X) \leq \frac{1}{2} \log \big( (2\pi e)^n |K| \big) \]
等号成立当且仅当 $X \sim N(0, K)$。
要记住取上界的条件⭐

五、估计误差下界（熵功率不等式）

定理 8.6.6：对任意随机变量 $X$ 及其估计 $\hat{X}$，有
\[E\left[ (X - \hat{X})^2 \right] \geq \frac{1}{2\pi e} e^{2h(X)} \]
等号成立当且仅当 $X$ 为高斯分布且 $\hat{X} = E[X]$。
推论（给定边信息 $Y$）：
\[E\left[ (X - \hat{X}(Y))^2 \right] \geq \frac{1}{2\pi e} e^{2h(X|Y)} \]

回顾：

多元正态分布的微分熵 $h(X^n)=1/2 \log ((2\pi e)^n|K|)$
相对熵 $ D(f | g) = \int f \log \frac{f}{g} , dx $
互信息 $I(X,Y)=h(Y)-h(Y|X)$
微分熵、相对熵和互信息的性质：
- 相对熵的非负性 $ D(f | g) \ge 0$, 则有$I(X,Y) \ge 0$, $h(Y)\le h(Y|X)$
- 链式法则 $h(X^n) \le \sum h(X_i | X^{i-1})$
- 微分熵的平移不变性 $h(X+c)=h(X)$
- 微分熵的尺度性 $h(aX)=h(X)+\log a$
- 微分熵的上界设$X \in R^n$, 协方差矩阵为K, 则$h(X)\le 1/2 \log ((2\pi e)^n|K|)$

posted @ 2025-12-15 10:40 夜秋子阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

colorfulLau

欢迎来到这里，这是个很安静的地方。

信息论 | 第八章微分熵

8.5 相对熵与互信息

一、相对熵（Kullback-Leibler距离）

二、互信息

三、互信息的一般形式

四、例子：相关系数为 ρ 的高斯变量互信息

8.6 微分熵、相对熵以及互信息的性质

一、基本不等式

二、熵与行列式的不等式（高斯分布情形）

三、微分熵的变换性质

四、最大熵分布（高斯分布）

五、估计误差下界（熵功率不等式）

公告

colorfulLau

欢迎来到这里，这是个很安静的地方。

信息论 | 第八章 微分熵

8.5 相对熵与互信息

一、相对熵（Kullback-Leibler距离）

二、互信息

三、互信息的一般形式

四、例子：相关系数为 ρ 的高斯变量互信息

8.6 微分熵、相对熵以及互信息的性质

一、基本不等式

二、熵与行列式的不等式（高斯分布情形）

三、微分熵的变换性质

四、最大熵分布（高斯分布）

五、估计误差下界（熵功率不等式）

公告

信息论 | 第八章微分熵