信息论 | 第八章 微分熵

2025-12-10 10:29:13 星期三

回顾:

  • 微分熵:设\(f(x)\)是X的概率密度函数,则\(h(X)=h(f)=-\int f log f\)
  • 例子: X服从均匀分布\(U[a,b]\), \(h(X)=log (b-a)\); \(X~ N(0,\sigma^2)\),\(h(X)=1/2 log(2\pi e \sigma^2)\)
  • AEP及典型集 \(P(X^n)~2^{-nh(X)}\)
  • 性质 1. \(P(A_\epsilon ^{(n)}) \to 1\)

899449586df6255784c4c0ae86a7ff15


8.5 相对熵与互信息

一、相对熵(Kullback-Leibler距离)

  • 定义:对于两个密度函数 \(f\)\(g\),相对熵定义为:

    \[D(f \| g) = \int f \log \frac{f}{g} \, dx \]

  • 条件:仅当 \(f\) 的支撑集包含在 \(g\) 的支撑集中时,相对熵有限。

二、互信息

  • 定义:对于联合密度为 \(f(x,y)\) 的两个随机变量 \(X\)\(Y\),互信息定义为:

    \[I(X;Y) = \iint f(x,y) \log \frac{f(x,y)}{f(x)f(y)} \, dx \, dy \]

  • 与相对熵的关系

    \[I(X;Y) = D(f(x,y) \| f(x)f(y)) \]

  • 与熵的关系

    \[I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X) = h(X) + h(Y) - h(X,Y) \]

三、互信息的一般形式

  • 量化视角:互信息可通过对随机变量的值域进行有限分割来定义。
  • 一般定义

    \[I(X;Y) = \sup_{P,Q} I([X]_P; [Y]_Q) \]

    其中 \(P\)\(Q\) 分别是 \(X\)\(Y\) 值域的分割,\([X]_P\)\([Y]_Q\) 为对应的量化随机变量。
  • 性质
    • 适用于连续、离散及含奇异部分的分布。
    • 连续情形下与微分熵定义的互信息等价;离散情形下与离散互信息等价。

四、例子:相关系数为 ρ 的高斯变量互信息

  • \((X,Y) \sim N(0, K)\),其中协方差矩阵为:

    \[K = \begin{bmatrix} \sigma^2 & \rho\sigma^2 \\ \rho\sigma^2 & \sigma^2 \end{bmatrix} \]

  • 互信息为:

    \[I(X;Y) = h(X) + h(Y) - h(X,Y) = -\frac{1}{2} \log(1 - \rho^2) \]

  • 特殊情况
    • \(\rho = 0\),则 \(I(X;Y) = 0\)(相互独立)。
    • \(\rho = \pm 1\),则 \(I(X;Y) \to \infty\)(完全相关)。

8.6 微分熵、相对熵以及互信息的性质

一、基本不等式

  1. 相对熵非负性

    • 定理 8.6.1:

      \[D(f \| g) \geq 0 \]

      当且仅当 \(f = g\)(几乎处处)时等号成立。
      证明:\(- D(f \| g) =\int f \log \frac{g}{f} \, dx \le \int \log (f \frac{g}{f})=\int \log g \le \int \log 1 \le 0\)
    • 推论:

      \[I(X,Y) \geq 0 \]

      等号成立当且仅当 \(X\)\(Y\) 相互独立。
    • 推论:

      \[h(X|Y) \leq h(X) \]

      等号成立当且仅当 \(X\)\(Y\) 相互独立。
  2. 链式规则

    • 定理 8.6.2:

      \[h(X_1, X_2, \dots, X_n) = \sum_{i=1}^n h(X_i | X_1, X_2, \dots, X_{i-1}) \]

    • 推论:

      \[h(X_1, X_2, \dots, X_n) \leq \sum_{i=1}^n h(X_i) \]

      等号成立当且仅当所有 \(X_i\) 相互独立。

二、熵与行列式的不等式(高斯分布情形)

  • \(X \sim N(0, K)\),代入熵不等式可得 Hadamard 不等式

    \[|K| \leq \prod_{i=1}^n K_{ii} \]

    说明协方差矩阵的行列式不超过其对角元素的乘积。

三、微分熵的变换性质

  1. 平移不变性(定理 8.6.3):

    \[h(X + c) = h(X) \]

  2. 缩放性质(定理 8.6.4):

    \[h(aX) = h(X) + \log |a| \]

    • 推广至随机向量(推论):

      \[h(AX) = h(X) + \log |\det A| \]

四、最大熵分布(高斯分布)

  • 定理 8.6.5:对于零均值、协方差矩阵为 \(K\) 的随机向量 \(X\),有

    \[h(X) \leq \frac{1}{2} \log \big( (2\pi e)^n |K| \big) \]

    等号成立当且仅当 \(X \sim N(0, K)\)
  • 要记住取上界的条件⭐

五、估计误差下界(熵功率不等式)

  • 定理 8.6.6:对任意随机变量 \(X\) 及其估计 \(\hat{X}\),有

    \[E\left[ (X - \hat{X})^2 \right] \geq \frac{1}{2\pi e} e^{2h(X)} \]

    等号成立当且仅当 \(X\) 为高斯分布且 \(\hat{X} = E[X]\)
  • 推论(给定边信息 \(Y\)):

    \[E\left[ (X - \hat{X}(Y))^2 \right] \geq \frac{1}{2\pi e} e^{2h(X|Y)} \]


回顾:

  1. 多元正态分布的微分熵 \(h(X^n)=1/2 \log ((2\pi e)^n|K|)\)
  2. 相对熵 $ D(f | g) = \int f \log \frac{f}{g} , dx $
  3. 互信息 \(I(X,Y)=h(Y)-h(Y|X)\)
  4. 微分熵、相对熵和互信息的性质:
    • 相对熵的非负性 $ D(f | g) \ge 0\(, 则有\)I(X,Y) \ge 0$, \(h(Y)\le h(Y|X)\)
    • 链式法则 \(h(X^n) \le \sum h(X_i | X^{i-1})\)
    • 微分熵的平移不变性 \(h(X+c)=h(X)\)
    • 微分熵的尺度性 \(h(aX)=h(X)+\log a\)
    • 微分熵的上界 设\(X \in R^n\), 协方差矩阵为K, 则\(h(X)\le 1/2 \log ((2\pi e)^n|K|)\)
posted @ 2025-12-15 10:40  夜秋子  阅读(12)  评论(0)    收藏  举报