信息论(11):链式法则-证明

先来看一个具体的例子,为了简化起见,我们取 n = 2:X_1 = 一枚均匀硬币的结果(正面或反面),X_2 = 另一枚均匀硬币的结果(正面或反面)。

我们有联合概率表 P(x_1, x_2):x_1 x_2 P(x_1, x_2),正面 正面 0.25,正面 反面 0.25,反面 正面 0.25,反面 反面 0.25。

我们想要:$ -\sum_{x_1, x_2} P(x_1, x_2) \log P(x_1) $

首先,注意到 P(x_1) 与 x_2 无关:P(正面) = 0.5, P(反面) = 0.5。所以 \log P(x_1)是:$ \log P(H) = \log 0.5, \log P(T) = \log 0.5 $。

求和式如下

\[\begin{align*} &-\sum_{x_1, x_2} P(x_1, x_2) \log P(x_1) \\ &= -[P(H,H) \log P(H) + P(H,T) \log P(H) + P(T,H) \log P(T) + P(T,T) \log P(T)] \\ &= -[0.25 \log 0.5 + 0.25 \log 0.5 + 0.25 \log 0.5 + 0.25 \log 0.5] \end{align*} \]

分组x_1。当 x_1 = H 时,我们有两项:$ P(H,H) \log P(H) + P(H,T) \log P(H) \(。当 x_1 = T 时,我们有两项:\) P(T,H) \log P(T) + P(T,T) \log P(T) $

提取公因式 \log P(x_1),得到 $ = -[\log P(H) \cdot (P(H,H) + P(H,T)) + \log P(T) \cdot (P(T,H) + P(T,T))] $

对 x_2 求和,P(H,H) + P(H,T) 的值是多少?P(H,H) + P(H,T) = 0.25 + 0.25 = 0.5

但这恰恰是 P(H) 。因为:$ P(H) = \sum_{x_2} P(H, x_2) = P(H,H) + P(H,T) $

类似地:$ P(T,H) + P(T,T) = 0.25 + 0.25 = 0.5 = P(T) $

最后,化简

\[\begin{align*} &-\sum_{x_1, x_2} P(x_1, x_2) \log P(x_1) \\ &= -[\log P(H) \cdot P(H) + \log P(T) \cdot P(T)] \\ &= -\sum_{x_1} P(x_1) \log P(x_1) \\ &= H(X_1) \end{align*} \]

一般原理如下。对于任何第 k 项 $ \log P(x_k | x_1, \dots, x_{k-1}) $,该项仅取决于 $ x_1, \dots, x_k $。当我们对 \(x_{k+1}, \dots, x_n\) 求和时:$ \sum_{x_{k+1}, \dots, x_n} P(x_1, \dots, x_n) = P(x_1, \dots, x_k) $,我们正在“积分掉”或“边缘化掉”不需要的变量。

结果恰好等于条件熵的定义:

$ H(X_k | X_1, \dots, X_{k-1}) = -\sum_{x_1, \dots, x_k} P(x_1, \dots, x_k) \log P(x_k | x_1, \dots, x_{k-1}) $

想象一下,你有一个由更小的立方体(联合分布)组成的三维块。如果你只关心第一个坐标 x_1,你可以沿着其他维度压缩这个块,将所有具有相同 x_1 的立方体相加。你得到的是它在 x_1 轴上的投影,这就是 P(x_1)。对数 log P(x_1) 就像一个权重,它只取决于你位于 x_1 的哪个“切片”中。因此,当你对整个块求和时,你可以先在每个切片内求和,然后再应用权重。

为什么这个公式如此简洁?因为概率分布在其定义域内求和为 1。更准确地说:对于固定的 x_1,联合分布对$ x_2, \dots, x_n$ 的求和恰好等于 P(x_1)。这就像通过“积分掉”其他维度,将多维空间压缩到一维空间一样。

posted @ 2025-12-02 22:09  CathyBryant  阅读(0)  评论(0)    收藏  举报