信息论(九):互信息的两个视角

互信息是信息论中最精妙的概念之一,它不仅仅是一个公式,更是一个关于关联的故事。

熵视角:“减少意外”的故事。

想象两个角色:X为天空,晴天或雨天;Y 为你是否带了伞。

一开始,你一无所知。你观察 X(天空),它存在一些不确定性,H(X),因为你不知道它是晴天还是雨天。现在,有人告诉你 Y,你是否带了伞。突然间,你对天空的不确定性发生了改变。如果你撑着伞,你可能会想:“嗯,也许下雨了。” 如果不是,你可能会想:“也许晴天了。”

这时,互信息是:$ I(X;Y) = H(X) - H(X|Y) $

它表示当你知道 Y 之后,你对 X 的不确定性降低了多少。它回答了以下问题:知道一件事能让我了解多少关于另一件事的信息?

KL 散度视角:“世界之间的距离”的故事。

世界 1(现实):在现实世界中,X 和 Y 是相关的,下雨时,你更有可能撑伞。它们的联合分布 P(X,Y) 反映了它们之间的真实关系。

世界 2(独立):现在想象一个 X 和 Y 完全无关的世界,天空和雨伞之间没有任何联系,这就是 P(X)P(Y)。

问题是,真实世界与这个看似独立的世界究竟有多大差异?

互信息定义为:$ I(X;Y) = D_{\text{KL}}( P(X,Y) | P(X)P(Y) ) $

如果你误以为 X 和 Y 是独立的,而实际上它们之间存在关联,那么互信息就是你为此付出的“意外代价”。它回答了以下问题:独立的假设世界与现实世界究竟有多大差距?

它们指向同一个真理,只是视角不同。熵视角描述了信息即不确定性的减少,一种传播学的视角。 KL 视角描述了信息即依赖性的度量,一种统计学的视角。

一个直观的桥梁,如果 X 和 Y 相互独立,那么:知道 Y 并不能告诉你关于 X 的任何信息, H(X|Y) = H(X) ,I(X;Y) = 0。联合分布 P(X,Y) 等于 P(X)P(Y) ,KL 散度 = 0。这两个结论都表明:两者之间没有关联。但如果它们相互依赖,知道 Y 可以降低你对 X 的不确定性,现实世界与独立世界存在显著差异。这两个结论都表明,这里存在值得衡量的关系。


下面让我们一步步构建这个硬币的例子,并观察从两个角度来看互信息是如何产生的。

我们先从两枚独立的公平硬币开始。X:第一枚硬币,正面/反面,P(X=H) = 0.5。Y:第二枚硬币,P(Y=H) = 0.5。

如果它们是独立的:P(X=H, Y=H) = 0.5 × 0.5 = 0.25

同样,对于所有四种结果:(H,H), (H,T), (T,H), (T,T),每种结果的概率均为 0.25。

这里,I(X;Y) = 0 ,没有信息共享。

现在让我们稍微关联一下它们。假设:Y 以 0.8 的概率复制 X,Y 以 0.2 的概率是随机的独立的。

那么,P(H,H) = 0.5 × 0.8 + 0.5 × 0.2 × 0.5 = 0.4 + 0.05 = 0.45。P(H,T) = 0.5 × 0.2 × 0.5 = 0.05。类似地,P(T,T) = 0.45,P(T,H) = 0.05 。

现在联合分布为:

\[ P(X,Y) = \begin{bmatrix} 0.45 & 0.05 \\ 0.05 & 0.45 \end{bmatrix} \]

而独立分布仍然是:

\[ P(X)P(Y) = \begin{bmatrix} 0.25 & 0.25 \\ 0.25 & 0.25 \end{bmatrix} \]

熵视角:H(X) = 1 比特(公平硬币),H(X|Y) = ?

如果 Y=H,则 P(X=H|Y=H) = 0.45/0.5 = 0.9,熵 ≈ 0.47 比特。如果 Y=T,对称,也为 0.47 比特。因此 H(X|Y) = 0.47 比特。

则,I(X;Y) = H(X) - H(X|Y) = 1 - 0.47 = 0.53 比特,

KL 视角:$ I(X;Y) = \sum_{x,y} P(x,y) \log \frac{P(x,y)}{P(x)P(y)} $

对于 (H,H),$ 0.45 \times \log_2(0.45/0.25) = 0.45 \times \log_2(1.8) \approx 0.45 \times 0.848 = 0.3816 $。同样,对于 (T,T),又一个 0.3816。

对于 (H,T),$ 0.05 \times \log_2(0.05/0.25) = 0.05 \times \log_2(0.2) \approx 0.05 \times (-2.32) = -0.116 $。同样,对于 (T,H),又一个 -0.116。

总和:0.3816 + 0.3816 - 0.116 - 0.116 = 0.5312 比特。

两种方法都得出相同的结果,一种衡量不确定性的减少,另一种衡量与独立性的距离。独立世界,每个单元格均匀分布 0.25。我们创建的有关联的现实世界,对角线分布较多 (0.45, 0.05, 0.05, 0.45)。KL 散度会惩罚这种不匹配,在现实世界 (0.45) 与独立假设 (0.25) 差异最大的地方惩罚最为严厉。

posted @ 2025-11-26 19:44  CathyBryant  阅读(14)  评论(0)    收藏  举报