信息论(十):链式法则-加长版

链式法则:$ H(X_1, X_2, \dots, X_n) = H(X_1) + H(X_2|X_1) + H(X_3|X_1,X_2) + \dots + H(X_n|X_1,\dots,X_{n-1}) $

这与之前三个变量的情况不同,看到一长串 X_1、X_2、…、X_n,确实会让人感到不知所措,就像盯着一条缠绕在一起的项链。但其中隐藏着美丽的图案,让我们一起解开它。

链式法则就像一个逐步揭开秘密的故事。让我们换个角度思考。想象一下,你正在读一本侦探小说:X_1 = “谁犯了罪?”,X_2 = “作案动机是什么?”,X_3 = “案发地点在哪里?”……等等。联合熵 H(X_1, X_2, …, X_n) 衡量的是整个故事中总共有多少不确定性。

这意味着,与其一次性看清所有信息,不如我们逐章揭开谜底:H(X_1),第一个参数的不确定性。H(X_2|X_1):已知第一个参数后,第二个参数还有多少不确定性? H(X_3|X_1,X_2):已知前两个选项后,对第三个选项的不确定性……以此类推。

这里有一个直观的例子:制作三明治。假设:X_1,面包的类型,白面包、全麦面包、黑麦面包。X_2,涂抹酱的类型,黄油、蛋黄酱、不涂抹。X_3,馅料的类型,火腿、鸡蛋、蔬菜。

联合熵询问,有多少种可能的三明治组合?3 × 3 × 3 = 27 种可能性。

链式法则分解。 H(X_1),面包类型的不确定性。H(X_2|X_1):已知面包后,对涂抹酱的不确定性。H(X_3|X_1,X_2):已知面包和涂抹酱后,对馅料的不确定性。如果选项相互独立,则每个项都很大。但如果某些组合不太可能出现,例如,黑麦面包配蛋黄酱和鸡蛋很少见,条件熵就会变小。

这种视角有如下好处。 顺序性:你只需要在了解前面的部分之后再考虑还剩下什么需要发现。揭示依赖关系:如果 H(X_3|X_1,X_2) 远小于 H(X_3),这意味着 X_1 和 X_2 可以告诉你很多关于 X_3 的信息。计算便捷:有时,条件概率比完整的联合分布更容易估计。

链式法则告诉我们,总不确定性 = 增量不确定性之和。这就像说,一摞书的高度等于第一本书的厚度,加上第二本书的厚度,再加上第三本书的厚度……


这里有一个完美的镜像:概率与熵,概率规则和熵规则之间确实存在直接的对应关系。

概率链式法则:$ P(X_1, X_2, \dots, X_n) = P(X_1) \cdot P(X_2|X_1) \cdot P(X_3|X_1,X_2) \cdots P(X_n|X_1,\dots,X_{n-1}) $

熵链式法则:$ H(X_1, X_2, \dots, X_n) = H(X_1) + H(X_2|X_1) + H(X_3|X_1,X_2) + \cdots + H(X_n|X_1,\dots,X_{n-1}) $

看出其中的美妙规律了吗?概率,将各项相乘。熵,将各项相加。

为什么这说得通?$ H(X) = -\sum P(x) \log P(x) $

当我们对概率链式法则取对数时:

$ \log P(X_1, \dots, X_n) = \log P(X_1) + \log P(X_2|X_1) + \cdots + \log P(X_n|X_1,\dots,X_{n-1}) $

然后,当我们取期望值,并乘以 -1 时,对数将乘法变成了加法,这正是我们得到熵链式法则的原因。

在概率论中:联合概率 P(A,B) = “交集”,即两者都发生,链式法则将其分解为一系列条件语句的乘积。

在熵中:联合熵 H(X,Y) 衡量组合结果的不确定性,它类似于不确定性的“并集”,链式法则表明它可以分解为条件不确定性的总和。

因此,可以这样理解,组合的总不确定性等于第一个结果的不确定性,加上在已知第一个结果后第二个结果的不确定性,再加上……

让我们用两个变量来验证。当 n=2 时,概率:P(X,Y) = P(X) · P(Y|X),熵:H(X,Y) = H(X) + H(Y|X)。如果 X 和 Y 独立:P(X,Y) = P(X)P(Y),H(X,Y) = H(X) + H(Y)。看,这简直是绝妙的类比!

posted @ 2025-11-30 22:21  CathyBryant  阅读(0)  评论(0)    收藏  举报