信息论(六):链式法则
首先,我们来看链式法则的含义:H(X,Y) = H(X) + H(Y|X) 究竟是什么意思?
它很简单:(X,Y) 这对数的不确定性 = X 的不确定性 + 在 X 已知的情况下 Y 的剩余不确定性。这个表述如此自然,以至于这个公式几乎变成了一种翻译。
想象一下,你观察世界分为两个步骤:首先,你了解 X 的值;然后,在已知 X 的情况下,你了解 Y 的值。每一步都有一定的“惊喜成本”:第一步的成本:surprise(X),第二步的成本:surprise(Y | X) 。
这对结果的总惊喜应该是它们的和:surprise(X,Y) = surprise(X) + surprise(Y|X)。这并非证明,这是公式试图向你讲述的故事,一旦你理解了这个故事,代数证明就只是简单的记录了。
让我们看看惊喜是如何用代数形式表现的:
$ \text{surprise}(x,y) = -\log p(x,y) $
联合概率可以分解:
$ p(x,y) = p(x) p(y|x) $
取负对数:
$ -\log p(x,y) = -\log p(x) - \log p(y|x). $
这就是链式法则的雏形。
现在对联合分布求期望。期望对于和有分配律:
$ E[-\log p(X,Y)] = E[-\log p(X)] + E[-\log p(Y|X)]. $
这恰好是:
$ H(X,Y) = H(X) + H(Y|X). $
完成。
但重要的不是代数运算本身,而是代数运算只是对两步论证过程的一种反映。

浙公网安备 33010602011771号