信息论（四）：熵与概率分布的期望

随机变量 g(X) 的期望可以记为：

$\mathbb{E}_p g(X) = \sum_{x \in \mathcal{X} }g(x) p(x)$

\mathbb{E}_p g(X) = \sum_{x \in \mathcal{X} }g(x) p(x)

“当 g(X) = log(1/p(X))时，X 的熵是 log(1/p(X)) 的期望值。”

$H(X)=- \sum_{x \in \mathcal{X} } p(x) \log{p(x)}$

H(X)=- \sum_{x \in \mathcal{X} } p(x) \log{p(x)}

通常，在概率论中，随机变量可以用分布来定义，但通常我们并不用它来衡量分布本身。大多数情况下，当我们计算期望值 \mathbb{E}[g(X)] 时，函数 g 描述的是 X 的值，高度、能量、成本、误差等等。期望值告诉我们随机变量所代表的现象。

但在熵中，“随机变量”是由分布本身构建的。我们定义一个新的“随机变量”：

g(X) = \log\frac{1}{p(X)}。

但这并非结果本身的属性，例如“高度”或“电压”，它是该结果概率的属性。

此时，随机变量由概率分布构成。熵是分布本身的函数的期望值，并非关于“外部世界”。它是利用生成结果的分布来对结果进行的一种度量。因此，期望值 H(X) = \mathbb{E}[\log\tfrac{1}{p(X)}] 捕捉的是分布本身的统计特征，而不是 X 的物理意义。

仿佛每个结果都在描述自己的意外程度，也就是它在整个概率分布中的位置。罕见事件说：我很意外，给我一个大数字。常见事件说：我很普通，给我一个小数字。然后熵说：现在，根据每个结果出现的频率，对这些意外程度进行加权平均。这有点自指，分布通过它定义的期望值来描述自身。

它暗示了熵的实际意义。熵是描述了编码一个典型结果所需的平均比特数，这就是为什么我们要取 1/p(x) 的对数：如果一个事件发生的概率很低，你需要更多的比特来描述它。如果一个事件很常见，你需要的比特数就更少。所以熵本质上是在说：如果我必须尽可能高效地编码来自这个分布的结果，平均需要多少比特？

这就是信息压缩、Kraft不等式以及后续所有内容的核心，也是概率论与计算交汇的时刻。

为什么这个期望值很特别？因为它是唯一一个具有以下三个特征的期望值：它是内在的，完全由 X 的分布定义；它反映了不确定性，对于分布范围较广的情况，不确定性更大；它具有独特的现实意义，最小预期编码长度。

大多数期望值取决于你的随机变量代表什么，而这个期望值只取决于结果的概率分布。

posted @ 2025-11-14 21:13 CathyBryant 阅读(0) 评论(0) 收藏举报来源

刷新页面返回顶部

又有知识…增加了