信息论(四):熵与概率分布的期望

随机变量 g(X) 的期望可以记为:

\mathbb{E}_p g(X) = \sum_{x \in \mathcal{X} }g(x) p(x)

\mathbb{E}_p g(X) = \sum_{x \in \mathcal{X} }g(x) p(x) 

“当 g(X) = log(1/p(X))时,X 的熵是 log(1/p(X)) 的期望值。”

H(X)=- \sum_{x \in \mathcal{X} } p(x) \log{p(x)}

H(X)=- \sum_{x \in \mathcal{X} } p(x) \log{p(x)} 

通常,在概率论中,随机变量可以用分布来定义,但通常我们并不用它来衡量分布本身。大多数情况下,当我们计算期望值 \mathbb{E}[g(X)] 时,函数 g 描述的是 X 的值,高度、能量、成本、误差等等。期望值告诉我们随机变量所代表的现象。

但在熵中,“随机变量”是由分布本身构建的。我们定义一个新的“随机变量”:

g(X) = \log\frac{1}{p(X)}。

但这并非结果本身的属性,例如“高度”或“电压”,它是该结果概率的属性。

此时,随机变量由概率分布构成。熵是分布本身的函数的期望值,并非关于“外部世界”。它是利用生成结果的分布来对结果进行的一种度量。因此,期望值 H(X) = \mathbb{E}[\log\tfrac{1}{p(X)}] 捕捉的是分布本身的统计特征,而不是 X 的物理意义。

仿佛每个结果都在描述自己的意外程度,也就是它在整个概率分布中的位置。罕见事件说:我很意外,给我一个大数字。常见事件说:我很普通,给我一个小数字。然后熵说:现在,根据每个结果出现的频率,对这些意外程度进行加权平均。这有点自指,分布通过它定义的期望值来描述自身。

它暗示了熵的实际意义。熵是描述了编码一个典型结果所需的平均比特数,这就是为什么我们要取 1/p(x) 的对数:如果一个事件发生的概率很低,你需要更多的比特来描述它。如果一个事件很常见,你需要的比特数就更少。所以熵本质上是在说:如果我必须尽可能高效地编码来自这个分布的结果,平均需要多少比特?

这就是信息压缩、Kraft不等式以及后续所有内容的核心,也是概率论与计算交汇的时刻。

为什么这个期望值很特别?因为它是唯一一个具有以下三个特征的期望值:它是内在的,完全由 X 的分布定义;它反映了不确定性,对于分布范围较广的情况,不确定性更大;它具有独特的现实意义,最小预期编码长度。

大多数期望值取决于你的随机变量代表什么,而这个期望值只取决于结果的概率分布。

posted @ 2025-11-14 21:13  CathyBryant  阅读(0)  评论(0)    收藏  举报  来源