概率论直觉(三):边缘化
这里介绍一下概率论与信息论中的一个核心工具:边缘化(marginalization)。
我们遇到的是:$ \sum_{x_1, \dots, x_n} P(x_1, \dots, x_n) \log P(x_1) = \sum_{x_1} P(x_1) \log P(x_1) $
我们注意到$ \log P(x_1) $只依赖于 x_1,与 x_2,…,x_n 无关。所以求和可以拆成两部分:先固定 x_1,对 x_2,…,x_n 求和,再对 x_1 求和。
$ \sum_{x_1, \dots, x_n} P(x_1, \dots, x_n) \log P(x_1) = \sum_{x_1} \left[ \log P(x_1) \sum_{x_2,\dots,x_n} P(x_1, \dots, x_n) \right] $
根据边缘概率的定义:$ P(x_1) = \sum_{x_2,\dots,x_n} P(x_1, x_2, \dots, x_n) $
于是得到:$ = \sum_{x_1} \left[ \log P(x_1) \cdot P(x_1) \right] $
就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。
边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。
$ P(X) = \sum_{Y} P(X, Y) $
可以看作“把 Y 的影响累加(或积分)掉”,剩下 X 的分布。它的物理意义是,P(X=a) 是在所有可能的 Y 下,事件 X=a 发生的总概率。就像在统计全班学生的(性别, 成绩)联合分布时,如果只想知道性别的分布,就把同一性别的所有成绩的概率加起来。
它确实很重要!
(1)贝叶斯定理中:$ P(A|B) = \frac{P(B|A)P(A)}{\sum_{A'} P(B|A')P(A')} $
分母就是边缘化:$ P(B) = \sum_{A} P(B,A) = \sum_{A} P(B|A)P(A) $
如果没有边缘化,就无法由联合概率得到条件概率公式。
(2)期望计算时,期望的定义:$ \mathbb{E}[g(X)] = \sum_x g(x) P(X=x) $
但如果 X,Y 是联合分布,你想计算$ \mathbb{E}[g(X)] \(,可以直接计算:\)\mathbb{E}[g(X)] = \sum_x \sum_y g(x) P(X=x, Y=y) = \sum_x g(x) \sum_y P(X=x, Y=y) = \sum_x g(x) P(X=x) $
中间步骤就是边缘化。这说明了在联合分布上计算只依赖于 X 的函数的期望时,可以先将联合分布边缘化成 X 的分布。
(3)信息论中的熵的链式法则 $H(X_1,\dots,X_n) = \sum_{i=1}^n H(X_i|X_1,\dots,X_{i-1}) $的推导中,用到的就是这种边缘化技巧来分离变量。
另外,联合熵$ H(X,Y) = -\sum_{x,y} p(x,y) \log p(x,y)$
而$ H(X) = -\sum_x p(x) \log p(x)$ 正是通过边缘化 $ p(x)=\sum_y p(x,y)$ 来关联的。
(4)模型推断与隐变量,在含有隐变量 Z 的模型中,观测数据 X 的似然是:$ P(X) = \sum_Z P(X, Z) $,这是很多EM算法等的基础,就是通过联合概率边缘化得到观测数据的概率。
更抽象地看,边缘化是一种“约化”思想。在概率论中,我们从联合分布提取出部分变量的信息,本质上是一种投影或降维,从高维联合分布到低维边缘分布。
我们可以把边缘化看作一种概率分布的降维投影。高维空间,联合分布 P(X_1, X_2, …, X_n) 定义在所有变量构成的“网格”上。投影到低维子空间,比如只关心 X_1 的分布,就是沿着 X_2, …, X_n 这些轴的方向“挤压”概率质量。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是“边缘分布”名称的来源。
|——| Y=1 | Y=2 | Y=3 | P(X) |
| X=1 | 0.1 | 0.2 | 0.1 | 0.4 | 这一行求和
| X=2 | 0.05 | 0.25 | 0.3 | 0.6 | 这一行求和
| P(Y) | 0.15 | 0.45 | 0.4 | 1.0 |
表格最右边的列 P(X) 就是通过边缘化 Y 得到的。
为什么边缘化在概率计算中如此“丝滑”?边缘化的“丝滑”建立在概率论的两个基本公理之上:
归一性:$ \sum_{\text{all } x_1,\dots,x_n} P(x_1,\dots,x_n) = 1 $ 。这保证了在边缘化时,不会出现无穷大或发散问题,总是得到有效的概率分布。
可加性:互斥事件的概率可以直接相加,这是边缘化能成立的核心:$ P(X=a) = \sum_y P(X=a, Y=y) $。
“丝滑”的边缘化之所以成立,是因为 $ { (X=a, Y=y_1) }, { (X=a, Y=y_2) }, \dots $ 这些事件互斥,不可能同时发生,所以可以直接相加得到“X=a”这个事件的总概率。
求和与函数交换的便利:当你有一个只依赖于部分变量的函数时(比如 g(X)),在联合分布上求期望:
$ \mathbb{E}[g(X)] = \sum_{x,y} g(x) P(x,y) = \sum_x g(x) \sum_y P(x,y) = \sum_x g(x) P(x)$
这种交换求和顺序的“丝滑”,源于双重求和的可交换性和概率的非负性,保证了求和顺序不影响结果。
如果不是概率场景?如果在一般的多元函数 f(x,y) 上做类似操作:$ h(x) = \sum_y f(x,y) $。这只是一个普通的“部分求和”,没有特别的概率意义。但在概率中,因为 P(x,y) 有归一性和可加性,h(x) 自动成为一个合法的边缘概率分布。
“边缘化”这个词确实主要出现在概率统计领域,但它的数学本质是:对一个多元函数在某些维度上求和(或积分),得到较少变量的函数。这种操作在其他领域也有,但名称不同:物理学,可能会说“对某个自由度求和/积分”。统计力学,叫“配分函数的约化”或“trace out”,迹掉某些自由度。泛函分析,类似“投影算子”。数据科学:有时叫“聚合(aggregation)”。但在非概率语境中,这种操作不一定保持归一性,因为没有概率公理约束,结果不一定有“分布”的解释。
所以,“边缘化”这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。

浙公网安备 33010602011771号