贝叶斯公式与 GMM 的对应关系
贝叶斯公式的一般形式为:\(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\) 在 GMM 中,我们需要计算 “给定观测数据 x,它来自第 k 个高斯成分” 的后验概率 \(P(z=k | x)\),其对应关系如下:
-
\(P(A)\):先验概率
- 对应 GMM 中 “隐变量 \(z=k\) 的先验概率”,即 “随机选择第 k 个高斯成分的概率”。
- 在 GMM 中,这一概率被定义为第 k 个成分的占比 \(\phi_k\),即:\(P(A) = P(z=k) = \phi_k\)
- (代码中对应
self.phi[i],表示第 i 个成分的先验概率)。
-
\(P(B|A)\):似然概率
- 对应 GMM 中 “给定隐变量 \(z=k\) 时,观测到数据 x 的概率”,即 “第 k 个高斯分布生成数据 x 的概率密度”。
- 在 GMM 中,这一概率由第 k 个高斯分布的密度函数给出:\(P(B|A) = P(x | z=k) = \mathcal{N}(x | \mu_k, \Sigma_k)\)
- (代码中对应
np.exp(log_gaussian_prob(X, self.means[i], self.covs[i])),即第 i 个高斯分布在 x 处的概率密度)。
-
\(P(B)\):边缘似然(证据)
- 对应 GMM 中 “观测数据 x 的边缘概率”,即 “不考虑具体来自哪个成分时,生成数据 x 的总概率”。
- 它通过对所有成分的 “先验 × 似然” 求和得到(全概率公式):\(P(B) = P(x) = \sum_{j=1}^K P(x | z=j) \cdot P(z=j) = \sum_{j=1}^K \phi_j \cdot \mathcal{N}(x | \mu_j, \Sigma_j)\)
- (代码中对应归一化时的分母
np.sum(qz, axis=1),即所有成分的 “先验 × 似然” 之和)。
-
\(P(A|B)\):后验概率
- 对应 GMM 中 “给定观测数据 x,它来自第 k 个成分的概率”,即我们最终需要计算的后验概率:\(P(A|B) = P(z=k | x) = \frac{P(x | z=k) \cdot P(z=k)}{P(x)} = \frac{\phi_k \cdot \mathcal{N}(x | \mu_k, \Sigma_k)}{\sum_{j=1}^K \phi_j \cdot \mathcal{N}(x | \mu_j, \Sigma_j)}\)
- (代码中对应
qz[:, i],即第 i 个成分的后验概率,通过归一化 “先验 × 似然” 得到)。
总结
| 贝叶斯公式符号 | 含义 | GMM 中的对应部分 |
|---|---|---|
| \(P(A)\) | 先验概率 | \(P(z=k) = \phi_k\)(成分占比) |
| \(P(B|A)\) | 似然概率 | \(P(x | z=k) = \mathcal{N}(x | \mu_k, \Sigma_k)\)(高斯密度) |
| \(P(B)\) | 边缘似然(证据) | \(P(x) = \sum_j \phi_j \cdot \mathcal{N}(x | \mu_j, \Sigma_j)\)(全概率和) |
| \(P(A|B)\) | 后验概率 | \(P(z=k | x)\)(数据来自第 k 个成分的概率) |

浙公网安备 33010602011771号