贝叶斯定理与贝叶斯估计

1 贝叶斯定理 Bayes' Theorem

1.1 相关定义

\(X\), \(Y\) 为两个随机变量 （random variable），两随机变量可以为任何关系（如：独立，或不独立）
- \(X\), \(Y\) 可以为离散（discrete）随机变量或连续（continuous）随机变量
\(\Pr(X)\) 是 \(X\) 的先验概率（Prior Probability），或边缘概率（Marginal Probability）
- \(\Pr(X)\) 表示离散随机变量 \(X\) 的概率
- 对于连续随机变量，则表示为 \(f(X)\)
- 注意： 这里 \(\Pr(X)\) 表示具体的某一事件的概率，如 \(\Pr(X=i), i=1,2,\cdots\)，简写为 \(\Pr(X)\)
- \(\Pr(X)\) 也可以表示 \(X\) 的概率分布，即概率质量函数（Probability Mass Function，PMF）
- \(X\) 对 \(Y\) 的边缘概率 的计算公式为：
  
  \[\Pr(X=i) = \sum_{j} \Pr(X=i,Y=j), \ \forall i \quad \text{简写为} \quad \Pr(X) = \sum_{Y} \Pr(X,Y) \]
\(\Pr(Y)\) 是 \(Y\) 的先验概率，或边缘概率
- \(Y\) 对 \(X\) 的边缘概率 的计算公式为：
  
  \[\Pr(Y=j) = \sum_{i} \Pr(X=i,Y=j), \ \forall j \quad \text{简写为} \quad \Pr(Y) = \sum_{X} \Pr(X,Y) \]
\(\Pr(X|Y)\) 是 \(X\) 在 \(Y\) 条件下的条件概率（conditional probability），也就是在 \(Y\) 发生后，\(X\) 的概率，也称作 \(X\) 的后验概率（posterior probability）。
\(\Pr(Y|X)\) 是 \(Y\) 在 \(X\) 条件下的条件概率，也称作 \(Y\) 的后验概率。
似然函数： 在特定 \(Y\) 时，\(X\) 的似然性表示为 \(L(X|Y)\)
- 概率： 用于在已知一些参数的情况下，预测接下来在观测上所得到的结果
- 似然： 则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值，也就是说已观察到某事件后，对相关参数进行猜测。
- 似然函数可以理解为条件概率的逆反：
  
  \[ L(X|Y) = \Pr(Y|X) \]
共轭先验：在贝叶斯估计中，如果选取先验分布函数 \(\pi(\theta)\)，使得后验分布函数 \(\pi(\theta|x)\) 与其 \(\pi(\theta)\) 属于同一分布簇（即共轭分布），则称 \(\pi(\theta)\) 为似然函数 \(f(x|\theta)\) 的共轭先验。

共轭先验的选取有如下好处：
- 符合直观，先验分布和后验分布应该是相同形式的
- 可以给出后验分布的解析形式；
- 可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。
常见的共轭先验有：Beta分布（二项分布）、Dirichlet分布（多项分布）

1.2 贝叶斯公式

1.2.1 条件概率计算公式

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)}, \qquad \Pr(Y|X) = \frac{\Pr(X,Y)}{\Pr(X)} \]

1.2.2 全概率公式

\[\Pr(X) = \sum_{Y} \Pr(X,Y) = \sum_{Y} \Pr(X|Y)\Pr(Y) \]

1.2.3 贝叶斯公式

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)} = \frac{\Pr(Y|X) \Pr(X)}{\Pr(Y)} \]

上述公式可以理解为

\[\text{后验概率} = \frac{\text{似然性} \times \text{先验概率}}{\text{标准化常量}} \]

比例 \(\dfrac{P(B|A)}{P(B)}\) 也有时被称作标准似然度（standardised likelihood），贝叶斯定理可表述为：

\[\text{后验概率} = \text{标准似然度} \times \text{先验概率} \]

根据全概率公式计算计算 \(\Pr(Y)\)，则贝叶斯公式可以进一步写为：

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)} = \frac{\Pr(Y|X) \Pr(X)}{\sum_{X} \Pr(Y|X)\Pr(X)} \]

2 极大似然估计、贝叶斯估计和最大后验估计

假设：

\(f(x|\theta)\) 为总体（Population）的概率密度函数
\(\theta\) 为需要估计参数

2.1 极大似然估计（MLE）

对于一组观测到的样本（样本数量为 \(n\)）\((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\)。极大似然估计（Maximum Likelihood Estimation，MLE）是频率学派观点，基本思想是：待估计参数 \(\theta\) 是客观存在的，只是未知而已，当 \(\hat{\theta}_{\text{MLE}}\) 满足 \(\theta = \hat{\theta}_{\text{MLE}}\) 时，该组观测样本 \((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\) 发生的概率最大:

\(\theta\) 在 \((x_1, x_2, \cdots, x_n)\) 下的似然函数为：

\[L(\theta|x_1, x_2, \cdots, x_n) = f(x_1, x_2, \cdots, x_n|\theta) = \prod_{i=1}^{n}f(x_i|\theta) \]
则 \(\theta\) 的极大似然估计值为 \(\hat{\theta}_{\text{MLE}}\)

\[\hat{\theta}_{\text{MLE}} = \arg \min_{\theta} L(\theta|x_1, x_2, \cdots, x_n) \]

2.2 贝叶斯估计（BE）

贝叶斯估计（Bayesian Estimation，BE）是贝叶斯学派观点，它的基本思想是：待估计参数 \(\theta\) 是随机变量，因此只能根据观测样本估计参数 \(\theta\) 的分布。根据贝叶斯定理，可以得到 \(\pi(\theta | x)\) 的后验分布函数为：

\[\pi(\theta | x) =\frac{f(x | \theta)\pi(\theta)}{m(x)} =\frac{f(x | \theta) \pi(\theta)}{\displaystyle \int f(x | \theta) \pi(\theta) \ \mathrm{d}\theta} \]

其中 \(\pi(\theta)\) 表示参数 \(\theta\) 的先验分布；\(m(\theta)\) 表示样本 \(x\) 的先验分布。

后验分布是一个条件分布，通常取后验分布的期望作为参数的估计值。

\[\hat{\theta}_{\text{BE}} = \mathbb{E}\big[\pi(\theta | x) \big] = \int x \, \pi(\theta | x) \ \mathrm{d}x \]

2.3 最大后验估计（MAP）

最大后验估计（Maximum A Posteriori estimation，MAP）通过寻找 \(\theta = \hat{\theta}_{\text{MAP}}\) 使得后验概率最大化：

\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} \pi(\theta | x) = \arg \max_{\theta} \frac{f(x | \theta) \pi(\theta)}{m(x)} \]

因为 \(m(x)\) 与 \(\theta\) 无关，所以

\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} f(x | \theta) \pi(\theta) \]

参考文献

[1] 贝叶斯定理, 维基百科, 地址

[2] 极大似然估计和贝叶斯估计, 知乎, 地址

posted @ 2022-02-18 10:57 veager 阅读(622) 评论(2) 收藏举报

刷新页面返回顶部