贝叶斯定理与贝叶斯估计

1 贝叶斯定理 Bayes' Theorem

1.1 相关定义

  • \(X\), \(Y\) 为两个随机变量 (random variable),两随机变量可以为任何关系(如:独立,或不独立)

    • \(X\), \(Y\) 可以为离散(discrete)随机变量或连续(continuous)随机变量
  • \(\Pr(X)\)\(X\)先验概率(Prior Probability),或边缘概率(Marginal Probability)

    • \(\Pr(X)\) 表示离散随机变量 \(X\) 的概率

    • 对于连续随机变量,则表示为 \(f(X)\)

    • 注意: 这里 \(\Pr(X)\) 表示具体的某一事件的概率,如 \(\Pr(X=i), i=1,2,\cdots\),简写为 \(\Pr(X)\)

    • \(\Pr(X)\) 也可以表示 \(X\) 的概率分布,即概率质量函数(Probability Mass Function,PMF)

    • \(X\)\(Y\)边缘概率 的计算公式为:

      \[\Pr(X=i) = \sum_{j} \Pr(X=i,Y=j), \ \forall i \quad \text{简写为} \quad \Pr(X) = \sum_{Y} \Pr(X,Y) \]

  • \(\Pr(Y)\)\(Y\)先验概率,或边缘概率

    • \(Y\)\(X\)边缘概率 的计算公式为:

      \[\Pr(Y=j) = \sum_{i} \Pr(X=i,Y=j), \ \forall j \quad \text{简写为} \quad \Pr(Y) = \sum_{X} \Pr(X,Y) \]

  • \(\Pr(X|Y)\)\(X\)\(Y\) 条件下的条件概率(conditional probability),也就是在 \(Y\) 发生后,\(X\) 的概率,也称作 \(X\)后验概率(posterior probability)。

  • \(\Pr(Y|X)\)\(Y\)\(X\) 条件下的条件概率,也称作 \(Y\)后验概率

  • 似然函数: 在特定 \(Y\) 时,\(X\) 的似然性表示为 \(L(X|Y)\)

    • 概率: 用于在已知一些参数的情况下,预测接下来在观测上所得到的结果

    • 似然: 则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值,也就是说已观察到某事件后,对相关参数进行猜测。

    • 似然函数可以理解为条件概率的逆反:

      \[ L(X|Y) = \Pr(Y|X) \]

  • 共轭先验:在贝叶斯估计中,如果选取先验分布函数 \(\pi(\theta)\),使得后验分布函数 \(\pi(\theta|x)\) 与其 \(\pi(\theta)\) 属于同一分布簇(即共轭分布),则称 \(\pi(\theta)\) 为似然函数 \(f(x|\theta)\) 的共轭先验。

    共轭先验的选取有如下好处:

    • 符合直观,先验分布和后验分布应该是相同形式的

    • 可以给出后验分布的解析形式;

    • 可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

    常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)

1.2 贝叶斯公式

1.2.1 条件概率计算公式

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)}, \qquad \Pr(Y|X) = \frac{\Pr(X,Y)}{\Pr(X)} \]

1.2.2 全概率公式

\[\Pr(X) = \sum_{Y} \Pr(X,Y) = \sum_{Y} \Pr(X|Y)\Pr(Y) \]

1.2.3 贝叶斯公式

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)} = \frac{\Pr(Y|X) \Pr(X)}{\Pr(Y)} \]

上述公式可以理解为

\[\text{后验概率} = \frac{\text{似然性} \times \text{先验概率}}{\text{标准化常量}} \]

比例 \(\dfrac{P(B|A)}{P(B)}\) 也有时被称作标准似然度(standardised likelihood),贝叶斯定理可表述为:

\[\text{后验概率} = \text{标准似然度} \times \text{先验概率} \]

根据全概率公式计算计算 \(\Pr(Y)\),则贝叶斯公式可以进一步写为:

\[\Pr(X|Y) = \frac{\Pr(X,Y)}{\Pr(Y)} = \frac{\Pr(Y|X) \Pr(X)}{\sum_{X} \Pr(Y|X)\Pr(X)} \]

2 极大似然估计、贝叶斯估计和最大后验估计

假设:

  • \(f(x|\theta)\) 为总体(Population)的概率密度函数

  • \(\theta\) 为需要估计参数

2.1 极大似然估计(MLE)

对于一组观测到的样本(样本数量为 \(n\)\((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\)。极大似然估计(Maximum Likelihood Estimation,MLE)是频率学派观点,基本思想是:待估计参数 \(\theta\) 是客观存在的,只是未知而已,当 \(\hat{\theta}_{\text{MLE}}\) 满足 \(\theta = \hat{\theta}_{\text{MLE}}\) 时,该组观测样本 \((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\) 发生的概率最大:

  • \(\theta\)\((x_1, x_2, \cdots, x_n)\) 下的似然函数为:

    \[L(\theta|x_1, x_2, \cdots, x_n) = f(x_1, x_2, \cdots, x_n|\theta) = \prod_{i=1}^{n}f(x_i|\theta) \]

  • \(\theta\) 的极大似然估计值 为 \(\hat{\theta}_{\text{MLE}}\)

    \[\hat{\theta}_{\text{MLE}} = \arg \min_{\theta} L(\theta|x_1, x_2, \cdots, x_n) \]

2.2 贝叶斯估计(BE)

贝叶斯估计(Bayesian Estimation,BE)是贝叶斯学派观点,它的基本思想是:待估计参数 \(\theta\)随机变量,因此只能根据观测样本估计参数 \(\theta\) 的分布。根据贝叶斯定理,可以得到 \(\pi(\theta | x)\)后验分布函数为:

\[\pi(\theta | x) =\frac{f(x | \theta)\pi(\theta)}{m(x)} =\frac{f(x | \theta) \pi(\theta)}{\displaystyle \int f(x | \theta) \pi(\theta) \ \mathrm{d}\theta} \]

其中 \(\pi(\theta)\) 表示参数 \(\theta\) 的先验分布;\(m(\theta)\) 表示样本 \(x\) 的先验分布。

后验分布是一个条件分布,通常取后验分布的期望作为参数的估计值。

\[\hat{\theta}_{\text{BE}} = \mathbb{E}\big[\pi(\theta | x) \big] = \int x \, \pi(\theta | x) \ \mathrm{d}x \]

2.3 最大后验估计(MAP)

最大后验估计(Maximum A Posteriori estimation,MAP)通过寻找 \(\theta = \hat{\theta}_{\text{MAP}}\) 使得后验概率最大化:

\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} \pi(\theta | x) = \arg \max_{\theta} \frac{f(x | \theta) \pi(\theta)}{m(x)} \]

因为 \(m(x)\)\(\theta\) 无关,所以

\[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} f(x | \theta) \pi(\theta) \]

参考文献

[1] 贝叶斯定理, 维基百科, 地址

[2] 极大似然估计和贝叶斯估计, 知乎, 地址

posted @ 2022-02-18 10:57  veager  阅读(622)  评论(2)    收藏  举报