贝叶斯定理与贝叶斯估计
1 贝叶斯定理 Bayes' Theorem
1.1 相关定义
-
\(X\), \(Y\) 为两个随机变量 (random variable),两随机变量可以为任何关系(如:独立,或不独立)
- \(X\), \(Y\) 可以为离散(discrete)随机变量或连续(continuous)随机变量
-
\(\Pr(X)\) 是 \(X\) 的先验概率(Prior Probability),或边缘概率(Marginal Probability)
-
\(\Pr(X)\) 表示离散随机变量 \(X\) 的概率
-
对于连续随机变量,则表示为 \(f(X)\)
-
注意: 这里 \(\Pr(X)\) 表示具体的某一事件的概率,如 \(\Pr(X=i), i=1,2,\cdots\),简写为 \(\Pr(X)\)
-
\(\Pr(X)\) 也可以表示 \(X\) 的概率分布,即概率质量函数(Probability Mass Function,PMF)
-
\(X\) 对 \(Y\) 的边缘概率 的计算公式为:
\[\Pr(X=i) = \sum_{j} \Pr(X=i,Y=j), \ \forall i \quad \text{简写为} \quad \Pr(X) = \sum_{Y} \Pr(X,Y) \]
-
-
\(\Pr(Y)\) 是 \(Y\) 的先验概率,或边缘概率
-
\(Y\) 对 \(X\) 的边缘概率 的计算公式为:
\[\Pr(Y=j) = \sum_{i} \Pr(X=i,Y=j), \ \forall j \quad \text{简写为} \quad \Pr(Y) = \sum_{X} \Pr(X,Y) \]
-
-
\(\Pr(X|Y)\) 是 \(X\) 在 \(Y\) 条件下的条件概率(conditional probability),也就是在 \(Y\) 发生后,\(X\) 的概率,也称作 \(X\) 的后验概率(posterior probability)。
-
\(\Pr(Y|X)\) 是 \(Y\) 在 \(X\) 条件下的条件概率,也称作 \(Y\) 的后验概率。
-
似然函数: 在特定 \(Y\) 时,\(X\) 的似然性表示为 \(L(X|Y)\)
-
概率: 用于在已知一些参数的情况下,预测接下来在观测上所得到的结果
-
似然: 则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值,也就是说已观察到某事件后,对相关参数进行猜测。
-
似然函数可以理解为条件概率的逆反:
\[ L(X|Y) = \Pr(Y|X) \]
-
-
共轭先验:在贝叶斯估计中,如果选取先验分布函数 \(\pi(\theta)\),使得后验分布函数 \(\pi(\theta|x)\) 与其 \(\pi(\theta)\) 属于同一分布簇(即共轭分布),则称 \(\pi(\theta)\) 为似然函数 \(f(x|\theta)\) 的共轭先验。
共轭先验的选取有如下好处:
-
符合直观,先验分布和后验分布应该是相同形式的
-
可以给出后验分布的解析形式;
-
可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)
-
1.2 贝叶斯公式
1.2.1 条件概率计算公式
1.2.2 全概率公式
1.2.3 贝叶斯公式
上述公式可以理解为
比例 \(\dfrac{P(B|A)}{P(B)}\) 也有时被称作标准似然度(standardised likelihood),贝叶斯定理可表述为:
根据全概率公式计算计算 \(\Pr(Y)\),则贝叶斯公式可以进一步写为:
2 极大似然估计、贝叶斯估计和最大后验估计
假设:
-
\(f(x|\theta)\) 为总体(Population)的概率密度函数
-
\(\theta\) 为需要估计参数
2.1 极大似然估计(MLE)
对于一组观测到的样本(样本数量为 \(n\))\((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\)。极大似然估计(Maximum Likelihood Estimation,MLE)是频率学派观点,基本思想是:待估计参数 \(\theta\) 是客观存在的,只是未知而已,当 \(\hat{\theta}_{\text{MLE}}\) 满足 \(\theta = \hat{\theta}_{\text{MLE}}\) 时,该组观测样本 \((X_1, X_2, \cdots, X_n) = (x_1, x_2, \cdots, x_n)\) 发生的概率最大:
-
\(\theta\) 在 \((x_1, x_2, \cdots, x_n)\) 下的似然函数为:
\[L(\theta|x_1, x_2, \cdots, x_n) = f(x_1, x_2, \cdots, x_n|\theta) = \prod_{i=1}^{n}f(x_i|\theta) \] -
则 \(\theta\) 的极大似然估计值 为 \(\hat{\theta}_{\text{MLE}}\)
\[\hat{\theta}_{\text{MLE}} = \arg \min_{\theta} L(\theta|x_1, x_2, \cdots, x_n) \]
2.2 贝叶斯估计(BE)
贝叶斯估计(Bayesian Estimation,BE)是贝叶斯学派观点,它的基本思想是:待估计参数 \(\theta\) 是随机变量,因此只能根据观测样本估计参数 \(\theta\) 的分布。根据贝叶斯定理,可以得到 \(\pi(\theta | x)\) 的后验分布函数为:
其中 \(\pi(\theta)\) 表示参数 \(\theta\) 的先验分布;\(m(\theta)\) 表示样本 \(x\) 的先验分布。
后验分布是一个条件分布,通常取后验分布的期望作为参数的估计值。
2.3 最大后验估计(MAP)
最大后验估计(Maximum A Posteriori estimation,MAP)通过寻找 \(\theta = \hat{\theta}_{\text{MAP}}\) 使得后验概率最大化:
因为 \(m(x)\) 与 \(\theta\) 无关,所以
参考文献
[1] 贝叶斯定理, 维基百科, 地址
[2] 极大似然估计和贝叶斯估计, 知乎, 地址

浙公网安备 33010602011771号