Bayes 统计笔记 - 绪论
Bayes 统计 - 绪论
符号说明
- 概率 \(\mathbb{P}\)
- 方差 \(\mathbb{D}\)
- 期望 \(\mathbb{E}\)
- 众数 \(\mathrm{Mode}\)
- 特征函数 \(\varphi(t) = \mathbb{E}[\mathrm{e}^{\mathrm{i}tX}]\)
- 样本均值 \(\overline{X}\)
- 样本方差 \(S^{2}\) ,注意
此外,教材使用韦来生《贝叶斯统计》,习题部分也是书上的习题.
频率学派和 Bayes 学派
- 频率学派就是基于总体信息和样本信息来进行推断的统计学派,事实上,我们之前所学的几乎所有内容都是频率学派的成果,包括大数定律、中心极限定理等;
- Bayes 学派则主张主观概率,认为人的经验(先验信息)是可以应用到推断当中的;
两个学派的矛盾难以调和,因此在 Bayes 统计中,频率派的一些工具就不提及了.
基本概念
先验分布和后验分布
定义:先验分布
参数空间 \(\Theta\) 上的任一概率分布都称为先验分布 (prior distribution).
设随机变量 \(\theta\in \Theta\) ,之后我们用 \(\pi(\theta)\) 表示其概率密度函数 (PDF),并且在离散分布下,记
\(\theta\) 的分布函数 (CDF) 用 \(F^{\pi}(\theta)\) 表示.
先验分布表示获取抽样样本 \(X\) 之前参数 \(\theta\) 可能取值的认识,获取样本后,\(X\) 的信息使得人们对 \(\theta\) 的认识发生了变化和调整,调整的对 \(\theta\) 的新认识称为后验分布. 记为 \(\pi(\theta\mid x)\) .
定义:后验分布
在获得样本 \(X\) 后,\(\theta\) 的后验分布 (posterior distribution) 就是给定 \(X=x\) 条件下 \(\theta\) 的条件分布,记为 \(\pi(\theta\mid x)\) . 在有密度的情形下,密度函数为
\[\pi(\theta\mid x) = \dfrac{h(x, \theta)}{m(\theta)} = \dfrac{f(x\mid \theta) \pi(\theta)}{\displaystyle\int_{\Theta} f(x\mid \theta)\pi(\theta) \mathrm{d}\theta} \]其中 \(h(x,\theta) = f(x\mid \theta) \pi(\theta)\) 是 \(X\) 和 \(\theta\) 的联合密度,而
\[m(x) = \int_{\Theta} h(x,\theta)\mathrm{d}\theta = \int_{\Theta} f(x\mid \theta) \pi(\theta) \mathrm{d}\theta \]为 \(X\) 的边缘分布.
尽管意义明显,但是定义当中的计算式还是有点难顶,刚学习时,比较麻烦的是各个概率函数的对应.
对于离散形式,实际上就变成了
这个公式就是在概率论学过的 Bayes 公式. 这也说明 Bayes 公式尤其深刻的概率意义.
参数估计
在获得 \(\theta\) 的后验分布后,\(\theta\) 的估计可以用后验均值:
也可用后验分布的中位数或者众数等.
假设检验
设假设检验问题的一般形式是:
此处 \(\Theta_{0}\cup \Theta_{1}=\Theta\) ,其中 \(\Theta\) 是参数空间,获得 \(\theta\) 的后验分布后,计算对应的后验概率:
上面的哪个概率更大,就选取哪个假设,因此,如果 \(p_{0}(x)<p_{1}(x)\) ,就拒绝原假设 \(H_{0}\) ,否则接受 \(H_{0}\) .
区间估计也比较简单,就是在已知后验密度 \(\pi(\theta\mid x)\) 的情况下,求统计量 \(A(x)\) 和 \(B(x)\) ,使得
其中 \(0 < \alpha < 1\) 为常数,则称 \([A(x), B(x)]\) 为 \(\theta\) 的置信水平为 \(1-\alpha\) 的可信区间.
计算例
设随机变量 \(X\) 服从二项分布 \(B(n,\theta)\) ,\(\theta\) 的先验分布为 \((0,1)\) 上的均匀分布 \(U(0,1)\) ,求 \(\theta\) 的 Bayes 点估计.
已知 \(\pi(\theta)\) 是 \(U(0,1)\) 的 PDF ,那么为求后验分布,首先求联合密度,条件分布 \(f(x\mid \theta)\) 就是二项分布 \(B(n, \theta)\) ,于是联合密度为
从而边际分布:
注意这里的积分求解涉及到 Beta 函数的定义,利用 Beta 函数和 Gamma 函数的关系化简阶乘可以得到结果.
此时的后验分布就有
因此后验分布就是 \(\mathrm{Beta}(x+1, n-x+1)\) .
此时的 Bayes 点估计为
即有答案. \(\square\)
可以看到,它和 MLE 的解 \(\dfrac{x}{n}\) 有一定差别,这里体现出两派的差别,如果 \(x=0\) 或者 \(x=n\) ,那么频率派将会直接认为对应的 MLE 为 \(0,1\) ,相对极端. 但是 Bayes 派在此时的估计会相对温和,也就是说不会因为发生小概率事件而给出极端的估计.
习题
我们本章主要完成和 Bayes 有关的内容,数理统计涉及到的充分统计量、CR 不等式等内容都在此不作解决.
T1. 设参数 \(\theta\) 的先验分布为 Beta 分布 \(\mathrm{Beta}(\alpha,\beta)\) ,若从先验信息中获得其均值和方差分别为 \(\dfrac{1}{3}\) 和 \(\dfrac{1}{45}\) ,尝试确定该先验分布.
解方程组即可:
解得 \(\alpha=3, \beta=6\) . \(\square\)
T2. 设 \(\theta\) 的先验分布是 Gamma 分布,其均值为 \(10\) ,方差为 \(5\) ,尝试确定 \(\theta\) 的先验分布.
我们知道 \(\Gamma(\alpha, \lambda)\) 分布的均值和方差对应关系:
解得 \(\lambda=2, \alpha=20\) . \(\square\)
T3. 设 \(\theta\) 是一批产品的不合格率,已知它不是 \(0.1\) 就是 \(0.2\) ,且其先验分布为
\[\pi(0.1) = 0.7, \quad \pi(0.2) = 0.3 \]假如从这批产品中随机抽取 \(8\) 个进行检查,发现有 \(2\) 个不合格,求 \(\theta\) 的后验分布.
这个题目的难点在于 \(x\) 是什么,考虑 \(\theta\) 是参数,那么根据其本身的含义,我们可以知道设 \(X\) 为随机变量,\(X\sim B(8,\theta)\) ,表示不合格产品的数量,因此可以考虑
也就有
代入 \(x=2\) ,可以计算得到
于是根据离散的 Bayes 公式,有
以及
也就是相应的后验分布. \(\square\)
T4. 设一卷磁带上的缺陷数服从 Poisson 分布 \(P(\lambda)\) ,其中 \(\lambda\) 可取 \(1.0\) 和 \(1.5\) 中的一个,又设 \(\lambda\) 的先验分布为
\[\pi(1.0) = 0.4, \quad \pi(1.5) = 0.6 \]假如检查一卷磁带发现 \(3\) 个缺陷,求 \(\lambda\) 的后验分布.
先考虑
那么此时的联合分布:
代入 \(x=3\) ,
那么此时利用 Bayes 公式:
也就是后验分布. \(\square\)
T5. 设 \(\theta\) 是一批产品的不合格率,从中随机抽取 \(8\) 个产品进行检查,发现有 \(3\) 个不合格,假如先验分布为
(1) \(\theta\sim U(0,1)\) .
(2) \(\theta\sim \displaystyle\pi(\theta) = \begin{cases}2(1-\theta), & 0 < \theta < 1, \\ 0, & \text{Otherwise}\end{cases}\) .
分别求参数 \(\theta\) 的后验分布.
假设 \(X\sim B(8, \theta)\) ,那么:
(1) 根据例题,此时的后验分布应该为 \(\mathrm{Beta}(x+1, n-x+1)\) ,代入 \(n=8, x=3\) ,有后验分布为 \(\mathrm{Beta}(4, 6)\) .
(2) 此时考虑先进行推导,已知:
然后计算联合分布:
计算边缘分布
于是
其实就是 \(\mathrm{Beta}(x+1, n-x+2)\) ,代入 \(n=8, x=3\) 有
也就是 \(\mathrm{Beta}(4,7)\) . \(\square\)
T6. 设 \(X_{1},\cdots,X_{n}\) 是来自于密度函数 \(p(x\mid \theta)\) 的样本,\(\pi(\theta)\) 为 \(\theta\) 的先验密度,证明:按下列序贯方法可求得 \(\theta\) 的后验分布,其中符号 \(\propto\) 表示正比于,即表示其左右两边只差一个与 \(\theta\) 无关的正值常数因子.
(1) 给定 \(X_{1}=x_{1}\) 下,求出 \(\pi(\theta\mid x_{1})\propto p(x_{1}\mid \theta)\pi(\theta)\) .
(2) 把 \(\pi(\theta\mid x_{1})\) 作为下一步的先验分布,在给定 \(X_{2}=x_{2}\) 下,求得 \(\pi(\theta\mid x_{1},x_{2})\propto p(x_{2}\mid \theta)\pi (\theta\mid x_{1})\) .
(3) 按照此方法重复,把 \(\pi(\theta\mid x_{1},\cdots, x_{n-1})\) 作为下一步的先验分布,在给定 \(X_{n}=x_{n}\) 下,求得 \(\pi(\theta\mid \boldsymbol{x})\propto p(x_{n}\mid \theta)\pi(\theta\mid x_{1},\cdots x_{n-1})\) .
(1) 该步较为简单,根据定义,可以知道
(2) 在这一步,考虑样本 IID 有
也就符合本题结论.
(3) 根据归纳法并利用 (2) 可证明. \(\square\)
本题的结论很重要,它表示:
也就是后验分布等于样本的联合似然乘以先验分布.
T7. 某人每天早晨在车站等候公共汽车的时间 (单位:min) 服从均匀分布 \(U(0,\theta)\) ,假如 \(\theta\) 的先验分布为
\[\pi(\theta) = \begin{cases} \dfrac{192}{\theta^{4}}, & \theta \geqslant 4, \\ 0, & \theta< 4 \end{cases} \]设此人在 \(3\) 个早晨等车时间分别为 \(5,8,8\) ,求 \(\theta\) 的后验分布.
此时有样本 \(X_{1},X_{2},X_{3}\) ,因此利用上题结论.
那么先计算联合分布
边际分布为
因此
利用结论,可以知道
归一化后有
同理再推一步有
也就是后验分布,Pareto 分布,尺度参数为 \(8\) ,形状参数为 \(6\). \(\square\)
T8. 设随机变量 \(X\) 服从均匀分布 \(U(\theta - 0.5, \theta+ 0.5)\) ,其中 \(\theta\) 的先验分布为 \(U(10,20)\) ,
(1) 假如获得 \(X\) 的观察值是 \(12\) ,求 \(\theta\) 的后验分布.
(2) 假如连续获得 \(X\) 的 \(6\) 个观察值 \(12.0, 11.5, 11.7, 11.1, 11.4, 11.9\) ,求 \(\theta\) 的后验分布.
(1) 考虑联合分布
此时
当观察值是 \(12\) 时,\(\theta\in (11.5, 12.5)\) 时才有
因此
后验分布其实就是均匀分布 \(U(11.5,12.5)\) .
(2) 这里先计算联合似然,也就是
此时考察样本里的最值,最小值为 \(11.1\) ,最大值为 \(12\) ,那么上述的联合似然其实就是要求 \(\theta\in (11.5, 11.6)\) .
那么最终
归一化后有
也就是后验分布为 \(U(11.5, 11.6)\) . \(\square\)
T9. 考虑一个试验,对给定的 \(\theta\) ,试验结果 \(X\) 有如下的密度函数:
\[p(x\mid \theta) = \frac{2x}{\theta^{2}}, \quad 0 < x < \theta < 1 \](1) 假如 \(\theta\) 的先验分布是 \((0,1)\) 上的均匀分布,试求 \(\theta\) 的后验分布.
(2) 假如 \(\theta\) 的先验密度是 \(\pi(\theta)=3\theta^{2},\quad 0< \theta< 1\) ,试求 \(\theta\) 的后验分布.
(1) 计算
然后有
因此
(2) 此时再计算有
然后有
因此
即 \(U(x,1)\) . \(\square\)

浙公网安备 33010602011771号