Bayes 统计笔记 - 绪论

Bayes 统计 - 绪论

符号说明

  • 概率 \(\mathbb{P}\)
  • 方差 \(\mathbb{D}\)
  • 期望 \(\mathbb{E}\)
  • 众数 \(\mathrm{Mode}\)
  • 特征函数 \(\varphi(t) = \mathbb{E}[\mathrm{e}^{\mathrm{i}tX}]\)
  • 样本均值 \(\overline{X}\)
  • 样本方差 \(S^{2}\) ,注意

\[S^{2} = \frac{1}{n-1}\sum\limits_{i=1}^{n} (X_{i}-\overline{X})^{2} \]

此外,教材使用韦来生《贝叶斯统计》,习题部分也是书上的习题.

频率学派和 Bayes 学派

  • 频率学派就是基于总体信息和样本信息来进行推断的统计学派,事实上,我们之前所学的几乎所有内容都是频率学派的成果,包括大数定律、中心极限定理等;
  • Bayes 学派则主张主观概率,认为人的经验(先验信息)是可以应用到推断当中的;

两个学派的矛盾难以调和,因此在 Bayes 统计中,频率派的一些工具就不提及了.

基本概念

先验分布和后验分布

定义:先验分布

参数空间 \(\Theta\) 上的任一概率分布都称为先验分布 (prior distribution).

设随机变量 \(\theta\in \Theta\) ,之后我们用 \(\pi(\theta)\) 表示其概率密度函数 (PDF),并且在离散分布下,记

\[\pi(\theta_{i}) = \mathbb{P}(\theta=\theta_{i}) \]

\(\theta\) 的分布函数 (CDF) 用 \(F^{\pi}(\theta)\) 表示.

先验分布表示获取抽样样本 \(X\) 之前参数 \(\theta\) 可能取值的认识,获取样本后,\(X\) 的信息使得人们对 \(\theta\) 的认识发生了变化和调整,调整的对 \(\theta\) 的新认识称为后验分布. 记为 \(\pi(\theta\mid x)\) .

定义:后验分布

在获得样本 \(X\) 后,\(\theta\)后验分布 (posterior distribution) 就是给定 \(X=x\) 条件下 \(\theta\) 的条件分布,记为 \(\pi(\theta\mid x)\) . 在有密度的情形下,密度函数为

\[\pi(\theta\mid x) = \dfrac{h(x, \theta)}{m(\theta)} = \dfrac{f(x\mid \theta) \pi(\theta)}{\displaystyle\int_{\Theta} f(x\mid \theta)\pi(\theta) \mathrm{d}\theta} \]

其中 \(h(x,\theta) = f(x\mid \theta) \pi(\theta)\)\(X\)\(\theta\) 的联合密度,而

\[m(x) = \int_{\Theta} h(x,\theta)\mathrm{d}\theta = \int_{\Theta} f(x\mid \theta) \pi(\theta) \mathrm{d}\theta \]

\(X\) 的边缘分布.

尽管意义明显,但是定义当中的计算式还是有点难顶,刚学习时,比较麻烦的是各个概率函数的对应.

对于离散形式,实际上就变成了

\[\pi(\theta_{i}\mid x) = \dfrac{f(x\mid \theta_{i})\pi(\theta_{i})}{\displaystyle\sum\limits_{i} f(x\mid \theta_{i})\pi(\theta_{i})}, i=1,2,\cdots \]

这个公式就是在概率论学过的 Bayes 公式. 这也说明 Bayes 公式尤其深刻的概率意义.

参数估计

在获得 \(\theta\) 的后验分布后,\(\theta\) 的估计可以用后验均值:

\[\widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \int_{\Theta} \theta_{\pi}(\theta \mid x) \mathrm{d} \theta = \dfrac{\displaystyle\int_{\Theta} \theta f(x\mid \theta) \pi(\theta) \mathrm{d}\theta}{m(x)} \]

也可用后验分布的中位数或者众数等.

假设检验

设假设检验问题的一般形式是:

\[H_{0}: \theta\in \Theta_{0} \longleftrightarrow H_{1}: \theta\in \Theta_{1} \]

此处 \(\Theta_{0}\cup \Theta_{1}=\Theta\) ,其中 \(\Theta\) 是参数空间,获得 \(\theta\) 的后验分布后,计算对应的后验概率:

\[p_{0}(x) = \mathbb{P}(\theta\in \Theta_{0} \mid x) , \quad p_{1}(x) = \mathbb{P}(\theta\in \Theta_{1}\mid x) \]

上面的哪个概率更大,就选取哪个假设,因此,如果 \(p_{0}(x)<p_{1}(x)\) ,就拒绝原假设 \(H_{0}\) ,否则接受 \(H_{0}\) .

区间估计也比较简单,就是在已知后验密度 \(\pi(\theta\mid x)\) 的情况下,求统计量 \(A(x)\)\(B(x)\) ,使得

\[\mathbb{P}(A(x) \leqslant \theta \leqslant B(x) \mid x) = \int_{A(x)}^{B(x)} \pi(\theta\mid x) \mathrm{d}x = 1- \alpha \]

其中 \(0 < \alpha < 1\) 为常数,则称 \([A(x), B(x)]\)\(\theta\) 的置信水平为 \(1-\alpha\) 的可信区间.

计算例

设随机变量 \(X\) 服从二项分布 \(B(n,\theta)\)\(\theta\) 的先验分布为 \((0,1)\) 上的均匀分布 \(U(0,1)\) ,求 \(\theta\) 的 Bayes 点估计.

已知 \(\pi(\theta)\)\(U(0,1)\) 的 PDF ,那么为求后验分布,首先求联合密度,条件分布 \(f(x\mid \theta)\) 就是二项分布 \(B(n, \theta)\) ,于是联合密度为

\[h(x, \theta) = \mathbb{1}_{(0< \theta < 1)} \cdot \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \]

从而边际分布:

\[m(x) = \int_{0}^{1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathrm{d}\theta = \frac{1}{n+1} \]

注意这里的积分求解涉及到 Beta 函数的定义,利用 Beta 函数和 Gamma 函数的关系化简阶乘可以得到结果.

此时的后验分布就有

\[\pi(\theta\mid x) =(n+1) \binom{n}{x} \theta^{x} (1-\theta)^{n-x} = \dfrac{\Gamma(n+2)}{\Gamma(x+1)\Gamma(n-x+1)} \theta^{(x+1)-1} (1-\theta)^{(n-x+1)-1} \]

因此后验分布就是 \(\mathrm{Beta}(x+1, n-x+1)\) .

此时的 Bayes 点估计为

\[\widehat{\theta}_{B} = \mathbb{E}[\theta\mid x] = \frac{x+1}{n+2} \]

即有答案. \(\square\)

可以看到,它和 MLE 的解 \(\dfrac{x}{n}\) 有一定差别,这里体现出两派的差别,如果 \(x=0\) 或者 \(x=n\) ,那么频率派将会直接认为对应的 MLE 为 \(0,1\) ,相对极端. 但是 Bayes 派在此时的估计会相对温和,也就是说不会因为发生小概率事件而给出极端的估计.

习题

我们本章主要完成和 Bayes 有关的内容,数理统计涉及到的充分统计量、CR 不等式等内容都在此不作解决.

T1. 设参数 \(\theta\) 的先验分布为 Beta 分布 \(\mathrm{Beta}(\alpha,\beta)\) ,若从先验信息中获得其均值和方差分别为 \(\dfrac{1}{3}\)\(\dfrac{1}{45}\) ,尝试确定该先验分布.

解方程组即可:

\[\begin{cases} \dfrac{\alpha}{\alpha+\beta} = \dfrac{1}{3} \\ \dfrac{\alpha \beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)} = \dfrac{1}{45} \end{cases} \]

解得 \(\alpha=3, \beta=6\) . \(\square\)

T2. 设 \(\theta\) 的先验分布是 Gamma 分布,其均值为 \(10\) ,方差为 \(5\) ,尝试确定 \(\theta\) 的先验分布.

我们知道 \(\Gamma(\alpha, \lambda)\) 分布的均值和方差对应关系:

\[\begin{cases} \dfrac{\alpha}{\lambda} = 10 \\ \dfrac{\alpha}{\lambda^{2}} = 5 \end{cases} \]

解得 \(\lambda=2, \alpha=20\) . \(\square\)

T3. 设 \(\theta\) 是一批产品的不合格率,已知它不是 \(0.1\) 就是 \(0.2\) ,且其先验分布为

\[\pi(0.1) = 0.7, \quad \pi(0.2) = 0.3 \]

假如从这批产品中随机抽取 \(8\) 个进行检查,发现有 \(2\) 个不合格,求 \(\theta\) 的后验分布.

这个题目的难点在于 \(x\) 是什么,考虑 \(\theta\) 是参数,那么根据其本身的含义,我们可以知道设 \(X\) 为随机变量,\(X\sim B(8,\theta)\) ,表示不合格产品的数量,因此可以考虑

\[f(x\mid \theta) = \binom{8}{x} \theta^{x} (1-\theta)^{n-x} \]

也就有

\[f(x\mid \theta=0.1) = \binom{8}{x} 0.1^{x} 0.9^{8-x}, \quad f(x\mid \theta=0.2) = \binom{8}{x} 0.2^{x} 0.8^{8-x} \]

代入 \(x=2\) ,可以计算得到

\[f(x=2\mid \theta=0.1) = 0.14880348, \quad f(x=2\mid \theta=0.2) = 0.29360128 \]

于是根据离散的 Bayes 公式,有

\[\pi(0.1\mid x=2) = \dfrac{0.14880348\times 0.7}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.52451 \]

以及

\[\pi(0.2\mid x=2) = \dfrac{0.29360128\times 0.3}{0.14880348\times 0.7+0.29360128\times 0.3} \approx 0.47549 \]

也就是相应的后验分布. \(\square\)

T4. 设一卷磁带上的缺陷数服从 Poisson 分布 \(P(\lambda)\) ,其中 \(\lambda\) 可取 \(1.0\)\(1.5\) 中的一个,又设 \(\lambda\) 的先验分布为

\[\pi(1.0) = 0.4, \quad \pi(1.5) = 0.6 \]

假如检查一卷磁带发现 \(3\) 个缺陷,求 \(\lambda\) 的后验分布.

先考虑

\[f(x\mid \lambda) = \dfrac{\lambda^{x}}{x!} \mathrm{e}^{-\lambda} \]

那么此时的联合分布:

\[\begin{aligned} h(x, \lambda=1.0) & = 0.4\times \frac{1}{x!\mathrm{e}} \\ h(x, \lambda=1.5) & = 0.6 \times \frac{1.5^{x}}{x!\mathrm{e}^{1.5}} \end{aligned} \]

代入 \(x=3\)

\[\begin{aligned} h(x=3, \lambda=1.0) & = 0.4\times \frac{1}{6\mathrm{e}}\approx 0.0245253 \\ h(x=3, \lambda=1.5) & = 0.6 \times \frac{1.5^{3}}{6\mathrm{e}^{1.5}} \approx 0.075306 \end{aligned} \]

那么此时利用 Bayes 公式:

\[\begin{aligned} \pi(\lambda=1.0\mid x=3) & = \dfrac{0.0245253}{0.0245253+0.075306} \approx 0.245667 \\ \pi(\lambda=1.5\mid x=3) & = \dfrac{0.075306}{0.0245253+0.075306} \approx 0.754333 \end{aligned} \]

也就是后验分布. \(\square\)

T5. 设 \(\theta\) 是一批产品的不合格率,从中随机抽取 \(8\) 个产品进行检查,发现有 \(3\) 个不合格,假如先验分布为

(1) \(\theta\sim U(0,1)\) .

(2) \(\theta\sim \displaystyle\pi(\theta) = \begin{cases}2(1-\theta), & 0 < \theta < 1, \\ 0, & \text{Otherwise}\end{cases}\) .

分别求参数 \(\theta\) 的后验分布.

假设 \(X\sim B(8, \theta)\) ,那么:

(1) 根据例题,此时的后验分布应该为 \(\mathrm{Beta}(x+1, n-x+1)\) ,代入 \(n=8, x=3\) ,有后验分布为 \(\mathrm{Beta}(4, 6)\) .

(2) 此时考虑先进行推导,已知:

\[f(x\mid \theta) = \binom{n}{x} \theta^{x} (1-\theta)^{n-x} \mathbb{1}_{(0<\theta<1)} \]

然后计算联合分布:

\[h(x, \theta) = 2\binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta<1)} \]

计算边缘分布

\[\begin{aligned} m(x) & = \int_{0}^{1} h(x,\theta) \mathrm{d}\theta \\ & = 2\dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \int_{0}^{1}\theta^{x} (1-\theta)^{n-x+1}\mathrm{d}\theta \\ & = 2 \dfrac{\Gamma(n+1)}{\Gamma(x+1)\Gamma(n-x+1)} \dfrac{\Gamma(x+1)\Gamma(n-x+2)}{\Gamma(n+3)} \\ & = 2\dfrac{n-x+1}{(n+2)(n+1)} \end{aligned} \]

于是

\[\begin{aligned} \pi(\theta\mid x) & = \dfrac{(n+2)(n+1)}{n-x+1} \binom{n}{x} \theta^{x} (1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \\ & = \dfrac{\Gamma(n+3)}{\Gamma(x+1)\Gamma(n-x+2)} \theta^{x}(1-\theta)^{n-x+1} \mathbb{1}_{(0< \theta< 1)} \end{aligned} \]

其实就是 \(\mathrm{Beta}(x+1, n-x+2)\) ,代入 \(n=8, x=3\)

\[\pi(\theta\mid x=3) = 840\theta^{3}(1-\theta)^{6} \mathbb{1}_{(0< \theta<1)} \]

也就是 \(\mathrm{Beta}(4,7)\) . \(\square\)

T6. 设 \(X_{1},\cdots,X_{n}\) 是来自于密度函数 \(p(x\mid \theta)\) 的样本,\(\pi(\theta)\)\(\theta\) 的先验密度,证明:按下列序贯方法可求得 \(\theta\) 的后验分布,其中符号 \(\propto\) 表示正比于,即表示其左右两边只差一个与 \(\theta\) 无关的正值常数因子.

(1) 给定 \(X_{1}=x_{1}\) 下,求出 \(\pi(\theta\mid x_{1})\propto p(x_{1}\mid \theta)\pi(\theta)\) .

(2) 把 \(\pi(\theta\mid x_{1})\) 作为下一步的先验分布,在给定 \(X_{2}=x_{2}\) 下,求得 \(\pi(\theta\mid x_{1},x_{2})\propto p(x_{2}\mid \theta)\pi (\theta\mid x_{1})\) .

(3) 按照此方法重复,把 \(\pi(\theta\mid x_{1},\cdots, x_{n-1})\) 作为下一步的先验分布,在给定 \(X_{n}=x_{n}\) 下,求得 \(\pi(\theta\mid \boldsymbol{x})\propto p(x_{n}\mid \theta)\pi(\theta\mid x_{1},\cdots x_{n-1})\) .

(1) 该步较为简单,根据定义,可以知道

\[\pi(\theta\mid x_{1}) =\dfrac{p(x_{1}\mid \theta) \pi(\theta)}{m(x_{1})} \propto p(x_{1}\mid \theta) \pi(\theta) \]

(2) 在这一步,考虑样本 IID 有

\[\begin{aligned} \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) & = \dfrac{p(x_{1}\mid \theta)p(x_{2}\mid \theta)\pi(\theta)}{m(x_{1})m(x_{2})} m(x_{2}) \\ & = \dfrac{p(x_{1}, x_{2}\mid \theta) \pi(\theta)}{m(x_{1},x_{2})} m(x_{2}) = \pi(\theta\mid x_{1},x_{2}) m(x_{2}) \end{aligned} \]

也就符合本题结论.

(3) 根据归纳法并利用 (2) 可证明. \(\square\)

本题的结论很重要,它表示:

\[\pi(\theta\mid \boldsymbol{x}) \propto \pi(\theta) \prod_{i=1}^{n} p(x_{i}\mid \theta) \]

也就是后验分布等于样本的联合似然乘以先验分布.

T7. 某人每天早晨在车站等候公共汽车的时间 (单位:min) 服从均匀分布 \(U(0,\theta)\) ,假如 \(\theta\) 的先验分布为

\[\pi(\theta) = \begin{cases} \dfrac{192}{\theta^{4}}, & \theta \geqslant 4, \\ 0, & \theta< 4 \end{cases} \]

设此人在 \(3\) 个早晨等车时间分别为 \(5,8,8\) ,求 \(\theta\) 的后验分布.

此时有样本 \(X_{1},X_{2},X_{3}\) ,因此利用上题结论.

那么先计算联合分布

\[h(x_{1}, \theta) = \frac{1}{\theta} \frac{192}{\theta^{4}} \mathbb{1}_{[4,+\infty)}(\theta) \mathbb{1}_{(0, \theta)}(x_{1}) = \frac{192}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) \]

边际分布为

\[m(x_{1}) = \int_{5}^{+\infty} \frac{192}{\theta^{5}} \mathrm{d}\theta = \frac{48}{625} \]

因此

\[\pi(\theta\mid x_{1}) = \frac{2500}{\theta^{5}} \mathbb{1}_{(5,+\infty)}(\theta) \]

利用结论,可以知道

\[\pi(\theta\mid x_{1},x_{2})\propto \pi(\theta\mid x_{1}) p(x_{2}\mid \theta) = \frac{2500}{\theta^{6}} , \theta \geqslant 8 \]

归一化后有

\[\pi(\theta\mid x_{1},x_{2}) = \frac{163840}{\theta^{6}}, \theta \geqslant 8 \]

同理再推一步有

\[\pi(\theta\mid \boldsymbol{x}) = \frac{1572864}{\theta^{7}}, \quad \theta \geqslant 8 \]

也就是后验分布,Pareto 分布,尺度参数为 \(8\) ,形状参数为 \(6\). \(\square\)

T8. 设随机变量 \(X\) 服从均匀分布 \(U(\theta - 0.5, \theta+ 0.5)\) ,其中 \(\theta\) 的先验分布为 \(U(10,20)\)

(1) 假如获得 \(X\) 的观察值是 \(12\) ,求 \(\theta\) 的后验分布.

(2) 假如连续获得 \(X\)\(6\) 个观察值 \(12.0, 11.5, 11.7, 11.1, 11.4, 11.9\) ,求 \(\theta\) 的后验分布.

(1) 考虑联合分布

\[h(x,\theta) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(x) \frac{1}{10} \mathbb{1}_{(10,20)}(\theta) \]

此时

\[m(x) = \int_{10}^{20} \frac{1}{10}\mathbb{1}_{(\theta-0.5,\theta+0.5)} (x)\mathrm{d}\theta \]

当观察值是 \(12\) 时,\(\theta\in (11.5, 12.5)\) 时才有

\[m(x=12) = \int_{11.5}^{12.5} \frac{1}{10}\mathrm{d}\theta = 0.1 \]

因此

\[\pi(\theta\mid x = 12) = \mathbb{1}_{(\theta-0.5, \theta+0.5)}(12) \mathbb{1}_{(10,20)}(\theta) \]

后验分布其实就是均匀分布 \(U(11.5,12.5)\) .

(2) 这里先计算联合似然,也就是

\[\prod_{i=1}^{n} p(x_{i}\mid \theta) = \begin{cases} 1, & \forall i, \quad x_{i}\in (\theta-0.5,\theta+0.5) \\ 0, & \text{Otherwise} \end{cases} \]

此时考察样本里的最值,最小值为 \(11.1\) ,最大值为 \(12\) ,那么上述的联合似然其实就是要求 \(\theta\in (11.5, 11.6)\) .

那么最终

\[\pi(\theta\mid \boldsymbol{x})\propto \mathbb{1}_{(11.5,11.6)}(\theta) \]

归一化后有

\[\pi(\theta\mid \boldsymbol{x}) = \frac{1}{10}, \quad \theta\in (11.5,11.6) \]

也就是后验分布为 \(U(11.5, 11.6)\) . \(\square\)

T9. 考虑一个试验,对给定的 \(\theta\) ,试验结果 \(X\) 有如下的密度函数:

\[p(x\mid \theta) = \frac{2x}{\theta^{2}}, \quad 0 < x < \theta < 1 \]

(1) 假如 \(\theta\) 的先验分布是 \((0,1)\) 上的均匀分布,试求 \(\theta\) 的后验分布.

(2) 假如 \(\theta\) 的先验密度是 \(\pi(\theta)=3\theta^{2},\quad 0< \theta< 1\) ,试求 \(\theta\) 的后验分布.

(1) 计算

\[h(x,\theta) = \frac{2x}{\theta^{2}}, \quad 0 < x< \theta<1 \]

然后有

\[m(x) = \int_{x}^{1} \frac{2x}{\theta^{2}} \mathrm{d}\theta = 2x \left(\frac{1}{x}-1\right) = 2-2x \]

因此

\[\pi(\theta\mid x) = \dfrac{x}{(1-x)\theta^{2}}, \quad 0 < x < \theta < 1 \]

(2) 此时再计算有

\[h(x,\theta) = 6x, \quad 0<x< \theta<1 \]

然后有

\[m(x) = 6x(1-x), x\in (0,1) \]

因此

\[\pi(\theta\mid x) = \frac{1}{1-x}, \quad 0< x< \theta< 1 \]

\(U(x,1)\) . \(\square\)

posted @ 2026-01-29 17:58  xzqbear  阅读(1)  评论(0)    收藏  举报