相合估计
第十章 相合估计
该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。
在之前的几章中,主要讨论的内容在于如何求取点估计值以及检验区间,同时通过检验区间的反转来构建置信区间的方法。但是对于一些统计量,其分布较为特殊,没有办法给出具体的分布函数。此时,我们很难对该统计量进行统计推断上的性能估计。本章则从极限的角度,归纳了一部分统计量(主要为MLE统计量)在样本数量 \(n \to \infty\) 时,能够给出一个近似的正态分布(这其实与中心极限定理息息相关)。这个近似的正态分布给了我们分析难以显示表达分布的统计量的一种手段。我们知道,正态分布具有良好性质,所以这一章是及其有意义的。
10.1 点估计
10.1.1 相合性
定义 10.1.1 一个估计量序列 \(W_n=W_n\left(X_1, \cdots, X_n\right)\) 是参数 \(\theta\) 的一个相合估计量序列, 如果对于每个 \(€>0\) 和每个 \(\theta \in \Theta\),
通俗地讲, 就是说当样本量变成无穷(而且样本信息变得越来越好) 时, 估计量将以高概率任意接近于参数 \(\theta\), 这是人们特别渴望的一个性质. 或者把事情转换一下, 我们可以说一个相合估计量序列末能达到真实参数的概率很小. 上式的一个等价命题为,一个相合序列 \(W_n\) 将满足: 对于每个 \(\epsilon>0\) 和每个 \(\theta \in \Theta\),
\(\lim _{n \rightarrow \infty} P_\theta\left(\left|W_n-\theta\right| \geqslant \epsilon\right)=0\).
定义 10.1.1 可以和依概率收玫的定义比较. 定义 10.1.1 讲 的就是一个相合估计量序列依概率收玫于被估计的参数 \(\theta\). 但是依概率收敛是以一个概率结构来处理一个随机变量序列, 而定义 \(10.1 .1\) 是以用 \(\theta\) 为指标的一整族概率结构做处理.
一般情况下可以使用Chebychev不等式来验证相合性
这样, 如果对于每个 \(\theta \in \Theta\) 有
则这个估计量序列就是相合的. 回想一下第七章中的无偏估计中我们讨论过均方误差的拆解,如下所示,可以拆解为方差和偏差的平方
所以可以推出以下的定理.
定理 10.1.3 如果 \(W_n\) 是参数 \(\theta\) 的一个估计量序列, 它对于每个 \(\theta \in \Theta\) 都满足
\(\lim _{n \rightarrow \infty} \operatorname{Var}_\theta W_n=0\)
\(\lim _{n \rightarrow \infty} \operatorname{Bias}_\theta W_n=0\)
则 \(W_n\) 是参数 \(\theta\) 的一个相合估计量序列.
定理 10.1.5 设 \(W_n\) 是参数 \(\theta\) 的一个相合估计量序列. 设 \(a_1, a_2, \cdots\) 和 \(b_1, b_2\), \(\cdots\) 是常数序列,满足
\(\lim _{n \rightarrow \infty}=1\)
\(\lim _{n \rightarrow \infty} b_n=0\)
则序列 \(U_n=a_n W_n+b_n\) 是参数 \(\theta\) 的一个相合估计量序列,接下来给出一个MLE相关的定理,其使用非常广泛.
定理 10.1.6 (MLE 的相合性) 设 \(X_1, X_2, \cdots\) 是 iid \(f(x \mid \theta)\) 的, \(L(\theta \mid \boldsymbol{x})\) \(=\prod_{i=1}^n f\left(x_i \mid \theta\right)\) 是似然函数, 而 \(\hat{\theta}\) 表示 \(\theta\) 的 MLE. 设 \(\tau(\theta)\) 是 \(\theta\) 的一个连续函数. 那么在对 \(L(\theta \mid x)\) 的正则性条件之下, 对于每个 \(\epsilon>0\) 和每个 \(\theta \in \Theta\), 有
这就是说, 此 \(\tau(\hat{\theta})\) 是 \(\tau(\theta)\) 的一个相合估计量.
10.1.2 有效性
相合性考虑的是估计量的收敛性,即渐进的精确性。但是我们依旧无法得到估计量的极限分布。但是第五章的中心极限定理给了我们一个近似分布的思路,能否通过构建一个样本均值函数作为估计量,从而推导出极限分布呢?而恰好MLE具有这样的性质。
定义 10.1.7 对于一个估计量 \(T_n\), 如果 \(\lim _{n \rightarrow \infty} k_n \operatorname{Var} T_n=\tau^2<\infty\), 其中 \(\left\{k_n\right\}\) 是一 个常数序列, 则 \(\tau^2\) 叫做极限方差或方差的极限.
例 10.1.8 (极限方差) 关于 \(n\) 个 iid 的具有 \(\mathrm{E}(X)=\mu\) 和 \(\operatorname{Var}(X)=\sigma^2\) 的正态观测的平均值 \(\bar{X}_n\), 如果我们取 \(T_n=\bar{X}_n\), 则 \(\lim _{n \rightarrow \infty} n \operatorname{Var} \bar{X}_n=\sigma^2\) 是 \(T_n\) 的极限方差.
但是, 若我们要用 \(1 / \bar{X}_n\) 估计 \(1 / \mu\), 麻烦事就发生了. 如果我们现在取 \(T_n=1 /\) \(\bar{X}_n\), 就发现方差 \(\operatorname{Var} T_n=\infty\), 那么方差的极限是无穷. 然而回忆例 \(5.5 .23\), 那里 我们讲过 \(1 / \bar{X}_n\) 的近似均值和方差是\[\begin{gathered} E\left(\frac{1}{\bar{X}_n}\right) \approx \frac{1}{\mu}, \\ \operatorname{Var}\left(\frac{1}{\bar{X}_n}\right) \approx\left(\frac{1}{\mu}\right)^4 \operatorname{Var} \bar{X}_n, \end{gathered} \]于是根据这第二次的计算, 方差是 \(\operatorname{Var} T_n \approx \frac{\sigma^2}{n \mu^4}<\infty\).
这个例子指出了把方差的极限用作大样本量度时的问题. 当然, 精确有限样本 \(1 / \bar{X}\) 的方差是 \(\infty\). 但是如果 \(\mu \neq 0\), 则 \(1 / \bar{X}\) 取非常大值的区域会具有趋向 0 的概率. 所以例 10.1.8 中第二种近似是很现实的 (同时更是有用的). 我们采用的就是这第二种计算大样本方差的方法.
定义 10.1.9 对于一个估计量 \(T_n\), 假定有依分布收玫 \(k_n\left(T_n-\tau(\theta)\right) \rightarrow \mathrm{n}(0\), \(\sigma^2\) ), 则参数 \(\sigma^2\). 叫做 \(T_n\) 的渐近方差或 \(T_n\) 的极限分布的方差.
定义 10.1.11 如果 \(\sqrt{n}\left[W_n-\tau(\theta)\right] \stackrel{L}{\rightarrow} \mathrm{n}(0, v(\theta))\) 而且
则一个估计量序列 \(W_n\) 关于一个参数 \(\tau(\theta)\) 是渐近有效的,且 \(W_n\) 的渐近方差达到了 Cramér-Rao 下界.
在一般的条件之下, MLE 是相合的. 在某些更强的正则性条件之下, 关于渐近有效的同样类型定理也成立, 一般可以把 MLE 看成 是相合且渐近有效的.
定理 10.1.12 (MLE 的渐近有效性) 设 \(X_1, X_2, \cdots\) 是 iid \(f(x \mid \theta), \theta\) 的 MLE 记作 \(\hat{\theta}\), 设 \(\tau(\theta)\) 是 \(\theta\) 的一个连续函数. 那么在 \(10.6\) 节 10.6.2 的关于 \(f(x \mid \theta)\), 从而也就是对 \(L(\theta \mid \boldsymbol{x})\) 的正则性条件之下,
其中 \(u(\theta)\) 是 Cramér-Rao 下界. 就是说, \(\tau(\hat{\theta})\) 是 \(\tau(\theta)\) 的一个相合且渐近有效的估计量.
这个定理及其重要,因此在此需要给出其书上的推导,以帮助理解。大致的推导过程是以Taylor展开和中心极限定理为基础进行推导,而在最后一步则使用了Slutsky定理。
推导:回忆 \(l(\theta \mid \boldsymbol{x})=\sum \log f\left(x_i \mid \theta\right)\) 是对数似然函数. 把其导数 (关于 \(\theta\) 的) 记 作 \(l^{\prime}, l^{\prime \prime}, \cdots\). 现在真值 \(\theta_0\) 的周围展开对数似然的一阶导数,
\((10.1 .4)\)
这里忽略其高阶项 (在正则性条件下)
现在用 \(\hat{\theta}\) 替换 \(\theta\), 并看到等式 (10.1.4) 的左边是 0 . 重新整理此式并且乘以 \(\sqrt{n}\), 就给出
\((10.1 .5)\)
如果我们用 \(I\left(\theta_0\right)=E\left[l^{\prime}\left(\theta_0 \mid \boldsymbol{X}\right)\right]^2=1 / v(\theta)\) 来记关于一个观测的信息数, 应 用中心极限定理和弱大数定律 (细节见习题 10.8) 就将证明出
\((10.1 .6)\)
这样, 如果我们设 \(W \sim \mathrm{n}\left[0, I\left(\theta_0\right)\right]\), 则 \(\sqrt{n}\left(\hat{\theta}-\theta_0\right)\) 依分布收玫到 \(W /\) \(I\left(\theta_0\right) \sim n\left[0,1 / I\left(\theta_0\right)\right]\), 定理证毕.
推论 10.1.13 (渐近正态与相合性) 以上定理表明 MLE 具有有效性和相合性 是典型情况. 这个说法是累赘的, 因为有效性只被定义在估计量是渐近正态的, 渐近正态蕴涵相合性.
假设
其中 \(Z \sim \mathrm{n}(0,1)\). 通过运用 Slutsky 定理 (定理 5.5.17),
所以 \(W_n-\mu \stackrel{L}{\rightarrow}\). 所以依分布收玫到一个点等价于依概率收敛, 所以 \(W_n\) 是 \(\mu\) 的一个相合估计量.
10.1.3 计算与比较
我们可以用渐进方差作为真实方差的一个近似.如果一个 MLE 是渐近有效的,就可以把 Cramér-Rao 下界用作 MLE 的 真实方差的一个近似. 设 \(X_1, X_2, \cdots\) 是 iid \(f(x \mid \theta)\) 的, \(\hat{\theta}\) 是 \(\theta\) 的 MLE, 而 \(I_n(\theta)=\) \(\mathrm{E}_\theta\left(\frac{\partial}{\partial \theta} \log L(\theta \mid \boldsymbol{X})\right)^2\) 是样本的信息数. 根据 \(\Delta\) 方法与 MLE 的渐近有效性,\(h(\hat{\theta})\) 的方差可以由以下来近似
\((10.1 .7)\)
(分母是 \(\hat{I}_n(\hat{\theta})\), 即观测信息数)
此外, 已被证明 (Efron and Hinkley 1978), 使用观测信息数胜于使用出现在 Cramér-Rao 下界中的期望信息数.
为估计 \(\operatorname{Var}_\theta h(\hat{\theta})\), 首先我们近似 \(\operatorname{Var}_\theta h(\hat{\theta})\), 然后再估计这个近似结果, 而 这通常是用 \(\hat{\theta}\) 替换 \(\theta\). 作为结果的估计, 可以记作 \(\operatorname{Var}_\theta h(\hat{\theta})\) 或 \(\widehat{\operatorname{Var}_\theta} h(\hat{\theta})\).由于 \(-\left.\frac{1}{n} \frac{\partial^2}{\partial \theta^2} \log L(\theta \mid \boldsymbol{X})\right|_{\theta-\hat{\theta}}\) 是 \(I(\theta)\) 的一个相合估计量, 所以就得到\(\operatorname{Var}_\theta h(\hat{\theta})\) 是 \(\operatorname{Var}_\theta h(\hat{\theta})\) 的一个相合估计量.
渐近有效的性质给予我们一个在求渐近方差时希望达到的基准点. 通过渐近相对效率的概念, 我们还能将渐近方差当作比较估计量的一个工具.
定义 10.1.16 如果两个估计量 \(W_n\) 和 \(V_n\) 满足
\(V_n\) 关于 \(W_n\) 的渐近相对效率 (ARE) 是
10.2 稳健性
稳健性是讨论在我们对模型的估计不正确的时候,估计量的性能是否会收到影响,以及影响的程度。
10.2.1均值与中位数
定义 10.2.2 设 \(X_{(1)}<\cdots<X_{(n)}\) 是容量为 \(n\) 的顺序样本, 而设 \(T_n\) 是一个基于 这个样本的统计量. \(T_n\) 具有崩溃值 (breakdown value) \(b, 0 \leqslant b \leqslant 1\), 如果对于每 \(一 个 €>0\), 都有
容易看出 \(\bar{X}\) 的崩溃值是 0; 就是说, 如果这个样本中任何比例的样本值趋向无穷, 则 \(\bar{X}\) 的值也趋向无穷. 与此鲜明对照的是, 样本中位数在样本值的这种变化下 是不变的. 这种对于极端观测值的不敏感性有的时候被认为是样本中位数的一个优 点, 它的崩溃值为 \(50 \%\).
由于中位数在稳健性方面对于均值有改善,但是其肯定会付出一些代价,我们需要知道转而使用一个更加稳健的估计量是否会失去什么. 为了在某种普遍意义下回答这个问题, 我们可以使用渐近相对效率准则.
10.2.2 M-估计量
很多统计量是最小化一个特别的准则的结果. 例如, 如果 \(X_1\), \(X_2, \cdots, X_n\) 是来自 \(f(x \mid \theta)\) 的, 那么, 可能的估计量有: 样本均值, 它是使 \(\sum\left(x_i-a\right)^2\) 最小的量; 样本中位数, 它是使 \(\sum\left|x_i-a\right|\) 最小的量; 再就是 MLE, 它是使 \(\prod_{i=1}^n f\left(x_i \mid \theta\right)\) 最大(或者使负的对数似然最小)的量. 作为获得一个稳健估计量的系统方法, 应当试图写下一个准则函数, 它的最小值导致一个具有令人满意的稳健性质的估计量.
在试图定义一个稳健准则时, Huber (1964) 曾考虑一种均值和中位数间的折中方案. 均值的准则是一个平方, 它使之具有敏感性, 但是在 “尾部” 平方对大的 观测值给出太多的权重. 与之相反, 中位数的绝对值准则不偏重大的或者小的观测 值. 折中方案就是最小化准则函数
\((10.2 .1)\)
其中函数 \(\rho\) 是由
\((10.2 .2)\)
函数 \(\rho(x)\) 的性态对于 \(|x| \leqslant k\) 像 \(x^2\) 而对于 \(|x|>k\) 像 \(|x|\). 此外, 因为 \(\frac{1}{2} k^2=\) \(k|k|-\frac{1}{2} k^2\), 所以这个函数连续 . 事实上 \(\rho\) 是可微的. 常数 \(k\) 可被称为一个调节参数, 它控制着混合, 对于较小的 \(k\) 值, 则产生一个像中位数的估计量.对于一般的 函数 \(\rho\), 我们把使 \(\sum_i \rho\left(x_i-\theta\right)\) 达最小的估计量叫做一个 M-估计量 , 这个名字使我们联想起它们是极大似然类型的估计量. 注意到如果把 \(\rho\) 选成 负的对数似然 \(-l(\theta \mid x)\), 则 M-估计量就是通常的 MLE. 但是更灵活地选择这个最小化的函数, 可以推演出具有各种不同性质的估计量.
由于最小化一个函数的典型做法是通过解出其导数的零点, 定义 \(\psi=\rho^{\prime}\), ,\(M-\) 估计就是
的解. 把估计量刻画为一个方程的根对于获取估计量的性质是特别有用的, 这是由于那些在极大似然估计量中使用过的论证方法能够扩展. 我们假定函数 \(\rho(x)\) 是对称的, 而它的导数 \(\psi(x)\) 是单调增的 (这保证根是唯一的最小点). 于是, 我们写出 \(\psi\) 的 Taylor 展开式为
其中 \(\theta_0\) 是真值, 而且我们忽略高阶项. 设 \(\hat{\theta}_M\) 是方程 (10.2.3)的解并且用它替换 \(\theta\) 就得到
其中左侧为 0 .重排这些项, 然后除以 \(\sqrt{n}\), 并且忽略余项就得到
现在我们假定 \(\theta_0\) 满足 \(E_{\theta_0} \psi\left(X-\theta_0\right)=0\) (这通常被当作 \(\theta_0\) 的定义). 于是就可得到
, 而且根据大数定律得到
\((10.2 .5)\)
把这些放在一起, 我们就得到
\((10.2 .6)\)
接下来我们通过一些计算可以将 \([\mathrm{E}_{\theta_0} \psi^{\prime}\left(X-\theta_0\right)]^2\) 拆解,最终可以得到M-估计量和MLE之间的相对渐近效率。MLE \(\hat{\theta}\) 的渐近方差是 \(1 / E_\theta l^{\prime}(\theta \mid X)^2\), 所以借助于 Cauchy-Schwarz 不等式
因此, 一个 M-估计量的效率总比 MLE 低, 只有当 \(\psi\) 和 \(l^{\prime}\) 成比例时它的效率才能与 MLE 相匹敌.
10.3 假设检验
在LRT检验中,许多情况下没法得到拒绝区域的显式解,这是由于检验估计量 \(\lambda(\boldsymbol x)\) 不一定具有解析的形式。但是通过渐近分布,我们可以得到一个近似的答案。
10.3.1 LRT的渐近分布
定理 10.3.1 (LRT 的渐近分布简单 \(\left.H_0\right)\) 关于检验 \(H_0: \theta=\theta_0\) 对 \(H_1: \theta \neq \theta_0\), 设 \(X_1, \cdots, X_n\) 是 iid \(f(x \mid \theta), \hat{\theta}\) 是 \(\theta\) 的 MLE, 并且 \(f(x \mid \theta)\) 满足在杂录 10.6.2 中的 正则性条件. 则在 \(H_0\) 之下, 当 \(n \rightarrow \infty\),
其中 \(\chi_1^2\) 是一个具有自由度 1 的 \(\chi^2\) 分布随机变量.
证明: 首先在 \(\hat{\theta}\) 的邻域展开 \(\log L(\theta \mid \boldsymbol{x})=l(\theta \mid \boldsymbol{x})\) 为 Taylor 级数, 有
现在把 \(l\left(\theta_0 \mid \boldsymbol{x}\right)\) 的展开式代人 \(-2 \log \lambda(\boldsymbol{x})=-2 l\left(\theta_0 \mid \boldsymbol{x}\right)+2 l(\hat{\theta} \mid \boldsymbol{x})\) 中, 得到
这里我们用到 \(l^{\prime}(\hat{\theta} \mid \boldsymbol{x})=0\) 这个事实. 因为分母就是观测信息数 \(\hat{I}_n(\hat{\theta})\) 并且 \(\hat{I}_n(\hat{\theta})\) \(\rightarrow I\left(\theta_0\right)\), 于是根据定理 \(10.1 .12\) 和 Slutsky 定理就推断出 \(-2 \log \lambda(\boldsymbol{X}) \rightarrow \chi_1^2\).
定理 10.3.3 设 \(X_1, \cdots, X_n\) 是来自一个概率密度函数或概率质量函数 \(f(x \mid \theta)\) 的随机样本. 在正则性条件之下, 如果 \(\theta \in \Theta_0\), 则统计量 \(-2 \log \lambda(\boldsymbol{X})\) 的分布在样本容量 \(n \rightarrow \infty\) 时收敛到一个 \(\chi^2\) 分布. 这个极限分布的自由度是由 \(\theta \in \Theta\) 指明的自由参数个数与由 \(\theta \in \Theta_0\) 指明的自由参数个数之差.
对于 \(\lambda(\boldsymbol{X})\) 过小的值拒绝 \(H_0: \theta \in \Theta_0\) 等价于对于 \(-2 \log \lambda(\boldsymbol{X})\) 过大的值作出拒绝. 因此
\(H_0\) 被拒绝, 当且仅当 \(-2 \log \lambda(\boldsymbol{X}) \geqslant \mathcal{X}_{\nu, a}^2\)
其中 \(\nu\) 是自由度. 如果 \(\theta \in \Theta_0\) 且样本量很大, 犯第一类错误的概率将近似为 \(\alpha\). 定理实际上仅仅蕴涵 \(\lim _{n \rightarrow \infty} P_\theta\left(\right.\) 拒绝 \(\left.H_0\right)=\alpha\), 对于每个 \(\theta \in \Theta_0\),而不是 \(\sup _{\theta \in \epsilon_0} P_\theta\) (拒绝 \(H_0\) ) 收玫到 \(\alpha\). 检验统计量自由度的计算通常是直接的. 最经常的是, \(\Theta\) 可以表示为 \(q\) 维欧氏 空间的一个子集合, 它包含 \(\mathbf{R}^q\) 中的一个开子集, 而 \(\Theta_0\) 可以表示为 \(p\)-维欧氏空间的 一个子集合, 它包含 \(\mathbf{R}^p\) 中的一个开子集, 其中 \(p<q\). 则 \(q-p=\nu\) 就是这个检验统计量的自由度.
其他的大样本估计方法,主要分为Wald统计量,计分统计量和M-估计量等等,这些方法可以统称为广义Wald统计量方法。
10.4 区间估计
既然上面已经提出了假设检验的近似方法,那么只需要将其像第八章扩展到第九章的方式进行扩展即可,其渐近分布大体相同,即利用广义Wald统计量。
10.4.1 近似极大似然区间
如果 \(X_1, \cdots, X_n\) 是 iid \(f(x \mid \theta)\) 的而 \(\hat{\theta}\) 是 \(\theta\) 的 MLE, 则 \(\hat{\theta}\) 的一 个函数 \(h(\hat{\theta})\) 的方差可以由
近似. 现在, 对于一个固定的但是任意的 \(\theta\) 值, 我们对
的渐近分布感兴趣. 从定理 10.1.12 和 Slutsky 定理就可推出
于是给出近似的置信区间
其余的方法与此相同,将检验区间进行反转即可。不再过多赘述
下面给出各种方法的区间长度比较:最短的是LRT方法,而记分方法产生的区间最长。但是一般区间最长的,保证了正确率,数据也证明记分方法所产生的区间覆盖概率较高。可以保持在0.9以上,而LRT和Wald就比较短,在一些样本集上,远远低于0.9.这是由于记分区间中的前两个矩与标准正态准确匹配,因此误差较小。我们可以优先考虑记分统计量。

浙公网安备 33010602011771号