假设检验

第八章 假设检验

该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。

假设检验是一种新的推断方法,有别于点估计,其给出了参数\(\theta\)的一种新的判决和评估方法。


8.1 基本定义

定义 8.1.1: 假设就是关于总体参数的一个陈述。

假设作出的是关于总体的陈述. 假设检验的目的就是依靠来自总体的样本去决定互补的两个假设哪个为真.


定义 8.1.2: 一个假设检验问题中两个互补的假设称为原假设 (null hypothesis 原假设也叫零假设) 和备择假设 (alternative hypothesis). 把它们分别记作 \(H_0\)\(H_1\)

\(\theta\) 表示一个总体参数, 原假设和备择假设的一般格式是 \(H_0: \theta \in \Theta_0\)\(H_1: \theta\) \(\in \Theta_0^{\mathrm{C}}\), 这里 \(\Theta_0\) 是参数空间的某子集而 \(\Theta_0^{\mathrm{C}}\) 是它的补集。在一个假设检验问题中, 试验者在观测到样本以后必须决定是接受 \(H_0\)为真还 是认为其为假而拒绝 \(H_0\), 即认为 \(H_1\) 为真。


定义 8.1.3: 一个假设检验过程或者说一个假设检验是一个法则, 它明确描述:

  • 对于哪些样本值应该决定接受 \(H_0\) 为真。
  • 对于哪些样本值应该拒绝 \(H_0\) 而接受 \(H_1\) 为真。

那些由拒绝 \(H_0\) 的样本构成的样本空间的子集叫做拒绝区域。 拒绝区域的补集叫做接受区域。

一个假设检验是用检验统计量 (test statistic) \(W\left(X_1, \cdots, X_n\right.\) ) = \(W(\boldsymbol{X})\) 来确定的, 它是样本的一个函数。例如, “如果样本均值 \(\bar{X}\) 大于 3 , 就拒绝 \(H_0\) ” 就是一个检验. 在这个例子中, \(W(\boldsymbol{X})=\bar{X}\) 就是检验统计量而拒绝区域是 \(\left\{\left(x_1, \cdots, x_n\right): \bar{x}>3\right\}\)

和第七章一样,拒绝区域给出了检验的一种方法,类似于给出了参数的估计统计量,但是其有效性存疑,因此我们需要对其进行评估价值才能使用。


8.2 检验的求法

接下来主要介绍几种求检验的方法,其中包括似然比检验,Bayes检验,交-并检验和并-交检验。


8.2.1 似然比检验

以防大家忘记,我们先回顾以下似然函数的定义

\[L\left(\theta \mid x_1, \cdots, x_n\right)=L(\theta \mid \boldsymbol{x})=f(\boldsymbol{x} \mid \theta)=\prod_{i=1}^n f\left(x_i \mid \theta\right) \]

\(\Theta\) 表示整个参数空间, 似然比检验的定义如下:


定义 8.2.1: 关于检验 \(H_0: \theta \in \Theta_0\)\(H_1: \theta \in \Theta_0^{\mathrm{C}}\) 的似然比检验统计量是

\[\lambda(\boldsymbol{x}) = \frac{\sup_{\Theta_{0}}L(\theta \mid \boldsymbol{x})}{\sup_{\Theta}L(\theta \mid \boldsymbol{x})} \]

任何一个拒绝区域的形式为 \(\{\boldsymbol{x}: \lambda(\boldsymbol{x}) \leqslant c\}\) 的检验都叫做似然比检验,其中\(0 \leqslant c \leqslant 1\)

简单解释一下这里的拒绝区域,首先\(\lambda(\boldsymbol{x})\)因为其定义公式,所以值一定是在0~1之间的。我们在学习过似然估计之后,可以知道参数\(\theta\)的值一般是令似然函数\(L(\theta \mid \boldsymbol{x})\)达到最大值的\(\theta\)值,若\(\theta\)在参数空间\(\Theta_{0}\)中的取值和全局参数空间\(\Theta\)几乎相似,那么\(\lambda\boldsymbol(x)\)是非常接近于1的,因此我们给出了 \(\{\boldsymbol{x}: \lambda(\boldsymbol{x}) \leqslant c\}\) 的拒绝区间,当样本的值在拒绝区间内,则拒绝\(H_0\)


定理 8.2.4:\(T(\boldsymbol{X})\) 是关于 \(\theta\) 的一个充分统计量, 而 \(\lambda^*(t)\)\(\lambda(\boldsymbol{x})\) 分别是依 赖于 \(T\)\(\boldsymbol{X}\) 的 LRT 统计量, 则对于样本空间内每一个 \(\boldsymbol{x}\), 有 \(\lambda^*(T(\boldsymbol{x}))=\lambda(\boldsymbol{x})\).

证明:根据因子分解定理 (定理 6. 2. 6), \(X\) 的概率密度函数或概率质量函数可 以写成 \(f(\boldsymbol{x} \mid \theta)=g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x})\), 其中 \(g(t \mid \theta)\)\(T\) 的概率密度函数或概率质量函 数而 \(h(\boldsymbol{x})\) 不依赖于 \(\theta\)

\[\begin{aligned} \lambda\boldsymbol(x)& =\frac{\sup_{\Theta_{0}}L(\theta \mid \boldsymbol{x})}{\sup_{\Theta}L(\theta \mid \boldsymbol{x})}\\ & =\frac{\sup_{\Theta_{0}}f(\boldsymbol{x} \mid \theta)}{\sup_{\Theta}f(\boldsymbol{x} \mid \theta)}\\ & =\frac{\sup_{\Theta_{0}}g(T(\boldsymbol{x}) \mid \theta)h(\boldsymbol{x})}{\sup_{\Theta}g(T(\boldsymbol{x}) \mid \theta)h(\boldsymbol{x})}\\ & =\frac{\sup_{\Theta_{0}}g(T(\boldsymbol{x}) \mid \theta)}{\sup_{\Theta}g(T(\boldsymbol{x}) \mid \theta)}\\ & =\frac{\sup_{\Theta_{0}}L^*(\theta \mid T(\boldsymbol{x}))}{\sup_{\Theta}L^*(\theta \mid T(\boldsymbol{x}))}\\ & =\lambda^*(T(\boldsymbol{x})) \end{aligned} \]

由此定理,我们在求拒绝区域的时候就可以注重于充分统计量的函数即可。


8.2.2 Bayes检验

Bayes 范式规定利用 Bayes 定理把样本信息与先验信息结合以得到后验分布 \(\pi(\theta \mid \boldsymbol{x})\)。 所有关于 \(\theta\) 的推断都基于后验分布进行.
在一个假设检验问题中, 后验分布可以被用来计算 \(H_0\)\(H_1\) 为真的概率。\(\pi(\theta \mid \boldsymbol{x})\) 是一个随机变量的概率分布. 因此, 后验概率 \(P\left(\theta \in \Theta_0 \mid \boldsymbol{x}\right)=P\left(H_0\right.\) 为 真 \(\mid \boldsymbol{x})\)\(P\left(\theta \in \Theta_0^C \mid \boldsymbol{x}\right)=P\left(H_1\right.\) 为真 \(\left.\mid \boldsymbol{x}\right)\) 都可以计算出来。

概率 \(P\left(H_0\right.\) 为真 \(\left.\mid \boldsymbol{x}\right)\)\(P\left(H_1\right.\) 为真 \(\left.\mid \boldsymbol{x}\right)\) 对于经典统计学家是没有意义的。经典统计学家把 \(\theta\) 考虑为一个固定的数。 因而, 一个假设或是真或是假。如果 \(\theta \in \Theta_0\),那么对于所有的 \(\boldsymbol{x}\) 值都有 \(P\left(H_0\right.\) 为真 \(\left.\mid \boldsymbol{x}\right)=1\)\(P\left(H_1\right.\) 为真 \(\left.\mid \boldsymbol{x}\right)=0\)。在一个假设检验问题的 Bayes 表述中, 这些概率是依赖于样本 \(x\) 的, 并且能给出关于 \(H_0\)\(H_1\) 的真实性的有用信息。

Bayes 假设检验者利用后验分布进行假设检验, 一种可能的方法是:如果 \(P\left(\theta \in \Theta_0 \mid \boldsymbol{X}\right) \geqslant P\left(\theta \in \Theta_0^C \mid \boldsymbol{X}\right)\) 就接受 \(H_0\) 为真否则就拒绝 \(H_0\)。 用以前各节的术语, 检验统计量即样本的一个函数, 在这里就是 \(P\left(\theta \in \Theta_0^{\mathrm{C}} \mid \boldsymbol{X}\right)\), 而拒绝区域就是 \(\left\{x: P\left(\theta \in \Theta_0^{\mathrm{C}} \mid \boldsymbol{x}\right)>\frac{1}{2}\right\}\). 还有另外一种利用后验分布的方法, 就是如果 Bayes 假设 检验者希望防止错误地拒绝 \(H_0\), 那么他只有在 \(P\left(\theta \in \Theta_0^{\mathrm{C}} \mid \mathbf{X}\right)\) 超过某个大的数, 譬如 \(0.99\) 的时候才可能拒绝 \(H_0\)


8.2.3 交-并检验和并-交检验

在某些情况, 对复杂原假设的检验能够从对较简单的原假设的检验得到,这可以大大减少我们的计算量。


并-交检验:用并-交方法构造检验, 可能在原假设被方便地表示成一个交集时有用, 设

\[\quad H_0: \theta \in \bigcap_{\gamma \in \Gamma} \Theta_r \]

其中 \(\Gamma\) 是一个任意的指标集合, 可能有限或无限, 它依赖于问题. 假定有了关于每 一个检验问题 \(H_{0 \gamma}: \theta \in \Theta_\gamma\)\(H_{1 \gamma}: \theta \in \Theta_\gamma^{\mathrm{C}}\) 的检验. 设关于检验 \(H_{0 \gamma}\) 的拒绝区域是 \(\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \in R_\gamma\right\}\), 则关于并-交检验的拒绝区域就是

\[\bigcup_{\gamma \in \Gamma}\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \in R_\gamma\right\} \]

这里很好理解,由于只有对于每一个 \(H_{0 \gamma}\) 都真, \(H_0\) 才真, 假如任何一个假设 \(H_{0 \gamma}\) 被拒绝了, \(H_0\) 必须也被拒绝. 只有每一个 \(H_{0 \gamma}\) 都被接受为真, 交集 \(H_0\) 才被接受为真。

在某些情况, 能够求得一个并-交检验的拒绝区域的简单的表达式. 特别地, 若每一个个别检验都具有 \(\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x})>c\right\}\) 形式的拒绝区域, 其中 \(c\) 不依赖于 \(\gamma\). 这时并-交检验的拒绝区域能够表示成

\[\bigcup_{\gamma \in \Gamma}\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x})>c\right\}=\left\{\boldsymbol{x}: \sup _{\gamma \in \Gamma} T_\gamma(\boldsymbol{x})>c\right\} \]

这样, 关于 \(H_0\) 的检验统计量就是 \(T(\boldsymbol{x})=\sup _{\gamma \in \Gamma} T_\gamma(\boldsymbol{x})\)


交-并检验:交-并方法, 则当原假设被方便地表示成 一个并集时可能是有用的。设要检验原假设

\[H_0: \theta \in \bigcup_{\gamma \in \Gamma} \Theta_\gamma \]

假定对于每一个 \(\gamma \in \Gamma,\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \in R_\gamma\right\}\) 是检验问题 \(H_{0 \gamma}: \theta \in \Theta_\gamma\)\(H_{1 \gamma}: \theta \in \Theta_\gamma^{\mathrm{C}}\) 的 拒绝区域. 则关于 \(H_0\)\(H_1\) 的交-并检验的拒绝区域就是

\[ \bigcap_{\gamma \in \Gamma}\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \in R_\gamma\right\} \]

\(H_0\) 为假当且仅当所有的 \(H_{0 \gamma}\) 都假, 所以 \(H_0\) 能够被拒绝当且仅当 每一个 \(H_{0 \gamma}\) 都能被拒绝. 特别, 若每一个个别检验都具有 \(\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \geqslant c\right\}\) 形式的 拒绝区域, 其中 \(c\) 不依赖于 \(\gamma\), 检验就能够被大大简化, 这种情况时, \(H_0\) 的拒绝区域为

\[\bigcap_{\gamma \in \Gamma}\left\{\boldsymbol{x}: T_\gamma(\boldsymbol{x}) \geqslant c\right\}=\left\{\boldsymbol{x}: \inf _{\gamma \in \Gamma} T_\gamma(\boldsymbol{x}) \geqslant c\right\} \]

这里, 交-并检验统计量就是 \(T(\boldsymbol{x})=\inf _{\gamma \in \Gamma} T_\gamma(\boldsymbol{x})\)。 当这个统计量过大时检验就拒绝 \(H_0\)


8.3 检验的评价方法

决定接受或拒绝原假设 \(H_0\), 试验者可能犯错误。通常, 要用犯错误的概率来评价和比较假设检验。在这一节我们讨论如何控制犯这些错误的概率, 在某些情况, 甚至能决定哪些检验具有最小的犯错误的概率。


8.3.1 错误概率与功效函数

\(H_0: \theta \in \Theta_0\)\(H_1: \theta \in \Theta_0^{\mathrm{C}}\) 的一个假设检验可能犯两类错误之一。这两类错误的名称:第一类错误(Type I Error)和第二类错误 (Type II Error). 如果 \(\theta \in \Theta_0\) 但是假设检验不正确地判定拒绝 \(H_0\), 于是检验就犯 了第一类错误. 另一方面, \(\theta \in \Theta_0^{\mathrm{C}}\) 但是假设检验判定接受 \(H_0\), 检验就犯了第二类错误。具体情况如下表所示:

接受\(H_0\) 拒绝\(H_0\)
\(H_0\) 正确判决 第一类错误
\(H_1\) 第二类错误 正确判决

\[P_\theta(\boldsymbol{X} \in R)= \begin{cases}\text { 犯第一类错误的概率 } & \text { 如果 } \theta \in \Theta_0 \\ 1 \text { 一犯第二类错误的概率 } & \text { 如果 } \theta \in \Theta_0^{\mathrm{c}}\end{cases} \]

从而引出了功效函数的概念。


定义 8.3.1: 一个拒绝区域为 \(R\) 的假设检验的功效函数是由 \(\beta(\theta)=P_\theta(\boldsymbol{X} \in R)\) 所定义的函数。

理想的功效函数对于所有的 \(\theta \in \Theta^0\) 函数值是 0 而对于所有的 \(\theta \in \Theta_0^C\) 函数值是 1 . 除非在平凡情况, 这种理想不可能达到。一个好的检验的功效函数在大多数的 \(\theta \in\) \(\Theta_0^C\) 上接近于 1 而在大多数的 \(\theta \in \Theta_0\) 上接近于 0。

对于一个固定的样本量, 一般不可能做到使得犯两类错误的概率同时任意地小。追求一个好的检验, 通常将考虑限制在能把犯第一类错误的概率控制在一个指定水平上的那些检验上。在这类检验当中, 我们再去追求犯第二类错误的概率尽可能小的检验。以下两个术语在讨论控制犯第一类错误的概率时是有用的。


定义 8.3.5:\(0 \leqslant \alpha \leqslant 1\), 称一个功效函数为 \(\beta(\theta)\) 的检验是真实水平为 \(\alpha\) 的检验,如果\(\sup _{\theta \in \boldsymbol{\theta}_0} \beta(\theta) = \alpha\)


定义 8.3.6:\(0 \leqslant \alpha \leqslant 1\), 称一个功效函数为 \(\beta(\theta)\) 的检验是水平为 \(\alpha\) 的检验 (level \(\alpha\) test) ,如果 \(\sup _{\theta \in \boldsymbol{\theta}_0} \beta(\theta) \leqslant \alpha\)

水平为 \(\alpha\) 的检验包括了真实水平为 \(\alpha\) 的检验。除此之外, 这个区别在复杂模型和复杂检验的情况下就变得重要了, 这时经常不能构造出 一个真实水平为 \(\alpha\) 的检验。在这种情况下, 往往做一些折衣, 求一个水平为 \(\alpha\) 的检验。我们即将见到一些例子, 特别是与并-交检验和交-并检验相结合的例子。

除了水平 \(\alpha\) 之外, 人们还可能关注检验的其他特征。例如, 我们乐意使一个检验在 \(\theta \in \Theta_0^C\) 时比在 \(\theta \in \Theta_0\) 时更倾向于拒绝 \(H_0\),所以我们引出无偏检验的概念。


定义 8.3.9:一个功效函数为 \(\beta(\theta)\) 的检验是无偏的, 如果对于每一个 \(\theta^{\prime} \in \Theta_0^C\)\(\theta^{\prime \prime} \in \Theta_0\)\(\beta\left(\theta^{\prime}\right) \geqslant \beta\left(\theta^{\prime \prime}\right)\)

例 检验问题 \(H_0: \theta \leqslant \theta_0\)\(H_1: \theta>\theta_0\) 的一个 LRT 的功效函数是

\[\beta(\theta)=P_\theta\left(Z>c+\frac{\theta_0-\theta}{\sigma / \sqrt{n}}\right) \]

其中 \(Z \sim N(0,1)\). 因为 \(\beta(\theta)\)\(\theta\) 的一个增函数 (对于固定的 \(\theta_0\) ), 由此就有

\[\beta(\theta)>\beta\left(\theta_0\right)=\max _{K \leqslant \theta_0} \beta(t)​ \]

对于任意 \(\theta>\theta_0\) 成立。因此, 这个检验是无偏的。

对于大多数问题, 存在很多的无偏检验。同样地, 存在很多的 真实水平为 \(\alpha\) 的检验, 存在很多的似然比检验等等。在某些情况, 我们已经附加了足够的限制以缩小到就考虑一个检验。而在其他情况, 却存在很多可供选择的检验。我们只讨论了当检验统计量 \(T\) 很大则拒绝 \(H_0\) 这样一个检验。在下一节我们将讨论从一个检验类中挑选出一个检验的其他准则, 都是与检验的功效函数有关的准则。


8.3.2 最大功效检验

上节我们描述了几个假设检验类, 这些类中有的控制犯第一类错误的概率, 例 如水平为 \(\alpha\) 的检验对所有 \(\theta \in \Theta_0\), 犯第一类错误的概率至多为 \(\alpha\). 在这样一个类中, 一个好检验犯第二类错误的概率也应当小, 即当 \(\theta \in \Theta_0^{\mathrm{C}}\) 时它的功效函数比较大。如果一个检验犯第二类错误的概率比这类中所有其他检验更小, 它理应是这个类中最优检验的强有力的竞争者。以下给出一个形式化定义。


定义 8.3.11:\(\mathcal{C}\) 是一个关于 \(H_0: \theta \in \Theta_0\)\(H_1: \theta \in \Theta_0^{\mathrm{C}}\) 的检验类. \(\mathcal{C}\) 中一个 功效函数为 \(\beta(\theta)\) 的检验是一个一致最大功效 \(\mathcal{C}\) 类检验 [uniformly most powerful (UMP) class \(\mathcal{C}\) test], 如果对每个 \(\theta \in \Theta_0^{\mathrm{C}}\) 与每个 \(\mathcal{C}\) 中检验的功效函数 \(\beta^{\prime}(\theta)\), 都有 \(\beta(\theta) \geqslant \beta^{\prime}(\theta)\)

在这节, 类 \(\mathcal{C}\) 就是全体水平为 \(\alpha\) 的检验的类. 于是定义 8.3.11 描述的检验就 叫做一个 UMP 水平为 \(\alpha\) 的检验. 为了使这个最优检验有效, 必须对类 \(\mathcal{C}\) 中的检验 犯第一类错误的概率施加限制。不对犯第一类错误的概率进行控制而去最小化犯第二类错误的概率毫无意义。

这也出现了一个难题,我们想找到一个UMP似乎无从下手(可以看到UMP的定义非常抽象)。但是好在统计学给出了较为简单的方法。


定理 8.3.12 [Neyman-Pearson (奈曼-皮尔逊) 引理]: 考虑检验 \(H_0: \theta=\theta_0\)\(H_1: \theta=\theta_1\), 其中相应于 \(\theta_i\) 的概率密度函数或概率质量函数是 \(f\left(x \mid \theta_i\right) i=0,1\), 利用一个拒绝区域为 \(R\) 的检验, \(R\) 满足对某个 \(k \geqslant 0\)

\[若 f\left(\boldsymbol{x} \mid \theta_1\right)>k f\left(\boldsymbol{x} \mid \theta_0\right) \quad 则 \boldsymbol{x} \in R\\且若 f\left(\boldsymbol{x} \mid \theta_1\right)<k f\left(\boldsymbol{x} \mid \theta_0\right) \quad 则 \boldsymbol{x} \in R^{\mathrm{C}}\tag{1} \]

而且

\[\quad \alpha=P_{\theta_0}(\boldsymbol{X} \in R)\tag{2} \]

则有

a. (充分性) 任意满足条件 (1) 和条件 (2) 的检验, 是一个 UMP 水平为 \(\alpha\) 的检验.
b. (必要性) 如果存在一个满足条件 (1) 和条件 (2) 的检验, 其中 \(k>0\), 则每一个 UMP 水平为 \(\alpha\) 的检验是真实水平为 \(\alpha\) 的检验而且每一个 UMP 水平为 \(\alpha\) 的检验必满足条件 (1) 除去在一个使 \(P_{\theta_0}(\boldsymbol{X} \in A)=\) \(P_{\theta_1}(\boldsymbol{X} \in A)=0\) 的集合 \(A\) 上可能不满足。

证明省略,如果直觉敏锐的话,应该可以察觉到该公式可以简化,和LRT定义的简化类似,我们可以将该定义和充分统计量联系起来,见推论8.3.13


推论 8.3.13 考虑定理 8.3.12​ 中提出的假设问题. 设 \(T(\boldsymbol{X})\) 是一个关于 \(\theta\) 的充 分统计量, \(g\left(t \mid \theta_i\right)\)\(T\) 的相应于 \(\theta_i\) 的概率密度函数或概率质量函数, \(i=0,1\). 则 任何一个基于 \(T\) 的拒绝区域是 \(S\) ( \(T\) 的样本空间的一个子集)的检验, 如果满足对 某个 \(k \geqslant 0\)

\[若 g\left(t \mid \theta_1\right)>k g\left(t \mid \theta_0\right) \quad 则 t \in S \\ 和 若 g\left(t \mid \theta_1\right)<k g\left(t \mid \theta_0\right) \quad 则 t \in S^{\mathrm{C}}\tag{8.3.4} \]

而且

\[\quad \alpha=P_{\theta_0}(T \in S) \tag{8.3.5} \]

则它就是一个 UMP 水平为 \(\alpha\) 的检验。


定义 8.3.16: 称一元随机变量 \(T\) 的概率密度函数或概率质量函数的族 \(\{g(t \mid \theta): \theta \in \Theta\}\) 关于实值参数 \(\theta\) 具有单调似然比 [monotone likelihood ratio (简记为 MLR) ], 如果对于每一个 \(\theta_2>\theta_1, g\left(t \mid \theta_2\right) / g\left(t \mid \theta_1\right)\)\(\left\{t: g\left(t \mid \theta_1\right)>0\right.\)\(\left.g\left(t \mid \theta_2\right)>0\right\}\) 上都是 \(t\) 的单调 (非增的或者非降的) 函数. 注意如果 \(0<c\) 定义 \(c / 0\)\(\infty\)

很多普通的分布族具有 MLR. 例如正态分布 (方差已知, 均值末知)、泊松分布和二项分布都具有 MLR。实际上, 任何一个正则的指数族 \(g(t \mid \theta)=h(t) c(\theta)\) \(\mathrm{e}^{w(\theta t}\), 其中 \(w(\theta)\) 是一个非降函数, 都有 MLR。


定理 8.3.17 (Karlin-Rubin): 考虑检验 \(H_0: \theta \leqslant \theta_0\)\(H_1: \theta>\theta_0\). 设 \(T\) 是一 个关于 \(\theta\) 的充分统计量并且 \(T\) 的概率密度函数或概率质量函数的族 \(\{g(t \mid \theta): \theta \in\) \(\Theta\}\) 关于 \(\theta\) 具有 MLR。则对于任何 \(t_0\), “当且仅当 \(T>t_0\) 时拒绝 \(H_0\) ” 的检验是一个 UMP 水平为 \(\alpha\) 的检验, 其中 \(\alpha=P_{\theta_0}\left(T>t_0\right)\)

用类似的讨论能够证明在定理 \(8.3 .17\) 的条件下, “拒绝 \(H_0: \theta \geqslant \theta_0\) 而选择 \(H_1\) : \(\theta<\theta_0\) 当且仅当 \(T<t_0\) ” 的检验是一个 UMP 水平为 \(\alpha=P_{\theta_0}\left(T<t_0\right)\) 的检验。

有时候UMP是不存在的,就例如定理8.3.17的两种情况下的UMP,分别对应了不同的零区间的UMP,若一个假设检验,他的拒绝区间包括了两边,则此时UMP不存在。

虽然UMP不存在,但是我们可以缩小范围,和点估计中的无偏估计量类似,做出无偏的条件限制之后,我们可以得到最优无偏功效检验。


8.3.3 交-并检验和并-交检验的真实水平

因为它们是由简单的方法构建出来, 并-交检验 (简记为 UIT) 与交-并检验 (简记为 IUT) 的真实水平经常能够以某个其他检验的真实水平为上界。如果想有 一个水平为 \(\alpha\) 的检验, 这样的界是有用的, 但是 UIT 或 IUT 的真实水平是非常难以计算的。这节我们讨论这些界, 并且给出例子, 例子中的界是可达的, 即检验的真实水平等于这个界。

先考虑 UIT,回忆在这种情况, 我们是检验一个这种形式的原假设: \(H_0: \theta \in\) \(\Theta_0\), 其中 \(\Theta_0=\bigcap_{\gamma \in \Gamma} \Theta_\gamma\)。为了讨论方便, 设 \(\lambda_\gamma(\boldsymbol{x})\) 是关于检验 \(H_{0 \gamma}: \theta \in \Theta_\gamma\)\(H_{1 y}: \theta \in\) \(\Theta_\gamma^{\mathrm{C}}\) 的 LRT 统计量, 并设 \(\lambda(\boldsymbol{x})\) 是关于检验 \(H_0: \theta \in \Theta_0\)\(H_1: \theta \in \Theta_0^{\mathrm{C}}\) 的 LRT 统计量。则我们有以下连接全面 LRT 和基于 \(\lambda_y(\boldsymbol{x})\) 的 UIT 的之间关系的定理。


定理 8.3.21: 考虑检验 \(H_0: \theta \in \Theta_0\)\(H_1: \theta \in \Theta_0^{\mathrm{C}}\), 其中 \(\Theta_0=\bigcap_{\gamma \in \Gamma} \Theta_\gamma\)\(\lambda_\gamma(x)\) 由 前面所定义。定义 \(T(\boldsymbol{x})=\inf _{\gamma \in \Gamma}(\boldsymbol{x})\) 并且组成 UIT, 其拒绝区域是 \(\left\{\boldsymbol{x}:\right.\) 对于某 \(\left.\gamma \in \Gamma, \lambda_y(\boldsymbol{x})<c\right\}=\{\boldsymbol{x}: T(\boldsymbol{x})<c\}\),又考虑通常的以 \(\{\boldsymbol{x}: \lambda(\boldsymbol{x})<c\}\) 为拒绝区域的 LRT。则
a. 对于每个 \(\boldsymbol{x}\), 有 \(T(\boldsymbol{x}) \geqslant \lambda(\boldsymbol{x})\);
b. 若 \(\beta_T(\theta)\)\(\beta_\lambda(\theta)\) 分别是关于依赖于 \(T\)\(\lambda\) 的检验的功效函数, 则对于每一 个 \(\theta \in \Theta\), 有 \(\beta_T(\theta) \leqslant \beta_\lambda(\theta)\);
c. 如果此 LRT 是一个水平为 \(\alpha\) 的检验, 则此 UIT 是一个水平为 \(\alpha\) 的检验。


8.3.4 p-值

做完假设检验之后, 必须用具有统计意义的方式报告出结论。一种报告假设检 验结果的方法是报告检验所用的真实水平 \(\alpha\), 以及拒绝或者接受 \(H_0\) 的判决。检验的真实水平携带着重要的信息。如果 \(\alpha\) 小, 判拒绝 \(H_0\) 是相当令人信服的, 但是如果 \(\alpha\) 大, 判拒绝 \(H_0\) 就不是很令人信服了, 这是因为检验作出的这个判决不正确的概率也大。另一种报告假设检验结果的方法是报告一种叫做 \(p\)-值的统计量的值。


定义 8.3.26: \(p\)-值 ( \(p\)-value) \(p(\boldsymbol{X})\) 是一个满足对每一个样本点 \(\boldsymbol{x}\), 都有 \(0 \leqslant\) \(p(\boldsymbol{x}) \leqslant 1\) 的检验统计量, 如果 \(p(\boldsymbol{X})\) 的值小则可作为 \(H_1\) 为真的证据. 一个 \(p\)-值称 为是有效的, 如果对于每一个 \(\theta \in \Theta_0\) 和每一个 \(0 \leqslant \alpha \leqslant 1\), 都有

\[P_\theta(p(\boldsymbol{X}) \leqslant \alpha) \leqslant \alpha \]

如果 \(p(\boldsymbol{X})\) 是一个有效的 \(p\)-值, 基于 \(p(\boldsymbol{X})\) 易构建出一个水平为 \(\alpha\) 的检验。通过 \(p\)-值报告检验结果的一个优点是每位读者能够选择他或她认为适当的 \(\alpha\), 然后拿报 告的 \(p(\boldsymbol{x})\) 去和 \(\alpha\) 比较, 并且知道这些数据导致接受还是拒绝 \(H_0\)。此外, \(p\) 值越小, 就越强烈地拒绝 \(H_0\)。因此, \(p\)-值以一个更连续的尺度报告出一个检验的结论, 它胜于仅分成两种决策结果的接受 \(H_0\) 或拒绝 \(H_0\)

最普通的定义一个 \(p\)-值的方法由定理 8. 3.27 给出。


定理 8.3.27:\(W(\boldsymbol{X})\) 是这样一个检验统计量, 如 \(W\) 的值大则可作为 \(H_1\) 为真 的依据. 对于每个样本点 \(\boldsymbol{x}\), 定义

\[\quad p(\boldsymbol{x})=\sup _{\theta \in \boldsymbol{\theta}_0} P_\theta(W(\boldsymbol{X}) \geqslant W(\boldsymbol{x})) \]

\(p(\boldsymbol{X})\) 是一个有效的 \(p\)-值。

还有另外一种可以定义有效 \(p\)-值的方法, 涉及给定一个充分统计量时的条件概率。设 \(S(\boldsymbol{X})\) 是一个关于模型 \(\left\{f(x \mid \theta): \theta \in \Theta_0\right\}\) 的充分统计量。(为了避免低功效检验, \(S\) 仅关于原假设模型而不是关于全模型 \(\{f(x \mid \theta): \theta \in \Theta\}\) 充 分, 这一点很重要。) 如果原假设为真, 则给定条件 \(S=s\)\(\boldsymbol{X}\) 的条件分布不依赖于 \(\theta\)。仍设 \(W(\boldsymbol{X})\) 表示一个检验统计量, 它的大值给出 \(H_1\) 为真的依据。那么, 对于每个样本点 \(\boldsymbol{x}\), 定义

\[p(\boldsymbol{x})=P(W(\boldsymbol{X}) \geqslant W(\boldsymbol{x}) \mid \boldsymbol{S}=S(\boldsymbol{x})) \]

8.4 小结

本章中我们介绍了假设检验,这是一种判别假设的方法,让我们能够从统计样本中给出一个判据。但是假设检验的最强大之处还远远不在此章的内容中,下一章我们将介绍置信区间,从中我们可以看到假设检验和置信区间之间的紧密联系(甚至可以说一脉相承),置信区间给了我们比点估计更准确的估计方法,让我们能够量化估计的准确性。若笔记中有错误,也恳请给出指正,不胜感激。

posted @ 2023-03-09 10:42  sky_darkeen  阅读(281)  评论(0)    收藏  举报