统计4：显著性检验

在统计学中，显著性检验是“假设检验”中最常用的一种，显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。

一，假设检验

显著性检验是假设检验的一种，那什么是假设检验？假设检验就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设是否合理。

在验证假设的过程中，总是提出两个相互对立的假设，把要检验的假设称作原假设，记作H0，把与H0对立的假设称作备择假设，记作H1。假设检验需要解决的问题是：指定一个合理的检验法则，利用已知样本的数据作出决策，是接受假设H0，还是拒绝假设H0。

1，假设检验的基本思想

假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件（P<0.01或P<0.05）在一次试验中基本上不会发生。反证法思想是先提出原假设(记作假设H0)，再用适当的统计方法确定原假设成立的可能性大小：

若可能性小，则认为原假设不成立；若可能性大，则认为原假设是成立的。

2，假设检验的思路

假设检验思路是：先假设，后检验，通俗地

来说就是要先对数据做一个假设，然后用检验来检查假设对不对。一般而言，把要检验的假设称之为原假设，记为H0；把与H0相对对立（相反）的假设称之为备择假设，记为H1。

如果原假设为真，而检验的结论却劝你拒绝原假设，把这种错误称之为第一类错误（弃真），通常把第一类错误出现的概率记为α；就是说，拒绝真假设的概率是α。
如果原假设不真，而检验的结论却劝你接受原假设，把这种错误称之为第二类错误（取伪），通常把第二类错误出现的概率记为β；就是说，接受假假设的概率是β。

因此，在确定检验法则时，应尽可能使犯这两类错误的概率都较小。一般来说，当样本容量固定时，如果减少犯一类错误的概率，则犯另一类错误的概率往往增大。如果要使犯两类错误的概率都减少，除非增加样本容量。

二，显著性检验

什么是显著性检验？在给定样本容量的情况下，我们总是控制犯第一类错误的概率α，这种只对犯第一类错误的概率加以控制，而不考虑犯第二类错误的概率β的检验，称作显著性检验。概率α称为显著性水平，显著性水平是数学界约定俗成的，通常取值有α =5%，2.5%，1% ，代表着显著性检验的结论错误率必须低于5%、2.5%和1%。在统计学中，通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”。

一般情况下，根据研究的问题，如果拒绝真假设的损失大，为减少这类错误，α取值小些，把拒绝真假设的概率降到最低；反之，α取值大些。

在显著性检验中，需要用到检验统计量，根据检验法则来确定统计量，常用的统计量是Z统计量和t统计量。当检验统计量取某个区域C中的值时，拒绝原假设H0，则称区域C为拒绝域，拒绝域的边界点称为临界点。

显著性检验通常分为两大类：临界值法和p值法。

三，检验统计量

在统计学中，检验统计量是用于检验假设的参数是否正确的统计量，检验统计量服从一个给定的概率分布。常用的检验统计量有t统计量、Z统计量和卡方统计量等。

根据显著性水平，确认检验统计量的拒绝域的临界点，统计决策所依据的规则如下：

(1)给定显著性水平α，查表得出相应的临界值

或

，

或

；

(2)将检验统计量的值与α水平的临界值进行比较；如果检验统计量取拒绝域中的值，则拒绝原假设。

1，Z检验统计量

设统计量 Z，n为样本容量，μ0为样本均值，σ为标准差，那么Z服从标准正态分布，即Z~N(0,1)，这就是在假设检验中用到的Z检验统计量。

常用于方差σ²已知，而均值μ未知的问题。

2，t检验统计量

设统计量t，那么该统计量服从t分布，即t~t(n-1)，这就是假设检验中经常用到得t检验统计量。

常用于方差σ²未知，而均值μ已知的问题。

3，卡方检验统计量

设卡方统计量χ2，那么该统计量服从卡方分布，即χ2~χ2(n-1)，这就是假设检验中经常用到得卡方检验统计量。

4，F检验统计量

四，临界法

使用临界法处理参数的假设检验问题的步骤如下：

根据实际问题的要求，提出原假设H0和备择假设H1；
给定显著性水平 α 以及样本容量n；
确定检验统计量的形式：构造检验统计量，收集样本数据，计算检验统计量的样本观察值。
确定拒绝域的形式：按P{当H0为真拒绝H0}<=α 求出拒绝域；
根据样本观测值做出决策，是接受H0还是拒绝H0。

五，显著性检验的实例分析（使用临界点法来检验假设）

某车间用一台包装机装糖，袋装糖的净重是一个随机变量，它服从正态分布。当机器正常时，其均值为0.5（kg），标准差为 0.015（kg）。某日开工后，为检验包装机是否工作正常，随机地抽取它所包装的9袋糖，称得净重为（kg）

0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512

问机器是否正常？

1，分析思路

以μ，σ分别表示这一天袋装糖的净重总体X的均值和标准差。由于长期实践表明标准差比较稳定，设σ=0.015，于是X~N(μ, 0.015²)，而总体的均值μ未知。

关键点：总体服从正态分布，方差已知，而期望未知。

我们假设总体的均值μ₀=0.5，根据样本来检验假设是否成立，即设原假设 H0：μ=0.5 和备择假设 H1：μ!=0.5

由于要检验的假设涉及到总体均值，那么使用哪个统计量来检验总体均值呢？答案是使用样本均值，原因主要是有以下两个：

样本均值是总体均值μ的无偏估计，的观察值的大小在一定程度上反映了μ的大小，
如果原假设H0为真，则观察值与的 μ₀的偏差|- μ₀| 一般不会太大；如果 |- μ₀| 过分大，就有理由怀疑假设H0的正确性而拒绝H0。

所以，考虑使用样本均值来检验总体均值。

根据实际问题，选择合适的统计量，选择的标准是：无偏性、可计算差值

样本的观察值共有9个，用R很容易计算出样本的均值=0.512，这个样本均值是统计量。

> x <- c(0.497, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512)
> mean(x)
[1] 0.511875

由于样本的均值大于0.5，是否可以判断出今天的机器不正常？不能，这是因为计算的均值是通过抽样获取的，既然是样本，就可能存在误差，不能直接使用样本的均值来作判断。

也就是说：由于做出决策的依据是一个样本，当实际上H0为真时，仍可能做出拒绝H0的决策，这种错误是无法消除的。

教材是这样说的：样本是进行统计推断的依据，在引用时，往往不是直接使用样本本身，而是针对不同的问题构造样本的适当函数，利用这些样本的函数进行统计推断。

你能看懂吗，每个字都认识，就是看不懂。

说人话：通过样本计算的统计量是有误差的，对本例而言，样本的均值=0.512 是有误差的，这种误差是无法消除。因此，不能直接使用样本来检验假设。

敲黑板，划重点：假定有一个总体数据，如果从总体中多次抽样，那么理论上，每次抽样所得到的统计量（如期望）与总体参数（如期望）应该差别不大，大致围绕在总体参数中心，呈正态分布。就是说，样本统计量和总体参数的差值呈正态分布。

由于无法排除犯这类错误的可能性，因此，需要把犯这类错误的概率控制在一定限度之内，即给出一个较小的数 α (通常的取值有5%，2.5%，和1%)，使犯这类错误的概率不超过α，即使得： P{ 当H0为真时拒绝H0 } <= α，设 α=5%。