假设检验综述

一、简介

统计推断除了参数估计,还有假设检验。通过获取样本的统计量,来检验模型的参数值,数据对分布的拟合度。

基本思想

思想1:关于总体而不是个例的性质进行检验。
 
我们检验的是否具有统计意义,这个检验是看从样本得出的结论能否推论到总体。

思想2:假设只能被否证而不能被证明。

搞个和研究假设相反的虚无假设。如果我们否证了虚无假设,就相当于我们证明了研究假设。
 
思想3:小概率事件发生等价于假设不成立.

由于抽样的原因,样本并不可能绝对地否证虚无假设。在个案中,小概率事件可以等同于不可能发生的事件。我们在这个意义上去在一定的事先约定的概率水平上去拒绝虚无假设。
 
思想4:假设检验是频率学内容,不是贝叶斯体系。
 
所以很多置信度啊,显著性水平和真实概率不能换算。

主要内容

参数的假设检验

  单侧检验 vs 双侧检验

  样本均值的检验

  样本方差的检验

非参数的假设检验

  拟合优度检验

基本概念

零假设和备择假设:

1、原假设是受保护的

往往把有把握的、不能轻易被否定的命题作为原假设H0。

是相对保守的假设, 从而尽量使后果严重的错误成为第一类错误.

一般希望不要犯一类错误,尽量减少二类错误。

2、我们希望拒绝原假设

原假设和备择假设的地位其实不同,原假设是我们要反对的,同时他又是受保护的,我们必须要有足够的证据才能拒绝他。当拒绝他的证据不够时,我们都不能说接受原假设,只能说“没有足够的证据证明原假设可以拒绝”,或者更严格地说“在显著性水平α下没有发现足够的证据反对原假设”。我们不能轻易地放弃原假设是正确的这一判断。

接受域与拒绝域:

对于样本,样本接受所在的区域就是接受域,同理可得拒绝域。一般统计量固定,显著性水平固定,那么接受域和拒绝域也固定了。

简单假设和复合假设:

一个假设可以有多种检验方法,那种好就要看功效函数了。最好的检验方法是一致最优假设检验,他在同等的水平下,处处最优(即相等的一类错误率下,二类错误率时刻保持最小)。

一类错误与二类错误:

拒真与受伪。拒真:误拒了零假设。

显著性水平:

犯第一类错误的概率

功效函数:

 

 

二、重要参数检验 

正态总体均值的检验

情况一:方差已知

功效函数为否定原假设的概率。在当前显著性水平下,越能够否定原假设,越不容易犯二类错误。

如何最大功效呢?

  • 方差越大:功效越小  
  • 显著性水平越小:功效越小
  • 问题的提法:也与功效相关

此时检验可以很简单。看样本均值和C比较即可,根据功效最大化,得到C。

 

但是实际情况一般是方差未知。

情况二:方差未知

此时用样本方差代替总体方差,统计量的分布由正太分布变成T分布。

  • H0 均值大于某值,
  • H0 均值小于某值,
  • H0 均值等于某值.

三个检验就是著名的t检验。

检验通过意味着什么?

意味着统计上显著,不能直接说明实际作用多大。举个例子:如果方差很小的样本集合,微小的误差也会导致拒绝。

单侧检验 

原假设和对立假设分布在两侧,而不是有交叉。此时更容易有最优检验。

 

两个正态总体均值差的检验

三个检验:

H0: θ12≥θ0

H0: θ120

H0: θ120

和单个正态很类似。

也是t检验。这里有个假设,要求两个分布的方差很接近。

 

 

正态总体方差的检验

 

指数分布参数的检验

在可靠性分析中常用。

二项分布参数p的检验

 

大样本检验

 

贝叶斯方法

一、t检验 - 样本均值的假设检验

根据历史数据观测,某页面的客户的平均浏览时长满足正态分布,其均值为138 ,后来为了增加用户整体浏览时长,对页面做了改版,改版后一个月平均浏览时长为  

127.6678 145.0213 138.6970 141.5903 133.4343 163.0314 141.6887 128.9449

 146.9719 147.6318 135.1417 116.1108 138.5952 150.7051 144.4028 144.0182

 150.6082 133.1354 155.9678 144.9466 152.0731 155.3411 147.2348 136.2129

 156.6296 124.9984 139.5521 142.4433 143.3388 155.2046

请问,改版后下单客户平均浏览时长是否增加了?

 

在这个问题中,我们假设:

H0: 改版后客户平均浏览时长与原来一样为138

在这个假设下,我们需要计算观测到的值发生的概率。然而对于类似正态分布的连续分布,一个具体的值发生的概率是无穷小的, 一个区间发生的概率才是有实际意义的。因此,为了度量,观测序列整体发生的概率,我们不能直接计算观测序列的概率,而需要找到一个统计量,从另一个角度合理度量观测序列发生的概率。

 

在这个问题中,我们用到的统计量是T分布

      单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量t分布。

单总体t检验统计量为:

       t统计量:

 

 

自由度:v=n - 1

适用条件:

(1) 已知一个总体均数;

(2) 可得到一个样本均数及该样本标准误;

(3) 样本来自正态或近似正态总体。

R软件对此提供了,方便的检验方法:

 t.test(x,mu=138)

结果是

One Sample t-test

 

data:  x

t = 2.476, df = 29, p-value = 0.01937

alternative hypothesis: true mean is not equal to 138

95 percent confidence interval:

 138.8197 146.6029

sample estimates:

mean of x 

 142.7113 

从结果中我们可以看到 p-value 是0.01937,就是说,在我们H0假设成立的情况下,观测序列发生的概率为0.01937, 非常小,一般来说小与阈值 0.05, 就可以认为可以拒绝H0假设。又观测序列均值为142.7113,故可以认为改版后平均浏览时长显著增长了,达到了原来设计的目标。

总结一下这个案例中的小概率反证。

先选择了假设H0, 即改版后30天均值没有改变,仍为138.

根据T统计量,计算在假设H0下观测序列发生概率,得到p-value ,

在这里,p-value小与0.05这一阈值,在H0假设下,发生概率很小,故拒绝假设。

 

常用的检验方法还有 F检验,卡方检验,秩和检验等等,基本流程也和上面类似,区别是对于样本满足的先验分布假设不同(本例中假设满足正态分布),和统计量的选择不同,其余流程类似。

回归分析中的假设检验

 

 

 

 

比较F检验和T检验

 

T检验是检验解释变量的显著性,T检验的原假设为某一解释变量的系数为0

 

F检验是检验方程整体的显著性,F检验的原假设为所有回归系数为0

 

通过以上可以看出,它两在双变量模型中的作用可以说是相同的,而在多元中存在差异。比如说,多重共线性的典型特征是R^2较高,F检验通常会拒绝原假设~但T检验中没有或很少有拒绝原假设的(通俗说是在某一显著性水平下不显著)。

 

 

http://www.atatech.org/articles/25225

样本总体符合正态分布

用T检验检验回归系数:潜在含义  在该回归系数下产出的均值    样本均值相等。

http://gitlab.alibaba-inc.com/dengtao.ldt/PAI-DOC/wikis/statistical-analysis#%E7%99%BE%E5%88%86%E4%BD%8D

 

置信区间

很多答案当中用关于真值的概率描述来解释置信区间是不准确的。我们平常使用的频率学派(frequentist)95% 置信区间的意思并不是真值在这个区间内的概率是 95%。真值要么在,要么不在。由于在频率学派当中,真值是一个常数,而非随机变量(后者是贝叶斯学派) ,所以我们不对真值做概率描述。对于这个问题来说,理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身

换言之,我们可以说,如果我们重复取样,每次取样后都用这个方法构造置信区间,有 95% 的置信区间会包含真值 (*)。然而(在频率学派当中)我们无法讨论其中某一个置信区间包含真值的概率。

实际上,在特定的情形中 (^) 我们甚至可以直接断定一个参数不在一个 95% 置信区间中,即使我们构造这个区间的方法完全正确。这更说明我们不能说参数在某一个区间内的概率是多少。

只有贝叶斯学派才会说某个特定的区间包含真值的概率是多少,但这需要我们为真值假设一个先验概率分布(prior distribution)。这不适用于我们平常使用的基于频率学派的置信区间构造方法。

更多的解释可以参考:


评论里的补充解释:
换种方法说,假设我们还没有取样,但已经制定好取样后构造 95% 置信区间的方法。我们可以说取样一次以后,获得的那个置信区间(现在还不知道)包含真值的概率是 95%。然而在取样并得到具体的一个区间之后,在频率学派框架下就无法讨论这个区间包含真值的概率了。

取样前能讨论,取样后却无法讨论,这可能让很多人感到很不自然。扩大来说,传统频率学派对已经发生,但我们不知道结果的事件的讨论存在困难。虽然这个问题通常在应用上无伤大雅,但确实有不少学者因此寻求对概率的不同解释。

参考资料

【1】知乎资料 https://zhuanlan.zhihu.com/p/20052019  https://www.zhihu.com/question/20254932

【2】http://wiki.mbalib.com/wiki/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C

【3】维基百科 假设检验 - 维基百科   卡方检验 - 维基百科   F检验 - 维基百科  T检验 - 维基百科

【4】陈希孺《概率论与数理统计》第5章

【5】《R语言实战》 第7章 第10章

posted @ 2016-10-20 13:38  EDPL  阅读(903)  评论(0)    收藏  举报