代码改变世界

方差分析(1)

2013-08-18 13:20  Loull  阅读(1061)  评论(0编辑  收藏  举报

一、方差分析问题的提出

问题:消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如下表:
 

二、概念:方差分析简称ANOV(Analysis of Variance)

该统计分析方法能一次性地检验多个总体均值是否存在显著差异
H0:
 
H1:
不全等。

(一)因素。

因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、…表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。

(二)水平。

因子在实验中的不同状态称作水平。如果因子A有r个不同状态,就称它有 r 个水平,可用表示。我们都针对因素的不同水平或水平的组合,进行实验或抽取样本,以便了解因子的影响。

(三)交互影响。

当方差分析的影响因子不唯一时,必要注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。
 

三、方差分析的原理

(一)方差的分解。

样本数据波动就有二个来源:一个是随机波动,一个是因子影响。样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出不同的因子对样本波动的影响组内方差则是不考虑组间方差的纯随机影响
离差平方和的分解是我们进入方差分析的“切入点”,这种方差的构成形式为我们分析现象变化提供了重要的信息。如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可以认为因子对实验的结果存在显著的影响;反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样结果有显著作用。

(二)均方差与自由度

因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。为了消除独立变量个数对方差大小的影响,我们用方差除以独立变量个数,得到“均方差(Mean Square)”,作为不同来源方差比较的基础。引起方差的独立变量的个数,称作“自由度”。
检验因子影响是否显著的统计量是一个F统计量:
F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。