方差和回归分析
十一章 方差和回归分析
该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。
11.1 前言
方差分析(常简记为 ANOVA) 是得到最广泛应用的统计技术之一. ANOVA 的基本思想, 即变异的分解, 是试验统计学的一个重要思想. 要说明的是, 方差分析实际上并不关心方差的分析, 而是研究均值的变异.
回归技术, 尤其是线性回归可能是最受欢迎的统计工具. 有各种形式的回归: 线性回归、非线性回归、简单回归、多变量回归、参数回归、非参数回归等等.
回归分析的一个主要目的是探索一个变量对于其他变量的依赖性. 在简单线性回归中, 通过关系 \(\mathrm{EY}=\alpha+\beta x\) 把随机变量 \(Y\) 的均值作为另一个可观测变量 \(x\) 的函数建立模型. 一般地, EY 作为 \(x\) 的函数称为总体回归函数.
11.2 一种方式分组的方差分析
首先我们介绍一种单元均值模型,此模型较为简单,但使用广泛.假定观测的数据
其中是 \(\theta_{i}\) 未知参数,\(\epsilon_{ij}\) 是误差随机变量.不失一般性我们可以假定 \(\mathrm{E} \epsilon_{i j}=0\), 否则可以把其均值吸收到 \(\theta_i\) 并重新定义 \(\epsilon_{i j}\). 由此得到
即 \(\theta_i\) 为 \(Y_{i j}\) 的均值. 通常称这些 \(\theta_i\) 为处理均值, 因为下标常对应于不同的处理或一个特定处理的不同水平.
还有另一个模型被称为过度参数化模型, 表示为
从这个模型得到
在这个模型中, 我们认为 \(\mu\) 是一个总平均, 即各个处理的共同平均水平; 而 \(\tau_i\) 表示 仅由处理 \(i\) 引起的与总平均水平的偏差. 然而我们不能分别估计 \(\mu\) 和 \(\tau_i\), 因为有可识别性问题.
定义 11.2.2 分布族 \(\{f(x \mid \theta): \theta \in \Theta\}\) 的参数 \(\theta\) 是可识别的, 如果不同的 \(\theta\) 值对应于不同的概率密度函数或概率函数, 即若 \(\theta=\theta^{\prime}\), 则 \(x\) 的函数 \(f(x \mid \theta)\) 和 \(f\left(x \mid \theta^{\prime}\right)\) 是不同的.
一般情况下我们使用单元均值模型,因为它的解释性更好,但在一些复杂的ANOVA模型中,过度参数化模型更好.
11.2.1 模型和分布假定
一种方式分组 ANOVA 的假定
观测的随机变量 \(Y_{i j}\) 遵从模型
其中
(i) 对于所有 \(i, j, \mathrm{E} \epsilon_{i j}=0, \operatorname{Var}\left(\epsilon_{i j}\right)=\sigma_i^2<\infty\); 对于所有 \(i, i^{\prime}, j, j^{\prime}\), \(i \neq i^{\prime}, j \neq j^{\prime}\), 有 \(\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i i^{\prime}}\right)=0\).
(ii) 诸 \(\epsilon_{i j}\) 相互独立, 并服从正态分布.
(iii) 对于所有 \(i, \sigma_i^2=\sigma^2\).
没有假定 (ii), 只能给出点估计, 并且或许可以在一个估计类中通过极小化方差寻找估计量, 但不能给出区间估计或检验. 如果我们假定分布不是正态, 区间和检验的推导可能相当困难.
11.2.2 经典的ANOVA假设
ANOVA 零假设的备择假设就是均值不全相等, 即检验
对于某对 \(i, j\) 等价地, 也可以把 \(H_1\) 写为 \(H_1\) : 非 \(H_0\). 如果 \(H_0\) 被拒绝, 我们只能断定这些 \(\theta_i\) 之间有一些差异, 但却不能推断出差异在哪里. (注意, 如果 \(H_1\) 被接受, 不能说所有这些 \(\theta_i\) 都不同, 而只能说至少有两个不同.)
我们虽然在此处给出了ANOVA的检验目标,但是这个检验目标较为复杂。这一点我们可以使用并-交检验将目标检验拆分成简单检验的交。但是即便如此也是很难直接分析的,所以我们需要对检验目标用更加解析的公式表示出来,这里引出了对比的概念。
定义 11.2.4 设 \(t=\left(t_1, \cdots, t_k\right)\) 是变量的集合, 这些变量是参数或统计量, \(\boldsymbol{a}=\left(a_1, \cdots, a_k\right)\) 为 \(k\) 个已知常数. 函数
叫做这些 \(t_i\) 的线性组合. 进一步, 如果 \(\sum a_i=0\), 则叫做对比.
对比很重要, 因为可以用其来比较处理均值. 例如, 如果 \(\theta_1, \cdots, \theta_k\) 为均值, 而 \(\boldsymbol{a}=\) \((1,-1,0, \cdots, 0)\), 则
为比较 \(\theta_1\) 和 \(\theta_2\) 的对比.
定理 11.2.5 设 \(\boldsymbol{\theta}=\left(\theta_1, \cdots, \theta_k\right)\) 为任意参数. 则
其中 \(\mathcal{A}\) 为常数集合 \(\mathcal{A}=\left\{\boldsymbol{a}=\left(a_1, \cdots, a_k\right): \sum a_i=0\right\}\); 上式右端即是说所有对比均为 0 .
通过以上两个定理,我们也可以理解到并-交方法在此处的重要作用,因为构成 ANOVA 零假设的这些个体零假设很容易想象.下面给出具体假设:
零假设为真当且仅当假设
为真. 而且, 如果 \(H_0\) 是假的, 则至少存在一个非 0 对比. 这就是说, ANOVA 备择假设 “ \(H_1\) : 不是所有 \(\theta_i\) 都相等” 等价于备择假设
11.2.3 均值的线性组合推断
由于正态假设的存在,使得我们可以得到以下的推导:
在一种方式分组 ANOVA 的假定下, 有
因此,
关于符号的注记: 通常约定, 如果一个下标被 “.” 代替, 就表示已经对这个下标求和. 于是, \(Y_i .=\sum_{j=1}^{n_i} Y_{i j}, Y_j=\sum_{i=1}^k Y_{i j}\). 再加上一个横线表示求均值, 就像上面的 \(\bar{Y}_i\).. 如果对两个下标都求和并且计算了所有观测值的平均值(称之为 总平均), 为使符号稍微简化一点, 我们将打破这个常规而写为 \(\bar{\bar{Y}}=\frac{1}{N} \sum_{i=1}^k \sum_{j=1}^{n_i}\) \(Y_{i j}\), 这里 \(N=\sum_{i=1}^k n_i\).
对任何常数向量 \(\boldsymbol{a}=\left(a_1, \cdots, a_k\right), \sum_{i=1}^k a_i \bar{Y}_{i .}\) 也是正态的并且
进一步,
这虽然不错, 但我们经常要在对 \(\sigma\) 一无所知的情况下作出关于 \(\theta_i\) 的推断. 因此, 要用 \(\sigma\) 的估计量替换它. 在每个总体中, 如果记样本方差为 \(S_i^2\), 即
则 \(S_i^2\) 是 \(\sigma^2\) 的一个估计量并且 \(\left(n_i-1\right) S_i^2 / \sigma^2 \sim \chi_{n_i-1}^2\). 进一步, 在 ANOVA 的假定下, 由于每个 \(S_i^2\) 都是 \(\sigma^2\) 的估计量, 我们可以把这些估计量结合起来得到更好的估计量. 于是, 我们使用 \(\sigma^2\) 的组合估计量 \(S_p^2\), 定义为
\(N-k=\sum_{i=1}^k\left(n_i-1\right)\). 由于各个 \(S_i^2\) 是独立的, 由伽马函数矩母函数可加性可以证明 \((N-k) S_p^2 /\) \(\sigma^2 \sim \chi_{N-k}^2\). 此外, \(S_p^2\) 与 \(\bar{Y}_i\) 独立, 因此
即自由度为 \(N-k\) 的学生 \(t\) 分布.
为在水平 \(\alpha\) 上检验
我们将在
时拒绝 \(H_0\).进一步, 利用枢纽量可以给出具有概率 \(1-\alpha\) 的 \(\sum a_i \theta_i\) 的区间估计量
11.2.4 ANOVA F检验
上节我们给出了单个检验的置信区间,但是我们真正需要给出的是整体的置信区间,也就是整体的接收区域。而这一部分我们将根据并交检验的原理给出结论(推导过于繁杂,此处省略)
由上述定理, ANOVA 假设检验可以写成
其中 \(\left.\mathcal{A}=\boldsymbol{a}=\left(a_1, \cdots, a_k\right): \sum_{i=1}^k a_i=0\right\}\). 为了更清楚地看出这是一个并-交检验, 对于每个 \(a\) 定义集合
则
即 ANOVA 零假设可以写为交的形式.
现在, 回忆的并-交方法, 如果对任何 \(a\), 我们能拒绝
的话, 则就拒绝 \(H_0: \boldsymbol{\theta} \in \bigcap_{a \in A} \Theta_a\) ,从而拒绝 ANOVA 零假设.
我们用上节给出的 \(t\) 统计量
对于某个常数 \(k\), 如果 \(T_a>k\) 我们就拒绝 \(H_{0 a}\). 由并-交方法知道, 如果对任何 \(a\) 我们能够拒绝, 那么对于极大化 \(T_a\) 的 \(a\) 也能够拒绝. 所以我们只需要满足 \(\sup_aT_a>k\) 就给出了ANOVA的零假设拒绝区间. 由于接下来的推导过程过于繁杂,所以直接给出结论,若读者对其感兴趣可以自行查看书本P495的内容.
定理 11.2.8 对于定义的 \(T_a\),
其中 \(\bar{Y}=\sum n_i \bar{Y}_i / \sum n_i, \bar{\theta}=\sum n_i \theta_i / \sum n_i\). 进一步, 在 ANOVA 假设下, 有
即 \(\sup _{a^i \sum_i a_i=0} T_a^2 /\left(k-1\right.\) ) 服从自由度 \(k-1\) 和 \(N-k\) 的 \(F\) 分布 (回忆 \(N=\sum n_i\) )
如果 \(H_0: \theta_1=\cdots=\theta_k\) 成立, \(\theta_i=\bar{\theta}\) 对于所有 \(i=1, \cdots, k\) 成立, 式 中的 \(\theta_i-\bar{\theta}\) 项消失. 于是, 对于 ANOVA 假设
的水平 \(\alpha\) 的检验, 我们当
时拒绝 \(H_0\).
这个拒绝域通常写为
其中的 \(F\) 称为 ANOVA 的 \(F\) 统计量.
11.2.5 对比的同时估计
由 \(F\) 统计量得出的区间范围,可以扩展到 \(t\) 统计量的区间端点上,以下定理给出了该描述的数学表达.
定理 11.2.10 在 ANOVA 假定下, 若 \(M=\sqrt{(k-1) F_{k-1, N-k, a}}\), 则
对所有 \(\boldsymbol{a} \in \mathcal{A}=\left\{\boldsymbol{a}=\left(a_1, \cdots, a_k\right): \sum a_i=0\right\}\) 同时成立的概率为 \(1-\alpha\).
证明: 关于同时概率的陈述需要 \(M\) 满足
或等价地
其中 \(T_a\) 由式 (11.2.9) 定义. 然而, 由于
取 \(M=(k-1) F_{k-1, N-k, a}\) 满足上述要求.
Scheffe区间给出了共同估计区间,但是其相比于单个估计区间,范围更大,这也是不可避免的(天下没有白吃的午餐)。
11.2.6 平方和的分解
ANOVA 提供了一个有用的思想方法, 即思考不同处理影响测量变量的方式, 把变异分解到不同的来源. 分解变异的基本思想包含在下述等式中.
定理 11.2.11 对任何数 \(y_{i j}, i=1, \cdots, k\), 且 \(j=1, \cdots, n_i\),
其中 \(\bar{y}_i .=\frac{1}{n_i} \sum_j y_{i j}, \overline{\bar{y}}=\sum_i n_i \bar{y}_i \cdot \sum_i n_i\).
证明相当简单, 仅依赖于这个事实, 即当处理均值时交叉项常常消失. 写出
再展开右边, 重新组合各项.
式中的和叫做平方和,它们被认为是归结于不同来源的数据的变异. (有时, 也称它们为校正平方和 , 这里 “校正”二字是指减去了均值. )
特别, 在一种方式分组的 ANOVA 模型
中的各项与方程 (11.2.11) 中的各项一一对应. 方程 (11.2.11) 表明了如何为处理分配变异 (处理之间的变异), 如何为随机误差分配变异 (处理之内的变异). 方程 (11.2.11)的左端度量了没有区分各个处理时的变异, 而右端的两项分别度量了仅归结于处理的变异以及仅归结于随机误差的变异. 这些来源的变异满足上述等式表明, 由这些平方和所度量的数据中的变异与 ANOVA 模型一样具有可加性.
11.3 简单线性回归
在方差分析中我们考察了一个因子 (变量) 如何影响响应变量的均值. 现在转 到简单线性回归, 来更好地了解一个变量对于另一个变量的函数依赖性. 具体地, 在简单线性回归中我们有以下关系
其中 \(Y_i\) 是一个随机变量, \(x_i\) 是另一个可观测变量, 量 \(\alpha\) 和 \(\beta\) 是固定的末知参数, 分别叫做回归的截距 (intercept) 和斜率 (slope), \(\epsilon_i\) 则只能是一个随机变量. 通常假定 \(\mathrm{E} \epsilon_i=0\) (否则我们可以把期望结合到 \(\alpha\) 而重新定义), 因此从式 (11.3.1) 我们有
一般地, 由 \(\mathrm{EY}\) 给出的函数作为 \(x\) 的函数叫做总体回归函数. 方程 (11.3.2) 定义了简单线性回归的总体回归函数.
通常我们是假定 \(x_i\) 已知来推断 \(Y_i\) 与 \(x_i\) 的关系, 所以可以把 方程 (11.3.2) 写成
为了强调推断的条件性质, 我们将更多地使用方程 (11.3.3). 注意这里的线性是 \(Y\) 的条件期望和 \(x\) 成线性关系.可能大家会有疑惑,什么叫做线性回归,为什么叫线性回归. 线性回归是指对于参数是线性的. 因此, \(\mathrm{E}\left(Y_i \mid x_i\right)=\) \(\alpha+\beta x_i^2\) 和 \(\mathrm{E}\left(\log Y_i \mid x_i\right)=\alpha+\beta\left(1 / x_i\right)\) 都是线性回归. 前者规定了 \(Y_i\) 和 \(x_i^2\) 之间 的线性关系, 后者则是 \(\log Y_i\) 与 \(1 / x_i\) 之间的线性关系. 相反, \(\mathrm{E}\left(Y_i \mid x_i\right)=\alpha+\beta^2 x_i\) 就不能说是线性回归.
到此为止,我们已经建立了回归分析的基本数学模型,接下来将详细介绍回归分析. 回归分析由两部分组成,第一步为数据的描述,在这一部分中,我们不需要对数据进行处理,而是计算一些例如样本均值等等的统计量,来描述这些数据的特征. 第二部则是从统计推断的角度上进行统计分析,这一步是较为复杂的,我们需要对总体数据先进行假定(也就是假定模型的概率分布等),从而对参数进行推断。
在简单线性回归问题中, 我们的观测数据有 \(n\) 对观测值 \(\left(x_1, y_1\right), \cdots,\left(x_n\right.\), \(y_n\) )。在这一节中, 我们将对这些数据考虑一些不同的模型. 这些不同的模型对于 \(x\) 或 \(y\) 或两者是否为随机变量 \(X\) 或 \(Y\) 的观测值作出的假定不同。
在每个模型中, 我们的兴趣都是考察 \(x\) 和 \(y\) 之间的线性关系. 这 \(n\) 个数据点不会恰好落在一条直线上, 但是, 我们将对观测到的这些数据点拟合一条直线, 以总结样本信息. 我们将会看到, 许多不同的方法会得到相同的直线。
基于数据 \(\left(x_1, y_1\right), \cdots,\left(x_n, y_n\right)\) 定义下面的量. 样本均值是
平方和是
交叉乘积和是
则方程 (11.3.3) 中 \(\alpha\) 和 \(\beta\) 的最常见的估计, 分别以 \(a\) 和 \(b\) 来记, 由
给出。
以上是结论,事实证明,最小二乘估计的数学解和基于正态分布假设的最大似然估计解相同,都为上述式子所表示的形式。推导过程过长,这里不给出推导,详细内容在书本的P503

浙公网安备 33010602011771号