方差分析模型2

方差分析模型概述

上节线性回归模型的自变量一般是连续变量,旨在探寻因变量与自变量的依赖关系。而本节的方差分析模型,其自变量是示性变量,只能取0、1两个值,用于比较两个或多个因素效应大小,在一些文献中也被称为试验设计模型 。

单向分类模型

以比较三种药治疗某种疾病的效果为例,药效度量指标为\(Y\) ,采用双盲实验法。设每种药有\(n\)个人服用,\(y_{ij}\)为服用第\(i\)种药的第\(j\)个人的药效测量值,则

\[y_{ij}=\mu+\alpha_{i}+e_{ij} \quad i = 1,2,3 \quad j = 1,\cdots,n \]

其中\(\mu\)是总平均,\(\alpha_{i}\)表示第\(i\)种药的效应,\(e_{ij}\)是随机误差,其均值为0,方差相等且彼此不相关。该问题中只有“药品”这一个感兴趣因素(因子),其三个不同品种为因子的水平或“处理” ,此模型(1.2.1)称为单向分类模型或单因素方差分析模型,也可用矩阵记号表示

\[\begin{pmatrix} y_{11} \\ \vdots \\ y_{1n} \\ y_{21} \\ \vdots \\ y_{2n} \\ y_{31} \\ \vdots \\ y_{3n} \end{pmatrix} = \begin{pmatrix} 1 & 1 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & 1 & 0 \\ 1 & 0 & 0 & 1 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} \mu \\ \alpha_{1} \\ \alpha_{2} \\ \alpha_{3} \end{pmatrix} + \begin{pmatrix} e_{11} \\ \vdots \\ e_{1n} \\ e_{21} \\ \vdots \\ e_{2n} \\ e_{31} \\ \vdots \\ e_{3n} \end{pmatrix} \]

\(y\)\(X\)\(\beta\)\(e\)分别表示上式中的四个向量或矩阵,则上述模型具有形式

\[y = X\beta + e \]

这和线性回归模型形式上完全一样,所不同的是,对现在情形,设计阵\(X\)的元素只能取\(1\)\(0\)两个值. 除第一列外,设计阵\(X\)的每一列对应一种药品,若某列中某个位置是\(1\)或是\(0\),则表示对应的这个病人服用了或没服用该列对应的那种药. 也就是说,设计阵\(X\)中的元素\(x_{ij}(j > 1)\)只表示了对应的实验中某个处理效应的存在与否. 容易看出,在(1.2.2)中,设计阵的秩\(\text{rk}(X)=3\),它小于\(X\)的列数\(4\),我们称设计阵\(X\)是列降秩的,这是方差分析模型的一个特点.

两向分类 模型

假设在一次生产实验中,影响产品质量指标\(Y\)的有两个因素\(A\)\(B\). 设因素\(A\)\(a\)个水平,因素\(B\)\(b\)个水平. 记\(y_{ij}\)表示在因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平时生产的产品质量测量值. 则\(y_{ij}\)可分解为

\[y_{ij} = \mu+\alpha_{i}+\beta_{j}+e_{ij},\quad i = 1,\cdots,a \quad j = 1,\cdots,b \]

这里\(\mu\)仍为总平均,\(\alpha_{i}\)为因素\(A\)的第\(i\)个水平的效应,\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的效应,\(e_{ij}\)为随机误差

随机区组设计模型也具有类似形式.

假设一农业实验中心从外地引进三种优良麦种,在大面积种植之前,先进行小范围试验以便选出适合本地气候条件的麦种.

我们可以把这三种小麦种植的浇水等条件控制在相同的状态,但是很难保证用于实验的土地肥沃程度都一样,为
了克服这一缺陷,我们先把实验用的土地分成若干小块,譬如5块,使每一小块土地肥沃程度基本上一样. 在实验设计中,把这种小块称为区组(block). 然后再把每一区组分成若干更小的块,称为试验单元.

现有三种小麦品种要比较,不妨就把每个区组分成三个试验单元. 随机区组设计要求,在每个区组中,每种小麦种在一个单元完全是随机的. 若用\(y_{ij}\)表示第\(i\)个区组种第\(i\)种小麦的那个试验单元的小麦产量,则\(y_{ij}\)就有分解式. 这时\(\alpha_{i}\)就是第\(i\)种小麦(即处理,treatment)的效应. \(\beta_{j}\)是第\(j\)​个区组的效应. 因此随机区组设计模型就是一个两向分类模型.

在试验设计中,区组是一个很重要的概念.

为了更清楚的掌握它的本质,我们再举一个例子.

假设我们用\(a\)种工艺加工一些产品,现在要比较这\(a\)种工艺的优劣.

\(y_{ij}\)表示第\(i\)种工艺加工的第\(j\)件产品质量,\(\alpha_{i}\)为第\(i\)种工艺的效应. 那么\(y_{ij}\)可分解为:

\[y_{ij}=\mu+\alpha_{i}+e_{ij} \quad i = 1,\cdots,a \quad j = 1,\cdots,b \]

这是一个单向分类模型.

但是,如果我们是用\(b\)台设备去检测它们的质量,那么就应该把这\(b\)台设备的差异考虑进去. 这样\(b\)台设备就成了区组,这时\(y_{ij}\)就可表示为\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)形式,其中\(\beta_{j}\)是第\(j\)台设备的效应.
正是由于上述原因,往往我们也把模型\(y_{ij}=\mu+\alpha_{i}+e_{ij}\)称为随机区组设计模型,并把\(\alpha_{i}\)\(\beta_{j}\)分别泛称为处理效应和区组效应.

在一般情况下,这两种效应不是同等看待的. 我们主要兴趣放在处理效应上,而区组这个因素的引入,往往是为了缩小分析误差. 当然,也有例外,在一些问题中,区组效应也可能是我们所关心的.

具有交互效应的两向分类模型

因素\(A\)和因素\(B\)的效应具有可加性. 因为在分解式

\[y_{ij}=\mu+\alpha_{i}+\beta_{j}+e_{ij} \]

中,因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的贡献是\(\alpha_{i}+\beta_{j}\),它是各自水平效应之和.

但是,在一些实际问题中,这种情况不总是成立的. 例如在化工试验中,若因素\(A\)表示化学反应的温度,因素\(B\)表示化学反应的压力,两者对化学反应的质量或产量\(Y\)的贡献一般不具有可加性. 如果对每一个水平组合\((i,j)\)重复\(c\)次试验,这时一个合理模型

\[y_{ijk}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}+e_{ijk}\quad i = 1,\cdots,a \quad j = 1,\cdots,b \quad k = 1,\cdots,c \]

这里\(\gamma_{ij}\)称为因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平的交互效应.

它的出现表明了因素\(A\)的第\(i\)个水平和因素\(B\)的第\(j\)个水平对\(y_{ij}\)的联合贡献,并不是\(\alpha_{i}\)\(\beta_{j}\)的简单相加,而是多出了一个部分. 为了叙述方便起见,我们把\(\alpha_{i}\)称为因素\(A\)的第\(i\)个水平的主效应,同理称\(\beta_{j}\)为因素\(B\)的第\(j\)个水平的主效应.

在模型\(y_{ijk}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}+e_{ijk}\)中,对因素\(A\)\(B\)的每种水平组合\((i,j)\),重复观测次数都是\(c\),这样的模型称为平衡模型(balanced model).

在实际试验中,由于种种客观原因,例如试验者退出试验,试验个体(动物)死亡,或生产事故而导致对每种水平组合所获得的观测数据个数不相等,这时称对应模型为非平衡的(unbalanced model).

三向分类模型

读者不难想象,如果试验中有\(A,B,C\)三个因素,它们的水平数分别为\(a,b,c\),如果它们之间都没有交互效应,那么因变量的观测值可分解为

\[y_{ijkl}=\mu+\alpha_{i}+\beta_{j}+\gamma_{k}+e_{ijkl} \\ i = 1,\cdots,a \quad j = 1,\cdots,b \quad k = 1,\cdots,c\quad l = 1,\cdots,d \]

这里\(\alpha_{i},\beta_{j}\)\(\gamma_{k}\)分别是因素\(A\)的第\(i\)个水平,因素\(B\)的第\(j\)个水平和因素\(C\)的第\(k\)个水平的主效应,对于每种水平组合\((i,j,k)\),试验重复次数都是\(d\),则模型是平衡的. 如果对水平组合\((i,j,k)\)试验重复次数为\(n_{ijk}\)​,它们不必相等,即模型就是非平衡的.


拉丁方设计

在试验设计中,有一种设计叫拉丁方设计(latin square design),它可以表示为三向分类模型.

所谓拉丁方,乃是用\(n\)个字母(或数字)排成的一个方块. 它的每行每列包含\(n\)​​​​个字母中每个字母恰好一次. 由于当初是用拉丁字母排列这种方块的,于是,称其为拉丁方. 用来排拉丁方的不同字母的个数,称为拉丁方的阶.

例如,下面分别是三阶和四阶拉丁方.

\[ \begin{matrix} A & B & C \qquad \qquad A&B&C&D\\ B & C & A \qquad \qquad B&C&D&A\\ C & A & B \qquad \qquad C&D&A&B\\ & & \qquad \qquad D&A&B&C \end{matrix} \]

用三阶拉丁方可以安排三因素的试验.

例如,把第\(i\)行对应于因素甲的第\(i\)水平,第\(j\)列对应于因子乙的第\(j\)水平,中间的字母\(A,B,C\)分别对应于因子丙的三个水平.

这样,我们就排出9个试验,如表

因素乙 1 2 3
因素甲1 \(A^{(1)}\) \(B^{(2)}\) \(C^{(3)}\)
因素甲2 \(B^{(4)}\) \(C^{(5)}\) \(A^{(6)}\)
因素甲3 \(C^{(7)}\) \(A^{(8)}\) \(B^{(9)}\)

\(k_{ij}=k(i,j)\)表示由表惟一确定的由集合\(\{i,j\}\)\(\{1,2,3\}\)与集合\(\{A,B,C\}\)的一一映射。

例如\(k_{23}=k(2,3)=A\). 若用\(y_{ijk_{ij}}\)表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的观测值,用\(\alpha_{i},\beta_{j}\)\(\gamma_{k_{ij}}\)分别表示因素甲、乙、丙的第\(i,j,k_{ij}\)水平下的效应,在不存在无交互效应,(i = 1,2,3) ,(j = 1,2,3) 的情况下,有三向分类模型

\[y_{ij k_{ij}}=\mu+\alpha_{i}+\beta_{j}+\gamma_{k_{ij}}+e_{ij k_{ij}} \]

对于文中后三个例子(具有交互效应的两向分类模型、无交互效应的三向分类模型、拉丁方设计相关模型),引入适当矩阵记号,都能写成\(y = X\beta + e\) 的形式。
此时设计阵\(X\) 元素\(x_{ij}\) 只取(0)和(1)两个值,且\(\text{rk}(X)\)小于\(X\)的列数,即\(X\)是列降秩的。

posted @ 2025-02-26 13:55  redufa  阅读(56)  评论(0)    收藏  举报