线性统计模型 2.25

在诸多例子中,\(Y\) 通常被称作因变量或响应变量,\(X\) 被称为自变量或预报变量。\(Y\) 的值由两部分构成:一部分是由 \(X\) 决定的部分,为 \(X\) 的函数 \(f(X)\) ;另一部分是由其他未考虑因素(含随机因素)产生影响的随机误差 \(e\) 。由此得到模型

\[Y = f(X)+e \]

且作为随机误差的 \(e\) ,其均值 \(E(e)=0\)\(E(\cdot)\) 表示随机变量的均值。
特别,当\(f(X)\)是线性函数\(f(X)=\beta_0 + \beta_1X\)时,我们得到

\[Y = \beta_0 + \beta_1X + e \]

在这个模型中,若忽略掉\(e\),它就是一个通常的直线方程. 因此,我们称之为线性回归模型或线性回归方程.
常数项\(\beta_0\)是直线的截距,\(\beta_1\)是直线的斜率,也称为回归系数.在实际应用中,\(\beta_0\)\(\beta_1\)皆是未知的,需要通过观测数据来估计.
假设自变量\(X\)分别取值为\(x_1,x_2,\cdots,x_n\)时,因变量\(Y\)对应的观测值分别为\(y_1,y_2,\cdots,y_n\).于是我们有\(n\)组观测值\((x_i,y_i)\),\(i = 1,\cdots,n\).如果\(Y\)\(X\)有回归关系,则这些\((x_i,y_i)\)应该满足

\[y_i = \beta_0 + \beta_1x_i + e_i, \\ i = 1,\cdots,n \]

这里\(e_i\)为对应的随机误差. 应用适当的统计方法, 可以得到\(\beta_0\)\(\beta_1\)的估计值\(\hat{\beta}_0,\hat{\beta}_1\),将它们代入 ,再略去误差项\(e_i\)得到

\[Y = \hat{\beta}_0 + \hat{\beta}_1X \]

在实际问题中,影响因变量的主要因素通常较多,需考虑含多个自变量的回归问题。假设因变量\(Y\)\(p - 1\)个自变量\(X_1,\cdots,X_{p - 1}\)的关系为\(Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p - 1}X_{p - 1} + e\),此为多元线性回归模型,其中\(\beta_0\)是常数项,\(\beta_1,\cdots,\beta_{p - 1}\)是回归系数,\(e\)是随机误差。
假设对\(Y,X_1,\cdots,X_{p - 1}\)进行\(n\)次观测,得到\(n\)组观测值\(x_{i1},\cdots,x_{i,p - 1},y_{i}\)\(i = 1,\cdots,n\) ,它们满足一定关系式
在实际问题中,影响因变量的主要因素往往很多,这就需要考虑含多个自变量的回归问题.假设因变量\(Y\)\(p - 1\)个自变量\(X_1,\cdots,X_{p - 1}\)之间有如下关系:

\[Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p - 1}X_{p - 1} + e \]

这是多元线性回归模型,其中\(\beta_0\)为常数项,\(\beta_1,\cdots,\beta_{p - 1}\)为回归系数,\(e\)为随机误差.
假设我们对\(Y,X_1,\cdots,X_{p - 1}\)进行了\(n\)次观测,得到\(n\)组观测值

\[x_{i1},\cdots,x_{i,p - 1},y_{i}$, $i = 1,\cdots,n \]

它们满足关系式

\[y_{i} = \beta_0 + x_{i1}\beta_1 + \cdots + x_{i,p - 1}\beta_{p - 1} + e_{i}$, $i = 1,\cdots,n \]

这里\(e_{i}\)为对应的随机误差.引进矩阵记号

\[\boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \]

\[\boldsymbol{X} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1,p - 1} \\ 1 & x_{21} & \cdots & x_{2,p - 1} \\ \vdots & \vdots & & \vdots \\ 1 & x_{n1} & \cdots & x_{n,p - 1} \end{pmatrix} \]

\[\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_{p - 1} \end{pmatrix} \]

\[\boldsymbol{e} = \begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{pmatrix} \]

(1.1.10)就写为如下简洁形式:

\[\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{e} \]

这里\(\boldsymbol{y}\)\(n \times 1\)的观测向量,\(\boldsymbol{X}\)\(n \times p\)已知矩阵,通常称为设计矩阵.对于线性回归模型,术语“设计矩阵”中的“设计”两字并不蕴含任何真正设计的含义,只是习惯用法而已.近年来,有一些学者建议改用“模型矩阵”.但就目前来讲,沿用“设计矩阵”者居多.\(\boldsymbol{\beta}\)为未知参数向量,其中\(\beta_0\)称为常数项,\(\beta_1,\cdots,\beta_{p - 1}\)为回归系数.而\(\boldsymbol{e}\)\(n \times 1\)随机误差向量,关于其最常用的假设是:
(a) 误差项均值为零,即\(E(e_{i}) = 0\)\(i = 1,\cdots,n\).
(b) 误差项具有等方差,即

\[\text{Var}(e_{i}) = \sigma^{2} \\i = 1,\cdots,n \]

(c) 误差是彼此不相关的,即

\[\text{Cov}(e_{i},e_{j}) = 0 \\i \neq j \quad j = 1,\cdots,n \]

通常称以上三条为Gauss - Markov假设.模型(1.1.11)和假设(1.1.12)构成了我们以后要讨论的最基本的线性回归模型.
在Gauss - Markov假设中,第一条表明误差项不包含任何系统的趋势,因而观测值\(y_{i}\)的均值

\[E(y_{i}) = \beta_0 + x_{i1}\beta_1 + \cdots + x_{i,p - 1}\beta_{p - 1}$, $i = 1,\cdots,n \]

这就是说,观测值\(y_{i}\)大于或小于其均值\(E(y_{i})\)的波动完全是一种随机性的,这种随机性来自误差项\(e_{i}\).我们知道,一个随机变量的方差刻画了该随机变量取值散布程度的大小,因此假设(b)要求\(e_{i}\)等方差,也就是要求不同次的观测\(y_{i}\)在其均值附近波动程度是一样的.这个要求有时显得严厉一些.在一些情况下,我们不得不放松为\(\text{Var}(e_{i}) = \sigma_{i}^{2}\)\(i = 1,\cdots,n\),这种情况将在§7.2讨论.第三条假设等价于要求不同次的观测是不相关的.在实际应用中这个假设比较容易满足.但是在一些实际问题中,误差往往是相关的.这时估计问题比较复杂,本书中不少地方要讨论这种情形.
假设

\[\hat{\boldsymbol{\beta}} = (\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_{p - 1})' \]

\(\boldsymbol{\beta}\)的一种估计,将它们代入(1.1.9),并略去其中的误差项\(e\),得到经验回归方程

\[Y = \hat{\beta}_0 + \hat{\beta}_1X_1 + \cdots + \hat{\beta}_{p - 1}X_{p - 1} \]

和单个回归自变量的情形一样,这个经验回归方程是否真正描述了因变量\(Y\)与自变量\(X_1,\cdots,X_{p - 1}\)之间的关系,还需要适当的统计检验.
上面我们讨论的都是线性回归模型.有一些模型虽然是非线性的,但经过适当变换,可以化为线性模型.
例1.1.3 在经济学中,著名的Cobb - Douglas生产函数为
\(Q_{t} = aL_{t}^{b}K_{t}^{c}\)
这里\(Q_{t},L_{t}\)\(K_{t}\)分别为\(t\)年的产值、劳力投入量和资金投入量,\(a,b\)\(c\)为参数.在上式两边取自然对数
\(\ln(Q_{t}) = \ln a + b\ln(L_{t}) + c\ln(K_{t})\).
若令
\(y_{t} = \ln(Q_{t})\)\(x_{t1} = \ln(L_{t})\)\(x_{t2} = \ln(K_{t})\)
\(\beta_0 = \ln a\)\(\beta_1 = b\)\(\beta_2 = c\)
则再加上误差项,便得到线性关系
\(y_{t} = \beta_0 + \beta_1x_{t1} + \beta_2x_{t2} + e_{t}\\t = 1,\cdots,T\). (1.1.15)
因此我们把非线性模型(1.1.14)化成了线性模型.
例1.1.4 多项式回归模型
假设因变量\(Y\)和自变量\(X\)之间具有关系

\[Y = \beta_0 + \beta_1X + \beta_2X^{2} + \beta_3X^{3} + e \]

这是三次多项式回归模型.若令\(X_1 = X\)\(X_2 = X^{2}\)\(X_3 = X^{3}\),则有

\[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + e \]

这就是一个线性模型.从这里我们看到,线性模型(1.1.9)的基本特征是:它关于未知参数

\[\beta_0,\beta_1,\cdots,\beta_{p - 1} \]

是线性的.

在结束这一节之前,我们解释一下“回归”一词的由来.“回归”英文为“regression”,是由英国著名生物学家兼统计学家高尔顿(Galton)在研究人类遗传问题时提出的.为了研究父代与子代身高的关系,高尔顿收集了1 078对父亲及其一子的身高数据.用\(X\)表示父亲身高,\(Y\)表示儿子身高,单位为英寸(1英寸为2.54cm).将这1 078对\((x_{i},y_{i})\)标在直角坐标纸上,他发现散点图大致呈直线状.也就是说,总的趋势是父亲的身高\(X\)增加时,儿子的身高\(Y\)也倾向于增加,这与我们的常识是一致的.但是,高尔顿对数据的深入分析,发现了一个很有趣的现象——回归效应.
因为这1 078个\(x_{i}\)值的算术平均值\(\bar{x} = 68\)英寸,而1 078个\(y_{i}\)值的平均值为\(\bar{y} = 69\)英寸,这就是说,子代身高平均增加了1英寸.人们自然会这样推想,若父亲身高为\(x\),他儿子的平均身高大致应为\(x + 1\)​,但高尔顿的仔细研究所得

posted @ 2025-02-25 17:37  redufa  阅读(49)  评论(0)    收藏  举报