统计模型与推断II-notes5
1 模型假设
到目前为止,我们主要将线性模型视为一种数学近似方法。在本讲中,我们提出了线性模型统计方法的最常见假设,从而引出Gauss-Markov定理。
模型:\(y = Xb + e\)。
- 随机误差的假设:\(E[e] = 0\) 和 \(Cov(e) = \sigma^2 I_n\)。
注解:
- \(y\) 是观测值向量。
- \(X\) 是设计矩阵,包含了观测值的解释变量。
- \(b\) 是参数向量,包含了我们想要估计的未知参数。
- \(e\) 是误差项向量,包含了模型未能解释的随机波动。
- \(E[e] = 0\) 表示误差项的期望值为零,即误差项是无偏的。
- \(Cov(e) = \sigma^2 I_n\) 表示误差项的协方差矩阵是 \(\sigma^2\) 乘以单位矩阵,即误差项之间相互独立且具有相同的方差。
2 Gauss-Markov定理
定理 5.1. 在Gauss-Markov模型的假设下,\(y = Xb + e\),其中 \(E[e] = 0\) 和 \(Cov(e) = \sigma^2 I_n\),如果 \(\lambda^T b\) 是可估计的,那么 \(\lambda^T \hat{b}\) 是 \(\lambda^T b\) 的最佳(最小方差)线性无偏估计量(BLUE),其中 \(\hat{b}\) 解决了正规方程 \(X^T X \hat{b} = X^T y\)。
直观理解:
- Gauss-Markov定理告诉我们,在满足一定假设的情况下,最小二乘估计量(OLS)是最优的。
- 最优性体现在它是所有线性无偏估计量中具有最小方差的。
- 正规方程 \(X^T X \hat{b} = X^T y\) 是求解最小二乘估计量的关键方程。
证明 假设 \(c + d^T y\) 是 \(\lambda^T b\) 的另一个线性无偏估计量。则 \(c = 0\) 和 \(d^T X = \lambda^T\)。
注解:
- 我们假设存在另一个线性无偏估计量 \(c + d^T y\),并证明其方差大于或等于 \(\lambda^T \hat{b}\) 的方差。
- \(Var(c + d^T y)\) 表示该估计量的方差。
- \(Var(d^T y - \lambda^T \hat{b})\) 表示两个估计量之差的方差。
- \(Cov(\lambda^T \hat{b}, d^T y - \lambda^T \hat{b})\) 表示两个估计量之间的协方差。
其中
注解:
- 通过一系列的代数运算,我们证明了协方差项为零。
- 这表明两个估计量之间是独立的,从而简化了方差的计算。
其中最后一步是由于 \(\lambda \in C(X^T)\)
3 方差估计
定义 5.2.
- 误差平方和 (SSE): \(\sum_{i=1}^n (y_i - \hat{y}_i)^2 = \|(I_n - P_X)y\|_2^2\)。
- 回归平方和 (SSR): \(\sum_{i=1}^n \hat{y}_i^2 = \|P_X y\|_2^2\)。
注解:
- SSE(误差平方和)衡量的是模型未能解释的变异性,即观测值与预测值之间的差异。
- SSR(回归平方和)衡量的是模型解释的变异性,即预测值的变异性。
- \(I_n\) 是单位矩阵,\(P_X = X(X^T X)^{-1} X^T\) 是投影矩阵,用于将 \(y\) 投影到 \(X\) 的列空间上。
定理 5.3.
在Gauss-Markov模型的假设下,\(y = Xb + e\),其中 \(E[e] = 0\) 和 \(Cov(e) = \sigma^2 I_n\),\(\sigma^2\) 的一个无偏估计量是
其中 \(SSE = \hat{e}^T \hat{e} = y^T (I_n - P_X) y\) 和 \(r = \text{rank}(X)\)。
注解:
- 该定理提供了在Gauss-Markov假设下估计误差项方差 \(\sigma^2\) 的方法。
- \(n\) 是观测值的数量,\(r\) 是设计矩阵 \(X\) 的秩,即模型中参数的数量。
- \(\hat{\sigma}^2\) 是 \(\sigma^2\) 的无偏估计量,意味着其期望值等于真实的 \(\sigma^2\)。
练习 1.
在Gauss-Markov假设下,求 \(E[SSR]\)。
注解:
- 该练习要求计算在Gauss-Markov假设下回归平方和的期望值。
- 这有助于理解模型解释的变异性在统计上是如何表现的。
- 通过计算 \(E[SSR]\),我们可以进一步了解模型的拟合优度和解释能力。
4 模型选择的影响
4.1 欠拟合或模型设定错误
考虑真实模型为
其中 \(\eta_i\) 包括了被遗漏的变量及其系数。假设,如常,\(E(e) = 0\) 和 \(Cov(e) = \sigma^2 I_n\)。
练习 2. 考虑通常的最小二乘估计量 \(\hat{b}\)。
- 找出其偏差和方差。
- 它还是BLUE吗?何时它仍然是 \(b\) 的无偏估计量?
- 考虑方差估计(5.1)。找出其偏差。何时它仍然是 \(\sigma^2\) 的无偏估计量?
注解:
- 偏差和方差是评估估计量性能的两个重要指标。偏差衡量估计量的期望值与真实值之间的差异,而方差衡量估计量的变异性。
- BLUE(最佳线性无偏估计量)在满足Gauss-Markov假设时具有最小方差。
- 方差估计的偏差分析有助于理解估计量的准确性。
例 1(例 4.4)
- 假设 \(y_i = \beta_0 + \beta_1 x_i + e_i\),但忽略了协变量 \(x_i\)。找出 \(\beta_0, \sigma^2\) 的最小二乘估计量,并与正确指定模型下的最小二乘估计量进行比较。
- (作业)如果省略了截距项会怎样?
注解:
- 省略重要变量会导致模型设定错误,从而影响估计量的准确性。
- 截距项的省略可能会改变模型的解释,但不一定影响估计量的无偏性。
4.2 过拟合和多重共线性
假设 \(X = [X_1 X_2]\) 且真实模型是
其中 \(b_2 = 0\)。假设Gauss-Markov模型,并且 \(X_1\) 和 \(X = [X_1 X_2]\) 具有满列秩。
- 如果我们知道 \(b_2 = 0\),我们可以通过在 \(X_1\) 上回归 \(y\) 来估计 \(b_1\):\(\hat{b}_1 = (X_1^T X_1)^{-1} X_1^T y\)。
- 如果我们没有这个先验知识,那么我们将第二块解释变量包含在模型中,并得到最小二乘估计量
练习 3. 比较 \(b_1\) 和 \(\tilde{b}_1\)(\(\tilde{b}\) 的第一个块)的偏差和方差。比较两个模型中的方差估计。
定义 5.4(多重共线性). 多重共线性或共线性是回归模型中预测变量线性相关的情况。
设 \(S_j^x = \sum_{i=1}^n (x_{i,j} - \bar{x}_j)^2\)。如果 \(X\) 的列是相互正交的,那么 \(Var(\hat{\beta}_j) = \sigma^2 / S_j^x\)。
多重共线性的度量:方差膨胀因子(VIF),定义为 \(Var(\hat{\beta}_j) = (VIF) \cdot \sigma^2 / S_j^x\)。
例 2(例 4.6) 假设 \(y_i = \beta_0 + \beta_1 x_i + e_i\) 但真实 \(\beta_0 = 0\)。找出我们是否省略或不省略截距项时斜率的估计量?比较估计量。
注解:
- 多重共线性会导致估计量的方差增大,从而影响估计的稳定性。
- VIF是衡量多重共线性严重程度的指标,VIF值越大,表明多重共线性问题越严重。
- 省略或不省略截距项会影响模型的估计结果,特别是在处理非中心化数据时。

浙公网安备 33010602011771号