统计模型与推断II-notes5

1 模型假设

到目前为止,我们主要将线性模型视为一种数学近似方法。在本讲中,我们提出了线性模型统计方法的最常见假设,从而引出Gauss-Markov定理。

模型:\(y = Xb + e\)

  • 随机误差的假设:\(E[e] = 0\)\(Cov(e) = \sigma^2 I_n\)

注解:

  • \(y\) 是观测值向量。
  • \(X\) 是设计矩阵,包含了观测值的解释变量。
  • \(b\) 是参数向量,包含了我们想要估计的未知参数。
  • \(e\) 是误差项向量,包含了模型未能解释的随机波动。
  • \(E[e] = 0\) 表示误差项的期望值为零,即误差项是无偏的。
  • \(Cov(e) = \sigma^2 I_n\) 表示误差项的协方差矩阵是 \(\sigma^2\) 乘以单位矩阵,即误差项之间相互独立且具有相同的方差。

2 Gauss-Markov定理

定理 5.1. 在Gauss-Markov模型的假设下,\(y = Xb + e\),其中 \(E[e] = 0\)\(Cov(e) = \sigma^2 I_n\),如果 \(\lambda^T b\) 是可估计的,那么 \(\lambda^T \hat{b}\)\(\lambda^T b\) 的最佳(最小方差)线性无偏估计量(BLUE),其中 \(\hat{b}\) 解决了正规方程 \(X^T X \hat{b} = X^T y\)

直观理解:

  • Gauss-Markov定理告诉我们,在满足一定假设的情况下,最小二乘估计量(OLS)是最优的。
  • 最优性体现在它是所有线性无偏估计量中具有最小方差的。
  • 正规方程 \(X^T X \hat{b} = X^T y\) 是求解最小二乘估计量的关键方程。

证明 假设 \(c + d^T y\)\(\lambda^T b\) 的另一个线性无偏估计量。则 \(c = 0\)\(d^T X = \lambda^T\)

\[\begin{aligned} Var(c + d^T y) &= Var(d^T y) = Var(d^T y - \lambda^T \hat{b} + \lambda^T \hat{b}) \\ &= Var(\lambda^T \hat{b}) + Var(d^T y - \lambda^T \hat{b}) + 2Cov(\lambda^T \hat{b}, d^T y - \lambda^T \hat{b}), \end{aligned} \]

注解:

  • 我们假设存在另一个线性无偏估计量 \(c + d^T y\),并证明其方差大于或等于 \(\lambda^T \hat{b}\) 的方差。
  • \(Var(c + d^T y)\) 表示该估计量的方差。
  • \(Var(d^T y - \lambda^T \hat{b})\) 表示两个估计量之差的方差。
  • \(Cov(\lambda^T \hat{b}, d^T y - \lambda^T \hat{b})\) 表示两个估计量之间的协方差。

其中

\[\begin{aligned} Cov(\lambda^T \hat{b}, d^T y - \lambda^T \hat{b}) &= \lambda^T Cov(\hat{b}, d^T y - \lambda^T \hat{b}) \\ &= \lambda^T Cov((X^T X)^g X^T y, (d - X[(X^T X)^g]^T \lambda)^T y) \\ &= \lambda^T (X^T X)^g X^T \sigma^2 I_n (d - X[(X^T X)^g]^T \lambda) \\ &= \sigma^2 \lambda^T (X^T X)^g (X^T d - X^T X[(X^T X)^g]^T \lambda) \\ &= \sigma^2 \lambda^T (X^T X)^g (\lambda - \lambda) = 0, \end{aligned} \]

注解:

  • 通过一系列的代数运算,我们证明了协方差项为零。
  • 这表明两个估计量之间是独立的,从而简化了方差的计算。

其中最后一步是由于 \(\lambda \in C(X^T)\)

3 方差估计

定义 5.2.

  • 误差平方和 (SSE): \(\sum_{i=1}^n (y_i - \hat{y}_i)^2 = \|(I_n - P_X)y\|_2^2\)
  • 回归平方和 (SSR): \(\sum_{i=1}^n \hat{y}_i^2 = \|P_X y\|_2^2\)

注解:

  • SSE(误差平方和)衡量的是模型未能解释的变异性,即观测值与预测值之间的差异。
  • SSR(回归平方和)衡量的是模型解释的变异性,即预测值的变异性。
  • \(I_n\) 是单位矩阵,\(P_X = X(X^T X)^{-1} X^T\) 是投影矩阵,用于将 \(y\) 投影到 \(X\) 的列空间上。

定理 5.3.

在Gauss-Markov模型的假设下,\(y = Xb + e\),其中 \(E[e] = 0\)\(Cov(e) = \sigma^2 I_n\)\(\sigma^2\) 的一个无偏估计量是

\[\hat{\sigma}^2 = \frac{SSE}{n - r}, \]

其中 \(SSE = \hat{e}^T \hat{e} = y^T (I_n - P_X) y\)\(r = \text{rank}(X)\)

注解:

  • 该定理提供了在Gauss-Markov假设下估计误差项方差 \(\sigma^2\) 的方法。
  • \(n\) 是观测值的数量,\(r\) 是设计矩阵 \(X\) 的秩,即模型中参数的数量。
  • \(\hat{\sigma}^2\)\(\sigma^2\) 的无偏估计量,意味着其期望值等于真实的 \(\sigma^2\)

练习 1.

在Gauss-Markov假设下,求 \(E[SSR]\)

注解:

  • 该练习要求计算在Gauss-Markov假设下回归平方和的期望值。
  • 这有助于理解模型解释的变异性在统计上是如何表现的。
  • 通过计算 \(E[SSR]\),我们可以进一步了解模型的拟合优度和解释能力。

4 模型选择的影响

4.1 欠拟合或模型设定错误

考虑真实模型为

\[y_i = x_i^T b + \eta_i + e_i, \quad i = 1, \ldots, n, \]

其中 \(\eta_i\) 包括了被遗漏的变量及其系数。假设,如常,\(E(e) = 0\)\(Cov(e) = \sigma^2 I_n\)

练习 2. 考虑通常的最小二乘估计量 \(\hat{b}\)

  • 找出其偏差和方差。
  • 它还是BLUE吗?何时它仍然是 \(b\) 的无偏估计量?
  • 考虑方差估计(5.1)。找出其偏差。何时它仍然是 \(\sigma^2\) 的无偏估计量?

注解:

  • 偏差和方差是评估估计量性能的两个重要指标。偏差衡量估计量的期望值与真实值之间的差异,而方差衡量估计量的变异性。
  • BLUE(最佳线性无偏估计量)在满足Gauss-Markov假设时具有最小方差。
  • 方差估计的偏差分析有助于理解估计量的准确性。

例 1(例 4.4)

  • 假设 \(y_i = \beta_0 + \beta_1 x_i + e_i\),但忽略了协变量 \(x_i\)。找出 \(\beta_0, \sigma^2\) 的最小二乘估计量,并与正确指定模型下的最小二乘估计量进行比较。
  • (作业)如果省略了截距项会怎样?

注解:

  • 省略重要变量会导致模型设定错误,从而影响估计量的准确性。
  • 截距项的省略可能会改变模型的解释,但不一定影响估计量的无偏性。

4.2 过拟合和多重共线性

假设 \(X = [X_1 X_2]\) 且真实模型是

\[y = X_1 b_1 + X_2 b_2 + e, \]

其中 \(b_2 = 0\)。假设Gauss-Markov模型,并且 \(X_1\)\(X = [X_1 X_2]\) 具有满列秩。

  • 如果我们知道 \(b_2 = 0\),我们可以通过在 \(X_1\) 上回归 \(y\) 来估计 \(b_1\)\(\hat{b}_1 = (X_1^T X_1)^{-1} X_1^T y\)
  • 如果我们没有这个先验知识,那么我们将第二块解释变量包含在模型中,并得到最小二乘估计量

\[\tilde{b} = (X^T X)^{-1} X^T y. \]

练习 3. 比较 \(b_1\)\(\tilde{b}_1\)\(\tilde{b}\) 的第一个块)的偏差和方差。比较两个模型中的方差估计。

定义 5.4(多重共线性). 多重共线性或共线性是回归模型中预测变量线性相关的情况。

\(S_j^x = \sum_{i=1}^n (x_{i,j} - \bar{x}_j)^2\)。如果 \(X\) 的列是相互正交的,那么 \(Var(\hat{\beta}_j) = \sigma^2 / S_j^x\)

多重共线性的度量:方差膨胀因子(VIF),定义为 \(Var(\hat{\beta}_j) = (VIF) \cdot \sigma^2 / S_j^x\)

例 2(例 4.6) 假设 \(y_i = \beta_0 + \beta_1 x_i + e_i\) 但真实 \(\beta_0 = 0\)。找出我们是否省略或不省略截距项时斜率的估计量?比较估计量。

注解:

  • 多重共线性会导致估计量的方差增大,从而影响估计的稳定性。
  • VIF是衡量多重共线性严重程度的指标,VIF值越大,表明多重共线性问题越严重。
  • 省略或不省略截距项会影响模型的估计结果,特别是在处理非中心化数据时。
posted @ 2025-03-10 10:00  某宇_My  阅读(58)  评论(0)    收藏  举报
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/