统计模型与推断II-notes4

SKX804 统计模型与推断 II

笔记 4: 可估计性与最小二乘估计量

书籍参考: Monahan (2008)
讲师: Sai Li 和 Kejun He
最后更新: 2025年2月


1. 动机

回顾 \(b\) 的最小二乘估计量为:

\[\hat{b} = (X'X)^{-1}X'y + [I - (X'X)^{-1}(X'X)]z, \quad \text{对于任意 } z \in \mathbb{R}^p \]

\(rank(X) < p\) 时,可能存在无限多个解。(这是因为 \(I - (X'X)^{-1}(X'X)\) 是对 \(N(X)\) 的投影。)因此,如果我们对某个特定的 \(b_0\) 感兴趣,无论我们有多少样本,恢复它都是徒劳的。

\(rank(X) < p\) 时,我们感兴趣的是哪些 \(b\) 的函数是有意义的估计。特别地,在这笔记中,我们将研究哪些线性函数是可估计的。

2. 模型

在前面的笔记中,我们是从一个近似的观点出发的。现在,我们充分利用一般线性模型的形式:

\[y = Xb + e \]

其中:

  • \(y\) 是响应向量
  • \(X\) 是已知的设计矩阵
  • \(b\) 是未知但固定的系数向量
  • \(e\) 是误差向量,且有 \(E(e) = 0\)(假设)

这意味着 \(E(y) = Xb\)(线性均值模型)。

3. 可估计性

参数函数的可估计性对应于存在一个线性无偏估计量。

定义 4.1 (无偏估计量)
估计量 \(t(y)\) 是一个无偏估计量,如果且仅如果 \(E(t(y)) = \lambda'b\) 对所有 \(b\) 成立。

定义 4.2 (线性估计量)
估计量 \(t(y)\) 是一个线性估计量,当且仅当 \(t(y) = c + a^Ty\) 对某些 \(c\)\(a\) 成立。

定义 4.3 (线性可估计函数)
线性可估计的函数是指具有线性无偏估计量的函数。

定义 4.4 (可识别性)
\(\mathcal{P} = \{P_\theta : \theta \in \Theta\}\) 为一个参数空间为 \(\Theta\) 的统计模型。我们说 \(\mathcal{P}\) 是“可识别的”,如果映射 \(\theta \mapsto P_\theta\) 是一对一的:

\[P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2 \quad \text{对于所有 } \theta_1, \theta_2 \in \Theta. \]

一般而言,线性估计量将采用形式 \(c + a^Ty\) 的形式,对于某些 \(c\)\(a\)。然而,在我们的上下文中,我们可以将焦点限制在形式 \(a^Ty\)

这是因为,如果一个需求无偏性:

\[E(c + a^Ty) = c + a^TXb = \lambda'b \quad \text{对于所有 } b. \]

因此,\(c\) 必须为零,因为我们可以取 \(b = 0\)。因此,在这个上下文中,包含 \(c\) 或不包含 \(c\) 并没有区别。

推论 4.5 (结果 3.1)
函数 \(\psi = \lambda'b\) 是线性可估计的当且仅当存在如此关系 \(E(a^Ty) = \lambda'b\) 对所有 \(b\),或者 \(\lambda^T = a^TX\)

在这门课中,我们将称线性可估计函数为可估计的简写。如果该函数不是(线性)可估计的,我们称其为不可估计。经典问题是:

是什么使 \(\lambda \in \mathbb{R}^p\) 使得 \(\psi = \lambda'b\) 可估计?

示例 1 (例 3.1; 不可估计)

\[E[y_{i,j}] = \mu + \alpha_i, \quad i = 1, 2; \quad j = 1, 2. \]

假设我们希望估计 \(\alpha_1\)。那么对于 \(b = (\mu, \alpha_1, \alpha_2)^T\)\(\lambda = (0, 1, 0)^T\),我们有 \(\alpha_1 = \lambda'b\)。我们尝试找到一个解决方案,使得:

\[X^Ta = \lambda \iff \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \end{pmatrix} a = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix}. \]

没有解决方案存在。

定理 4.6
\(G\)\(X\) 的广义逆。在一般线性模型 \(y = Xb + e\) 中,其中 \(E(e) = 0\),以下条件是等价的:

  1. \(\psi = \lambda'b\) 是(线性)可估计的。
  2. \(\lambda^T = a^TX\) 对某个 \(a\) 成立。
  3. \(\lambda^T = \lambda'GX\)

用更通俗的话来说,这个结果表明特定的函数 \(\lambda'b\) 是可估计的,当且仅当它等于观察值的线性组合的期望值。

证明

(i) \(\iff\) (ii)
\(\psi\) 是可估计的 \(\iff\) 存在一个这样的 \(a\) 使得 \(E(a^Ty) = a^TXb = \lambda'b\)(由于 \(E(e) = 0\)
\(\iff\) \((a^TX - \lambda^T)b = 0 \text{ 对任意的 } b\)
\(\iff\) \(a^TX = \lambda^T\)

(ii) \(\Rightarrow\) (iii)
\(\lambda^T = a^TX \Rightarrow \lambda^TGX = a^TXGX = a^TX\)

(iii) \(\Rightarrow\) (i)
\(\lambda^T = \lambda'GX \Rightarrow \lambda^T = a^TX\),通过取 \(a^T = \lambda'G\)

注意到(ii)等价于 \(\lambda \in C(X^T)\)

如果在(iii)中使用摩尔-彭罗斯伪逆,则有 \(X^+X\),这是 \(C(X^T)\) 上的一个对称投影。由于 \(X'X\) 的对称性,(iii)变为 \(\lambda = X^+X\lambda\)。换句话说,这要求 \(\lambda\)\(C(X^T)\) 中。

\(\psi = \lambda'b\) 的可估计性可以通过以下方式进行检验:

  1. 构造一个简单的无偏线性估计量 \(a^Ty\)
  2. 代数方式证明 \(\lambda^T = \lambda'GX\) 对于广义逆 \(G\)\(X\)。常用的选择是 \(G = X^+\),它可以通过 \(X\) 的奇异值分解(SVD)获得。
  3. \(\lambda'b\) 表示为 \(E(y_i)\) 的线性组合,其中 \(y_i\)\(y\) 的第 \(i\) 项。
  4. 显示 \(\lambda \in C(X^T)\)。这可以通过证明 \(\lambda\)\(C(X^T)\) 的一个基的线性组合,或验证 \(\lambda\) 垂直于 \(N(X)\) 的每一个基向量来实现。

考虑单因素方差分析模型:

\[y_{ij} = \mu + \alpha_i + e_{ij} \quad j = 1, \ldots, n_j, \quad i = 1, \ldots, a, \]

其中 \(E(e_{ij}) = 0\)。如果我们按 \(i\)\(y_{ij}\) 进行排序,然后按 \(j\) 排成 \(y\),则

\[X = \begin{pmatrix} 1_{n_1} & 1_{n_1} & \cdots & 0 \\ n_2 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1_{n_a} \end{pmatrix}, \quad b = \begin{pmatrix} \mu \\ \alpha_1 \\ \vdots \\ \alpha_a \end{pmatrix}. \]

注意到 \(N = \sum_{i=1}^{a} n_i, \quad p = a + 1\) 并且 \(rank(X) = a\)。因此,\(N(X)\) 的维数为 1。\(N(X)\) 的一个基向量是:

\[v = \begin{pmatrix} 1 \\ -1 \\ \vdots \\ -1 \end{pmatrix}. \]

方法 4:任意与 \(v\) 正交的 \(\lambda\) 导致可估计的函数。换句话说,\(\lambda'b = \lambda_0\mu + \sum_{i=1}^{a} \lambda_i\alpha_i\) 是可估计的,当且仅当 \(\lambda_0 - \sum_{i=1}^{a} \lambda_i = 0\)。以下是一些示例:

  • \(\mu + \alpha_i\)
  • \(\alpha_i - \alpha_k\)
  • \(\sum_{i=1}^{a} d_i\alpha_i\) 如果 \(\sum_{i=1}^{a} d_i = 0\)

方法 3:\(E[y_{1,j}] = \mu + \alpha_1\)\(E[y_{1,j} - y_{3,j}] = \alpha_1 - \alpha_3\)

定义 4.7 (定义 3.4)
对于任意函数 \(\psi = \lambda'b\),我们称 \(\hat{\psi} = \lambda'\hat{b}\)\(b\) 的最小二乘估计量。

定理 4.8 (结果 3.2)
假设 \(\hat{b}\) 是任意 \(b\) 的最小二乘估计量。函数 \(\psi = \lambda'b\) 具有独特的最小二乘估计量 \(\hat{\psi} = \lambda'b\),当且仅当 \(\psi\) 是(线性)可估计的。

证明

\(\Leftarrow\) : 假设 \(\psi\) 是可估计的。根据定理 4.6,我们可以写 \(\lambda^T = a^TX\) 对某个 \(a\)。我们知道,对于任意 \(z\)

\[\hat{b} = (X'X)^{-1}X'y + [I - (X'X)^{-1}(X'X)]z。 \]

现在,

\[\hat{\psi} = \lambda'\hat{b} = \lambda'[(X'X)^{-1}X'y + (I - (X'X)^{-1}(X'X)]z = a^TX(X'X)^{-1}X'y + a^T[X' - (X'X)^{-1}(X'X)]z = a^TPx + a^T(X - Px)z = a^TPx'y = a^TXX^+y = \lambda'\hat{b}, \]

由于定理 3.9 及其讨论。

{\(\Rightarrow\)}: 假设 \(\hat{\psi} = \lambda'\hat{b}\) 对于每一个 \(\hat{b}\) 是唯一的。我们有 \(\lambda^T(I - (X'X)^{-1}(X'X))z = 0 \text{ 对所有 } z\)。这意味着 \(\lambda^T = \lambda'(X'X)^{-1}(X'X) = a^TX\),通过取 \(a^T = \lambda'(X'X)^{-1}X^T\)。根据定理 4.6,这完成了证明。

定理 4.9 (结果 3.3)
最小二乘估计量 \(\lambda'\hat{b}\) 是(线性)可估计函数 \(\lambda'b\) 的线性无偏估计量。

证明

根据定理 4.8,\(\lambda'\hat{b} = \lambda'X^+y\) 显然是线性估计量。根据定理 4.6,有:

\[E(\lambda'X^+y) = \lambda'X^+b = \lambda'b, \]

因此它是无偏的。


示例 3 单因素方差分析

我们将为这些可估计函数写下最小二乘估计量:

  • \(\mu + \alpha_i\)
  • \(\alpha_i - \alpha_k\)
  • \(\sum_{i=1}^{a} d_i\alpha_i \text{ 如果 } \sum_{i=1}^{a} d_i = 0\)

首先,

\[X'X = \begin{pmatrix} N & n_1 & n_2 & \cdots & n_a \\ n_1 & 0 & 0 & \cdots & 0 \\ n_2 & 0 & n_2 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ n_a & 0 & 0 & \cdots & n_a \end{pmatrix}, \quad (X'X)^{-1} = \begin{pmatrix} 0 & 0 & 0 & \cdots & 0 \\ 0 & 1/n_1 & 0 & \cdots & 0 \\ 0 & 0 & 1/n_2 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 1/n_a \end{pmatrix}, \]

对于任意 \(z\),其中 \(\bar{y_j} = \sum_{i=1}^{n_j}y_{ij}/n_j\)\(\mu + \alpha_i\)\(\alpha_i - \alpha_k\)\(\sum_{i=1}^{a} d_i\bar{y_i}\)(对于 \(\sum_{i=1}^{a} d_i = 0\))是 \(\bar{y_i}, \bar{y_i} - \bar{y_k}\)\(\sum_{i=1}^{a} d_i\bar{y_i}\)。注意,它们不依赖于 \(z\)

4. 施加唯一解的条件

在单因素方差分析模型 \(y_{ij} = \mu + \alpha_i + e_{ij}, \quad j = 1, \ldots, N_{ij}, \quad i = 1, \ldots, a\) 中,我们通常会对正态方程的解施加条件,以便获得特别方便的解。这些条件的常见选择包括:

  1. \(\alpha_a = 0\)\(\alpha_1 = 0\)
  2. \(\sum_{i} \alpha_i = 0\)
  3. \(\sum_{i} n_i \alpha_i = 0\)

一个普遍性的问题是:

我们是否总能施加一组条件以获得唯一解?

我们将研究以下设置。写出 \(X\) 的秩为 \(r\)。假设条件采取形式 \(Cb = 0\),其中 \(C \in \mathbb{R}^{p \times p}\)\(s = p - r\),而\(\text{rank}(C) = s\)。结合这些条件,我们考虑增广的线性方程组:

\[\begin{pmatrix} X'X & C \\ \end{pmatrix} b = \begin{pmatrix} X'y \\ 0 \end{pmatrix}。 \]

根据推论 3.10,我们可以改为考虑:

\[\begin{pmatrix} X' & C \\ \end{pmatrix} b = \begin{pmatrix} P_Xy \\ 0 \end{pmatrix}。 \]

唯一解的重要标准是左侧的秩必须为 \(p\)。否则,我们可以选择一个非零向量从零空间中取出,并将其添加到解中形成另一个解。换句话说,我们必须确保:

\[C \left( X' C^T \right) = \mathbb{R}^p. \tag{4.1} \]

显然,如果 \(C(C^T) \cap N(C^T) \neq \{0\}\),则 \(\text{dim}(C(C^T)) < p\),因为 \(s = p - r\)。因此,我们希望 \(C(C^T) \cap N(C^T) = \{0\}\),这意味着对于每个非零向量 \(a \in \mathbb{R}^s\)\(C^T a \notin C(X^T)\)

这暗示着,为了构造唯一解的 \(C\),我们需要找到 \(s = p - r\) 条线性无关的行,且每一个对应一个不可估计的函数。

示例 4 (Monahan (2008) 的示例 3.7)

再次考虑单因素方差分析模型。假设 \(a = 3\)\(n_i = n\) 对于所有 \(i = 1, 2, 3\)(平衡情况)。那么 \(C(X^T)\) 的基向量为:

\[\begin{pmatrix} 1 \\ 1 \\ 0 \end{pmatrix}, \quad \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}, \quad \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}. \]

请考虑约束向量:

\[C^T = \begin{pmatrix} 0 \\ 1 \\ 1 \\ 1 \end{pmatrix}. \]

显然,\(C^T\) 不是可估计的,因为它与 \(N(X) = \text{span}\{[1, -1, -1, -1]^T\}\) 垂直(如前面的例子所推导的)。同时 \(s = 1 = 4 - 3 = p - r\)

回顾确保 \(\text{rank}([X', C^T]) = p\) 时,我们需要 \(C\) 满足:

\[\text{rank}(C) = p - r \tag{4.2} \]

\[C(C^T) \cap C(X^T) = \{0\} \tag{4.3} \]

现在我们需要证明这些条件足以使系统 (4.1) 一致。更进一步,我们将直接显示有唯一解。

引理 4.10
系统 (4.1) 与以下系统等价:

\[\begin{pmatrix} X'X & C \\ C^T & 0 \end{pmatrix} b = \begin{pmatrix} X'y \\ 0 \end{pmatrix}. \tag{4.4} \]

证明
根据引理 3.1,\(Cb = 0\) 意味着 \(b \in N(C) = N(C^TC)\),因此 \(C^TCb = 0\) 意味着 \(Cb = 0\)。因此,(4.1) 与 (4.4) 等价。

引理 4.11
假设 \(C\) 满足 (4.3)。则系统 (4.4) 与以下系统等价:

\[(X'X + C^TC) b = X'y \tag{4.5} \]

证明
注意到 (4.4) 意味着 (4.5)。剩下的就是证明 (4.5) 意味着 (4.4)。注意到 (4.5) 意味着

\[C^Tb = X'y - Xb \]

左边属于 \(C(C^T)\),而右边属于 \(C(X^T)\)。根据 (4.3),\(C^TC = 0\)。因此,(4.5) 意味着 (4.4)。

推论 4.12

假设 \(C\) 满足 (4.2) 和 (4.3)。那么:

  1. \((X'X + C'C)\) 是非奇异的。
  2. \((X'X + C'C)^{-1}X'y\)\(X'Xb = X'y\)\(Cb = 0\) 的唯一解。
  3. \((X'X + C'C)^{-1}\)\(X'X\) 的广义逆。
  4. \(C(X'X + C'C)^{-1}X^T = 0\)
  5. \(C(X'X + C'C)^{-1}C^T = I.\)(作业)

证明

(i) 由于 (4.2) 和 (4.3),\(\text{rank}([X', C^T]) = p\)。因此,根据引理 3.1,

\[\mathbb{R}^p = C([X', C^T]) = C\left(\begin{pmatrix} X' \\ C^T \end{pmatrix} \begin{pmatrix} X \\ C \end{pmatrix}\right) = C(X'X + C'C), \]

这意味着 \(X'X + C'C\)\(p \times p\) 矩阵,是非奇异的。

(ii) 这由 (i) 以及引理 4.10 和 4.11 推出。

(iii) (由 (ii) 推导)

\[X'y = X'X (X'X + C'C)^{-1}X'y。 \]

因此,\(X'X(X'X + C'C)^{-1} = X'\),所以 \(X'X(X'X + C'C)^{-1}X = X'\),完成证明。

(iv) (由 (ii) 推导)

\[C(X'X + C'C)^{-1}X'y = 0 \text{ 对所有 } y。 \]

这意味着 \(C(X'X + C'C)^{-1}X^T = 0\)

(v) 【注意:作业 3.22:提示:设置**

\[Z = \begin{pmatrix} X \\ C \end{pmatrix} \]

并找出幂等矩阵 \(P_Z\),然后使用 (iii) 和 (iv)。设 \(Z = \begin{pmatrix} X \\ C \end{pmatrix}\)

根据引理 3.7 和定理 2.15,\(C(Z)\) 的投影矩阵为:

\[Z(Z'Z)^{-1}Z' = Z(X'X + C'C)^{-1}Z' = \begin{pmatrix} X(X'X + C'C)^{-1}X' & 0_{s,N} \\ 0_{N,s} & C(X'X + C'C)^{-1}C^T \end{pmatrix} = \begin{pmatrix} P_X & 0_{s,N} \\ 0_{N,s} & C(X'X + C'C)^{-1}C^T \end{pmatrix}, \]

根据 (iii) 和 (iv)。因为 \(\text{rank}(C) = s\),所以存在 \(a_1, \ldots, a_s \in \mathbb{R}^p\) 使得

\[Z a_j = \begin{pmatrix} X a_j \\ e_j \end{pmatrix} \in C(Z)。 \]

其中 \(e_j\)\(\mathbb{R}^s\) 的第 \(j\) 个标准向量。也就是说,\(e_j\) 的第 \(j\) 项为 1,其余为 0。由于投影的性质,

\[Z(Z'Z)^{-1}Z' (Za_j) = Za_j。 \]

对于 \(j = 1, \ldots, s\),这意味着

\[C(X'X + C'C)^{-1}C e_j = e_j。 \]

因此,对于 \(j = 1, \ldots, s\),这意味着 \(C(X'X + C'C)^{-1}C^T = I_s\)

示例 5 (Monahan (2008) 的示例 3.7 续)

我们假设示例 3 的设置。现在,

\[X'X + C'C = \begin{pmatrix} 3n & n & n & n \\ n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n & 0 \\ 0 & 0 & 0 & n \end{pmatrix} + \begin{pmatrix} 0 & 0 & 0 & 0 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \end{pmatrix} = \begin{pmatrix} 3n & n & n & n \\ n & n + 1 & 1 & 1 \\ n & 1 & n + 1 & 1 \\ n & 1 & 1 & n + 1 \end{pmatrix}. \]

其逆为:

\[\frac{1}{9n} \begin{pmatrix} 3 + n & -n & -n & -n \\ -n & n + 6 & n - 3 & n - 3 \\ -n & n - 3 & n + 6 & n - 3 \\ -n & n - 3 & n - 3 & n + 6 \end{pmatrix}. \]

因此,

\[C(X'X + C'C)^{-1} = \begin{pmatrix} -\frac{1}{3} & \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \end{pmatrix}. \]

现在可以验证推论 4.12 的 (iii) 和 (iv)。

5. 约束参数空间

观察 \(y\) 的期望为 \(Xb\),其中 \(b \in T\)(而不是 \(\mathbb{R}^p\)):

\[T = \{ b \in \mathbb{R}^p : P^Tb = \delta \}, \]

其中 \(P \in \mathbb{R}^{p \times q}\) 具有满秩,\(\delta \in C(P^T)\)(这保证了系统的一致性 \(P^Tb = \delta\))。我们将假设在本节中 \(P\)\(\delta\) 的这些条件。与前面的部分不同,我们现在考虑可估计和不可估计的约束。我们的兴趣在于研究约束如何影响可估计性,以及如何获得约束最小二乘估计量。

定义 4.13

函数 $ \lambda'b $ 在受限模型 \(T\) 中是可估计的,当且仅当存在 \(c\)\(a\) 使得 \(E(c + a'y) = \lambda'b\) 对所有满足 \(P^tb = \delta\)\(b\) 成立。

注意,如果 \(\lambda'b\) 在不受限模型中是可估计的,那么它对所有 \(b \in \mathbb{R}^p\) 具有线性无偏估计量,并且在受限模型中是可估计的。

定理 4.14

\((c + a'y)\)\(\lambda'b\) 的无偏估计量,当且仅当存在 \(s\) 使得 \(\lambda = X^Ta + Pd\)\(c = d'\delta\)

证明
(⇐) 假设存在 \(s\) 使得 \(\lambda = X^Ta + Pd\),且 \(c = d'\delta\)。因此,

\[E(c + a'y) = d'\delta + a'Xb = d'(\delta - P^Tb) + \lambda'b \text{ 对于 } b \in T。 \]

(⇒) 假设 \((c + a'y)\)\(\lambda'b\) 的无偏估计量,对于所有 \(b \in T\)。首先,\(P^b = \delta\) 是一致的,因此解的形式为:

\[(P^T)^{-1}\delta + (I - (P^T)^{-1}P^T)z$$, 对于所有 $z$。因此, \]

c + a'X[(PT)\delta + (I - (PT)P^T)z] = a'Xb = \lambda'(PT)\delta + (I - (PT)P^T)z

\[ 对于所有 $z$。因此, \]

c + a'X[(PT)\delta] = \lambda'(PT)\delta + (I - (PT)P^T)z=0

\[ 对于所有 $z$。因此 $c + (a'X - \lambda')(P^T)^{-1}\delta = 0$,且 $(a'X - \lambda')$ 是 $0$,故 $(a'X - \lambda')$ 在 $N(W)$ 中是投影。因此,有 $C(W) = N(P^T)$。第二个 $(a'X - \lambda')W = 0$ 意味着 $X^Ta - \lambda = C(P)$。因此,存在 $s$ 使得 $\lambda = X^Ta + Pd$。 接下来,我们考虑 $c + a'Xb = \lambda'b$ 和 $c + a'X(X^Ta + Pd) = d'\delta$。这意味着 $P^Tb = \delta$。 ## 最优估计量的获得 为获得估计量,我们再次尝试最小化 $Q(b) = ||y - Xb||^2$。由于有约束,我们应该只在 $T$ 上最小化。我们可以采用拉格朗日乘数法。在这种情况下,拉格朗日函数为: \]

L(b, \theta) = ||y - Xb||^2 + 2\theta'(P^Tb - \delta)。

\[ (这里的 2 是为了记号上的方便;人们总是可以用 $2 \theta$ 替代 $ \theta$。)为了找到拉格朗日函数的驻点,我们使用导数: \]

\frac{\partial L(b, \theta)}{\partial b} = -2X^T(y - Xb) + 2P\theta

\[ \]

\frac{\partial L(b, \theta)}{\partial \theta} = 2(P^Tb - \delta)。

\[ 设置这些为零,我们获得限制的正常方程: \]

\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
b \
\theta
\end{pmatrix} = \begin{pmatrix}
X'y \
\delta
\end{pmatrix}。

\[ ## 定理 4.15 受限的正常方程是一致的。 **证明** 首先,由于方程 $P^Tb = \delta$ 是一致的,$\delta \in C(P^T)$。因此, \]

\begin{pmatrix}
X'y \
\delta
\end{pmatrix} \in C\left( \begin{pmatrix} X^T & 0 \ 0 & P^T \end{pmatrix} \right)。

\[ 现在,我们考虑一个向量 $v = [v_1, v_2]^T \in \mathbb{R}^{p+q}$,它在受限正常方程矩阵的零空间中。也就是说, \]

\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
v_1 \
v_2
\end{pmatrix} = \begin{pmatrix}
0 \
0
\end{pmatrix}。

\[ 然后我们得到: \]

X'Xv_1 + Pv_2 = 0

\[ \]

P^Tv_1 = 0。

\[ 第一个方程意味着: \]

v_1'X'Xv_1 + v_1'Pv_2 = 0。

\[ 根据第二个方程,我们得到 $Xv_1 = 0$,这意味着 $v_1 \in N(X)$ 和 $v_2 \in N(P)$。因此, \]

N\left( \begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \right) \subseteq N\left( \begin{pmatrix}
X^T & 0 \
0 & P
\end{pmatrix} \right)。

\[ --- ## 定理 4.16 如果 $\hat{b}_H$ 是受限正常方程解的第一个分量,则 $\hat{b}_H$ 最小化 $Q(b)$ 在受限参数空间 $T$ 上。 **证明** 设 $\tilde{b}$ 是满足 $P^T\tilde{b} = \delta$ 的任意向量。现在,写作: \]

Q(\tilde{b}) = ||y - X\tilde{b}||^2 = ||y - X\hat{b}_H + X(\tilde{b} - \hat{b}_H)||^2
= Q(\hat{b}_H) + ||X(\tilde{b} - \hat{b}_H)||^2,

\[ 由于交叉项为 $2(\tilde{b} - \hat{b}_H)'X(y - X\hat{b}_H) = 2(\tilde{b} - \hat{b}_H)'P\hat{\theta}_H$,其中 $\hat{\theta}_H$ 是受限正常方程解的第二个分量。但 $P^T\hat{b}_H = P^T\tilde{b} = \delta$,因此交叉项为零。 现在, \]

Q(\tilde{b}) \geq Q(\hat{b}_H) \text{ 对于所有 } \tilde{b} \text{ 满足 } P^T\tilde{b} = \delta,\text{ 当且仅当 } X\hat{b}_H = X\tilde{b}。

\[ --- ## 定理 4.17 设 $\hat{b}_H$ 为受限正常方程解的第一个分量。$\tilde{b}$ 满足 $P^T\tilde{b} = \delta$ 和 $Q(b) = Q(\hat{b}_H)$ 当且仅当 $\tilde{b}$ 也是受限正常方程的一个解。 **证明** **(⇒)**:根据上一个定理,$Q(\hat{b}_H) = Q(\tilde{b})$ 当且仅当 $X\hat{b}_H = X\tilde{b}$。因此,我们有 $X\hat{b}_H = X\tilde{b}$,设定 $\hat{\theta}$ 为受限正常方程解的第二个分量。再设 $\hat{\theta}$ 为另一受限正常方程解的第二个分量。因此, \]

X'X\hat{b}_H + P\hat{\theta} = X'y。

\[ 显然,$P^T\hat{b} = \delta$。因此,$\tilde{b}$ 也是受限正常方程的一个解。 **(⇐)**:设 $(\tilde{b}, \tilde{\theta})$ 为受限正常方程的解。从方程中,$P^T\tilde{b} = \delta$。根据定理 4.16,$\tilde{b}$ 和 $\hat{b}_H$ 是优化 $Q$ 的最小值,因此 $Q(\tilde{b}) = Q(\hat{b}_H)$。\]

posted @ 2025-03-03 10:13  某宇_My  阅读(23)  评论(0)    收藏  举报
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/