统计模型与推断II-notes4

SKX804 统计模型与推断 II

笔记 4: 可估计性与最小二乘估计量

书籍参考: Monahan (2008)
讲师: Sai Li 和 Kejun He
最后更新: 2025年2月

1. 动机

回顾 $b$ 的最小二乘估计量为：

\[\hat{b} = (X'X)^{-1}X'y + [I - (X'X)^{-1}(X'X)]z, \quad \text{对于任意 } z \in \mathbb{R}^p \]

当 $rank(X) < p$ 时，可能存在无限多个解。（这是因为 $I - (X'X)^{-1}(X'X)$ 是对 $N(X)$ 的投影。）因此，如果我们对某个特定的 $b_0$ 感兴趣，无论我们有多少样本，恢复它都是徒劳的。

当 $rank(X) < p$ 时，我们感兴趣的是哪些 $b$ 的函数是有意义的估计。特别地，在这笔记中，我们将研究哪些线性函数是可估计的。

2. 模型

在前面的笔记中，我们是从一个近似的观点出发的。现在，我们充分利用一般线性模型的形式：

\[y = Xb + e \]

其中：

$y$ 是响应向量
$X$ 是已知的设计矩阵
$b$ 是未知但固定的系数向量
$e$ 是误差向量，且有 $E(e) = 0$（假设）

这意味着 $E(y) = Xb$（线性均值模型）。

3. 可估计性

参数函数的可估计性对应于存在一个线性无偏估计量。

定义 4.1 (无偏估计量)
估计量 $t(y)$ 是一个无偏估计量，如果且仅如果 $E(t(y)) = \lambda'b$ 对所有 $b$ 成立。

定义 4.2 (线性估计量)
估计量 $t(y)$ 是一个线性估计量，当且仅当 $t(y) = c + a^Ty$ 对某些 $c$ 和 $a$ 成立。

定义 4.3 (线性可估计函数)
线性可估计的函数是指具有线性无偏估计量的函数。

定义 4.4 (可识别性)
令 $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ 为一个参数空间为 $\Theta$ 的统计模型。我们说 $\mathcal{P}$ 是“可识别的”，如果映射 $\theta \mapsto P_\theta$ 是一对一的：

\[P_{\theta_1} = P_{\theta_2} \Rightarrow \theta_1 = \theta_2 \quad \text{对于所有 } \theta_1, \theta_2 \in \Theta. \]

一般而言，线性估计量将采用形式 $c + a^Ty$ 的形式，对于某些 $c$ 和 $a$。然而，在我们的上下文中，我们可以将焦点限制在形式 $a^Ty$。

这是因为，如果一个需求无偏性：

\[E(c + a^Ty) = c + a^TXb = \lambda'b \quad \text{对于所有 } b. \]

因此，$c$ 必须为零，因为我们可以取 $b = 0$。因此，在这个上下文中，包含 $c$ 或不包含 $c$ 并没有区别。

推论 4.5 (结果 3.1)
函数 $\psi = \lambda'b$ 是线性可估计的当且仅当存在如此关系 $E(a^Ty) = \lambda'b$ 对所有 $b$，或者 $\lambda^T = a^TX$。

在这门课中，我们将称线性可估计函数为可估计的简写。如果该函数不是（线性）可估计的，我们称其为不可估计。经典问题是：

是什么使 $\lambda \in \mathbb{R}^p$ 使得 $\psi = \lambda'b$ 可估计？

示例 1 (例 3.1; 不可估计)

\[E[y_{i,j}] = \mu + \alpha_i, \quad i = 1, 2; \quad j = 1, 2. \]

假设我们希望估计 $\alpha_1$。那么对于 $b = (\mu, \alpha_1, \alpha_2)^T$ 和 $\lambda = (0, 1, 0)^T$，我们有 $\alpha_1 = \lambda'b$。我们尝试找到一个解决方案，使得：

\[X^Ta = \lambda \iff \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 0 & 0 \\ 0 & 0 & 1 & 1 \end{pmatrix} a = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix}. \]

没有解决方案存在。

定理 4.6
设 $G$ 是 $X$ 的广义逆。在一般线性模型 $y = Xb + e$ 中，其中 $E(e) = 0$，以下条件是等价的：

$\psi = \lambda'b$ 是（线性）可估计的。
$\lambda^T = a^TX$ 对某个 $a$ 成立。
$\lambda^T = \lambda'GX$。

用更通俗的话来说，这个结果表明特定的函数 $\lambda'b$ 是可估计的，当且仅当它等于观察值的线性组合的期望值。

证明

(i) $\iff$ (ii)
$\psi$ 是可估计的 $\iff$ 存在一个这样的 $a$ 使得 $E(a^Ty) = a^TXb = \lambda'b$（由于 $E(e) = 0$）
$\iff$ $(a^TX - \lambda^T)b = 0 \text{ 对任意的 } b$
$\iff$ $a^TX = \lambda^T$

(ii) $\Rightarrow$ (iii)
$\lambda^T = a^TX \Rightarrow \lambda^TGX = a^TXGX = a^TX$

(iii) $\Rightarrow$ (i)
$\lambda^T = \lambda'GX \Rightarrow \lambda^T = a^TX$，通过取 $a^T = \lambda'G$。

注意到（ii）等价于 $\lambda \in C(X^T)$。

如果在（iii）中使用摩尔-彭罗斯伪逆，则有 $X^+X$，这是 $C(X^T)$ 上的一个对称投影。由于 $X'X$ 的对称性，（iii）变为 $\lambda = X^+X\lambda$。换句话说，这要求 $\lambda$ 在 $C(X^T)$ 中。

$\psi = \lambda'b$ 的可估计性可以通过以下方式进行检验：

构造一个简单的无偏线性估计量 $a^Ty$。
代数方式证明 $\lambda^T = \lambda'GX$ 对于广义逆 $G$ 的 $X$。常用的选择是 $G = X^+$，它可以通过 $X$ 的奇异值分解（SVD）获得。
将 $\lambda'b$ 表示为 $E(y_i)$ 的线性组合，其中 $y_i$ 是 $y$ 的第 $i$ 项。
显示 $\lambda \in C(X^T)$。这可以通过证明 $\lambda$ 是 $C(X^T)$ 的一个基的线性组合，或验证 $\lambda$ 垂直于 $N(X)$ 的每一个基向量来实现。

考虑单因素方差分析模型：

\[y_{ij} = \mu + \alpha_i + e_{ij} \quad j = 1, \ldots, n_j, \quad i = 1, \ldots, a, \]

其中 $E(e_{ij}) = 0$。如果我们按 $i$ 对 $y_{ij}$ 进行排序，然后按 $j$ 排成 $y$，则

\[X = \begin{pmatrix} 1_{n_1} & 1_{n_1} & \cdots & 0 \\ n_2 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1_{n_a} \end{pmatrix}, \quad b = \begin{pmatrix} \mu \\ \alpha_1 \\ \vdots \\ \alpha_a \end{pmatrix}. \]

注意到 $N = \sum_{i=1}^{a} n_i, \quad p = a + 1$ 并且 $rank(X) = a$。因此，$N(X)$ 的维数为 1。$N(X)$ 的一个基向量是：

\[v = \begin{pmatrix} 1 \\ -1 \\ \vdots \\ -1 \end{pmatrix}. \]

方法 4：任意与 $v$ 正交的 $\lambda$ 导致可估计的函数。换句话说，$\lambda'b = \lambda_0\mu + \sum_{i=1}^{a} \lambda_i\alpha_i$ 是可估计的，当且仅当 $\lambda_0 - \sum_{i=1}^{a} \lambda_i = 0$。以下是一些示例：

$\mu + \alpha_i$
$\alpha_i - \alpha_k$
$\sum_{i=1}^{a} d_i\alpha_i$ 如果 $\sum_{i=1}^{a} d_i = 0$。

方法 3：$E[y_{1,j}] = \mu + \alpha_1$ 和 $E[y_{1,j} - y_{3,j}] = \alpha_1 - \alpha_3$。

定义 4.7 (定义 3.4)
对于任意函数 $\psi = \lambda'b$，我们称 $\hat{\psi} = \lambda'\hat{b}$ 为 $b$ 的最小二乘估计量。

定理 4.8 (结果 3.2)
假设 $\hat{b}$ 是任意 $b$ 的最小二乘估计量。函数 $\psi = \lambda'b$ 具有独特的最小二乘估计量 $\hat{\psi} = \lambda'b$，当且仅当 $\psi$ 是（线性）可估计的。

证明

$\Leftarrow$ : 假设 $\psi$ 是可估计的。根据定理 4.6，我们可以写 $\lambda^T = a^TX$ 对某个 $a$。我们知道，对于任意 $z$，

\[\hat{b} = (X'X)^{-1}X'y + [I - (X'X)^{-1}(X'X)]z。 \]

现在，

\[\hat{\psi} = \lambda'\hat{b} = \lambda'[(X'X)^{-1}X'y + (I - (X'X)^{-1}(X'X)]z = a^TX(X'X)^{-1}X'y + a^T[X' - (X'X)^{-1}(X'X)]z = a^TPx + a^T(X - Px)z = a^TPx'y = a^TXX^+y = \lambda'\hat{b}, \]

由于定理 3.9 及其讨论。

{$\Rightarrow$}: 假设 $\hat{\psi} = \lambda'\hat{b}$ 对于每一个 $\hat{b}$ 是唯一的。我们有 $\lambda^T(I - (X'X)^{-1}(X'X))z = 0 \text{ 对所有 } z$。这意味着 $\lambda^T = \lambda'(X'X)^{-1}(X'X) = a^TX$，通过取 $a^T = \lambda'(X'X)^{-1}X^T$。根据定理 4.6，这完成了证明。

定理 4.9 (结果 3.3)
最小二乘估计量 $\lambda'\hat{b}$ 是（线性）可估计函数 $\lambda'b$ 的线性无偏估计量。

证明

根据定理 4.8，$\lambda'\hat{b} = \lambda'X^+y$ 显然是线性估计量。根据定理 4.6，有：

\[E(\lambda'X^+y) = \lambda'X^+b = \lambda'b, \]

因此它是无偏的。

示例 3 单因素方差分析

我们将为这些可估计函数写下最小二乘估计量：

$\mu + \alpha_i$
$\alpha_i - \alpha_k$
$\sum_{i=1}^{a} d_i\alpha_i \text{ 如果 } \sum_{i=1}^{a} d_i = 0$。

首先，

\[X'X = \begin{pmatrix} N & n_1 & n_2 & \cdots & n_a \\ n_1 & 0 & 0 & \cdots & 0 \\ n_2 & 0 & n_2 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ n_a & 0 & 0 & \cdots & n_a \end{pmatrix}, \quad (X'X)^{-1} = \begin{pmatrix} 0 & 0 & 0 & \cdots & 0 \\ 0 & 1/n_1 & 0 & \cdots & 0 \\ 0 & 0 & 1/n_2 & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & 1/n_a \end{pmatrix}, \]

对于任意 $z$，其中 $\bar{y_j} = \sum_{i=1}^{n_j}y_{ij}/n_j$。$\mu + \alpha_i$、$\alpha_i - \alpha_k$ 和 $\sum_{i=1}^{a} d_i\bar{y_i}$（对于 $\sum_{i=1}^{a} d_i = 0$）是 $\bar{y_i}, \bar{y_i} - \bar{y_k}$ 和 $\sum_{i=1}^{a} d_i\bar{y_i}$。注意，它们不依赖于 $z$。

4. 施加唯一解的条件

在单因素方差分析模型 $y_{ij} = \mu + \alpha_i + e_{ij}, \quad j = 1, \ldots, N_{ij}, \quad i = 1, \ldots, a$ 中，我们通常会对正态方程的解施加条件，以便获得特别方便的解。这些条件的常见选择包括：

$\alpha_a = 0$ 或 $\alpha_1 = 0$。
$\sum_{i} \alpha_i = 0$。
$\sum_{i} n_i \alpha_i = 0$。

一个普遍性的问题是：

我们是否总能施加一组条件以获得唯一解？

我们将研究以下设置。写出 $X$ 的秩为 $r$。假设条件采取形式 $Cb = 0$，其中 $C \in \mathbb{R}^{p \times p}$，$s = p - r$，而$\text{rank}(C) = s$。结合这些条件，我们考虑增广的线性方程组：

\[\begin{pmatrix} X'X & C \\ \end{pmatrix} b = \begin{pmatrix} X'y \\ 0 \end{pmatrix}。 \]

根据推论 3.10，我们可以改为考虑：

\[\begin{pmatrix} X' & C \\ \end{pmatrix} b = \begin{pmatrix} P_Xy \\ 0 \end{pmatrix}。 \]

唯一解的重要标准是左侧的秩必须为 $p$。否则，我们可以选择一个非零向量从零空间中取出，并将其添加到解中形成另一个解。换句话说，我们必须确保：

\[C \left( X' C^T \right) = \mathbb{R}^p. \tag{4.1} \]

显然，如果 $C(C^T) \cap N(C^T) \neq \{0\}$，则 $\text{dim}(C(C^T)) < p$，因为 $s = p - r$。因此，我们希望 $C(C^T) \cap N(C^T) = \{0\}$，这意味着对于每个非零向量 $a \in \mathbb{R}^s$，$C^T a \notin C(X^T)$。

这暗示着，为了构造唯一解的 $C$，我们需要找到 $s = p - r$ 条线性无关的行，且每一个对应一个不可估计的函数。

示例 4 (Monahan (2008) 的示例 3.7)

再次考虑单因素方差分析模型。假设 $a = 3$ 且 $n_i = n$ 对于所有 $i = 1, 2, 3$（平衡情况）。那么 $C(X^T)$ 的基向量为：

\[\begin{pmatrix} 1 \\ 1 \\ 0 \end{pmatrix}, \quad \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}, \quad \begin{pmatrix} 1 \\ 0 \\ 0 \end{pmatrix}. \]

请考虑约束向量：

\[C^T = \begin{pmatrix} 0 \\ 1 \\ 1 \\ 1 \end{pmatrix}. \]

显然，$C^T$ 不是可估计的，因为它与 $N(X) = \text{span}\{[1, -1, -1, -1]^T\}$ 垂直（如前面的例子所推导的）。同时 $s = 1 = 4 - 3 = p - r$。

回顾确保 $\text{rank}([X', C^T]) = p$ 时，我们需要 $C$ 满足：

\[\text{rank}(C) = p - r \tag{4.2} \]

\[C(C^T) \cap C(X^T) = \{0\} \tag{4.3} \]

现在我们需要证明这些条件足以使系统 (4.1) 一致。更进一步，我们将直接显示有唯一解。

引理 4.10
系统 (4.1) 与以下系统等价：

\[\begin{pmatrix} X'X & C \\ C^T & 0 \end{pmatrix} b = \begin{pmatrix} X'y \\ 0 \end{pmatrix}. \tag{4.4} \]

证明
根据引理 3.1，$Cb = 0$ 意味着 $b \in N(C) = N(C^TC)$，因此 $C^TCb = 0$ 意味着 $Cb = 0$。因此，(4.1) 与 (4.4) 等价。

引理 4.11
假设 $C$ 满足 (4.3)。则系统 (4.4) 与以下系统等价：

\[(X'X + C^TC) b = X'y \tag{4.5} \]

证明
注意到 (4.4) 意味着 (4.5)。剩下的就是证明 (4.5) 意味着 (4.4)。注意到 (4.5) 意味着

\[C^Tb = X'y - Xb \]

左边属于 $C(C^T)$，而右边属于 $C(X^T)$。根据 (4.3)，$C^TC = 0$。因此，(4.5) 意味着 (4.4)。

推论 4.12

假设 $C$ 满足 (4.2) 和 (4.3)。那么：

$(X'X + C'C)$ 是非奇异的。
$(X'X + C'C)^{-1}X'y$ 是 $X'Xb = X'y$ 和 $Cb = 0$ 的唯一解。
$(X'X + C'C)^{-1}$ 是 $X'X$ 的广义逆。
$C(X'X + C'C)^{-1}X^T = 0$。
$C(X'X + C'C)^{-1}C^T = I.$（作业）

证明

(i) 由于 (4.2) 和 (4.3)，$\text{rank}([X', C^T]) = p$。因此，根据引理 3.1，

\[\mathbb{R}^p = C([X', C^T]) = C\left(\begin{pmatrix} X' \\ C^T \end{pmatrix} \begin{pmatrix} X \\ C \end{pmatrix}\right) = C(X'X + C'C)， \]

这意味着 $X'X + C'C$ 为 $p \times p$ 矩阵，是非奇异的。

(ii) 这由 (i) 以及引理 4.10 和 4.11 推出。

(iii) （由 (ii) 推导）

\[X'y = X'X (X'X + C'C)^{-1}X'y。 \]

因此，$X'X(X'X + C'C)^{-1} = X'$，所以 $X'X(X'X + C'C)^{-1}X = X'$，完成证明。

(iv) （由 (ii) 推导）

\[C(X'X + C'C)^{-1}X'y = 0 \text{ 对所有 } y。 \]

这意味着 $C(X'X + C'C)^{-1}X^T = 0$。

(v) 【注意：作业 3.22：提示：设置**

\[Z = \begin{pmatrix} X \\ C \end{pmatrix} \]

并找出幂等矩阵 $P_Z$，然后使用 (iii) 和 (iv)。设 $Z = \begin{pmatrix} X \\ C \end{pmatrix}$。

根据引理 3.7 和定理 2.15，$C(Z)$ 的投影矩阵为：

\[Z(Z'Z)^{-1}Z' = Z(X'X + C'C)^{-1}Z' = \begin{pmatrix} X(X'X + C'C)^{-1}X' & 0_{s,N} \\ 0_{N,s} & C(X'X + C'C)^{-1}C^T \end{pmatrix} = \begin{pmatrix} P_X & 0_{s,N} \\ 0_{N,s} & C(X'X + C'C)^{-1}C^T \end{pmatrix}， \]

根据 (iii) 和 (iv)。因为 $\text{rank}(C) = s$，所以存在 $a_1, \ldots, a_s \in \mathbb{R}^p$ 使得

\[Z a_j = \begin{pmatrix} X a_j \\ e_j \end{pmatrix} \in C(Z)。 \]

其中 $e_j$ 是 $\mathbb{R}^s$ 的第 $j$ 个标准向量。也就是说，$e_j$ 的第 $j$ 项为 1，其余为 0。由于投影的性质，

\[Z(Z'Z)^{-1}Z' (Za_j) = Za_j。 \]

对于 $j = 1, \ldots, s$，这意味着

\[C(X'X + C'C)^{-1}C e_j = e_j。 \]

因此，对于 $j = 1, \ldots, s$，这意味着 $C(X'X + C'C)^{-1}C^T = I_s$。

示例 5 (Monahan (2008) 的示例 3.7 续)

我们假设示例 3 的设置。现在，

\[X'X + C'C = \begin{pmatrix} 3n & n & n & n \\ n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n & 0 \\ 0 & 0 & 0 & n \end{pmatrix} + \begin{pmatrix} 0 & 0 & 0 & 0 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \end{pmatrix} = \begin{pmatrix} 3n & n & n & n \\ n & n + 1 & 1 & 1 \\ n & 1 & n + 1 & 1 \\ n & 1 & 1 & n + 1 \end{pmatrix}. \]

其逆为：

\[\frac{1}{9n} \begin{pmatrix} 3 + n & -n & -n & -n \\ -n & n + 6 & n - 3 & n - 3 \\ -n & n - 3 & n + 6 & n - 3 \\ -n & n - 3 & n - 3 & n + 6 \end{pmatrix}. \]

因此，

\[C(X'X + C'C)^{-1} = \begin{pmatrix} -\frac{1}{3} & \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \end{pmatrix}. \]

现在可以验证推论 4.12 的 (iii) 和 (iv)。

5. 约束参数空间

观察 $y$ 的期望为 $Xb$，其中 $b \in T$（而不是 $\mathbb{R}^p$）：

\[T = \{ b \in \mathbb{R}^p : P^Tb = \delta \}， \]

其中 $P \in \mathbb{R}^{p \times q}$ 具有满秩，$\delta \in C(P^T)$（这保证了系统的一致性 $P^Tb = \delta$）。我们将假设在本节中 $P$ 和 $\delta$ 的这些条件。与前面的部分不同，我们现在考虑可估计和不可估计的约束。我们的兴趣在于研究约束如何影响可估计性，以及如何获得约束最小二乘估计量。

定义 4.13

函数 $ \lambda'b $ 在受限模型 $T$ 中是可估计的，当且仅当存在 $c$ 和 $a$ 使得 $E(c + a'y) = \lambda'b$ 对所有满足 $P^tb = \delta$ 的 $b$ 成立。

注意，如果 $\lambda'b$ 在不受限模型中是可估计的，那么它对所有 $b \in \mathbb{R}^p$ 具有线性无偏估计量，并且在受限模型中是可估计的。

定理 4.14

$(c + a'y)$ 是 $\lambda'b$ 的无偏估计量，当且仅当存在 $s$ 使得 $\lambda = X^Ta + Pd$ 和 $c = d'\delta$。

证明
（⇐） 假设存在 $s$ 使得 $\lambda = X^Ta + Pd$，且 $c = d'\delta$。因此，

\[E(c + a'y) = d'\delta + a'Xb = d'(\delta - P^Tb) + \lambda'b \text{ 对于 } b \in T。 \]

（⇒） 假设 $(c + a'y)$ 是 $\lambda'b$ 的无偏估计量，对于所有 $b \in T$。首先，$P^b = \delta$ 是一致的，因此解的形式为：

\[(P^T)^{-1}\delta + (I - (P^T)^{-1}P^T)z$$，对于所有 $z$。因此， \]

c + a'X[(P^T)\delta + (I - (P^T)P^T)z] = a'Xb = \lambda'(P^T)\delta + (I - (P^T)P^T)z

\[ 对于所有 $z$。因此， \]

c + a'X[(P^T)\delta] = \lambda'(P^T)\delta + (I - (P^T)P^T)z=0

\[ 对于所有 $z$。因此 $c + (a'X - \lambda')(P^T)^{-1}\delta = 0$，且 $(a'X - \lambda')$ 是 $0$，故 $(a'X - \lambda')$ 在 $N(W)$ 中是投影。因此，有 $C(W) = N(P^T)$。第二个 $(a'X - \lambda')W = 0$ 意味着 $X^Ta - \lambda = C(P)$。因此，存在 $s$ 使得 $\lambda = X^Ta + Pd$。接下来，我们考虑 $c + a'Xb = \lambda'b$ 和 $c + a'X(X^Ta + Pd) = d'\delta$。这意味着 $P^Tb = \delta$。 ## 最优估计量的获得为获得估计量，我们再次尝试最小化 $Q(b) = ||y - Xb||^2$。由于有约束，我们应该只在 $T$ 上最小化。我们可以采用拉格朗日乘数法。在这种情况下，拉格朗日函数为： \]

L(b, \theta) = ||y - Xb||^2 + 2\theta'(P^Tb - \delta)。

\[ （这里的 2 是为了记号上的方便；人们总是可以用 $2 \theta$ 替代 $ \theta$。）为了找到拉格朗日函数的驻点，我们使用导数： \]

\frac{\partial L(b, \theta)}{\partial b} = -2X^T(y - Xb) + 2P\theta

\[ \]

\frac{\partial L(b, \theta)}{\partial \theta} = 2(P^Tb - \delta)。

\[ 设置这些为零，我们获得限制的正常方程： \]

\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
b \
\theta
\end{pmatrix} = \begin{pmatrix}
X'y \
\delta
\end{pmatrix}。

\[ ## 定理 4.15 受限的正常方程是一致的。 **证明** 首先，由于方程 $P^Tb = \delta$ 是一致的，$\delta \in C(P^T)$。因此， \]

\begin{pmatrix}
X'y \
\delta
\end{pmatrix} \in C\left( \begin{pmatrix} X^T & 0 \ 0 & P^T \end{pmatrix} \right)。

\[ 现在，我们考虑一个向量 $v = [v_1, v_2]^T \in \mathbb{R}^{p+q}$，它在受限正常方程矩阵的零空间中。也就是说， \]

\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
v_1 \
v_2
\end{pmatrix} = \begin{pmatrix}
0 \
0
\end{pmatrix}。

\[ 然后我们得到： \]

X'Xv_1 + Pv_2 = 0

\[ \]

P^Tv_1 = 0。

\[ 第一个方程意味着： \]

v_1'X'Xv_1 + v_1'Pv_2 = 0。

\[ 根据第二个方程，我们得到 $Xv_1 = 0$，这意味着 $v_1 \in N(X)$ 和 $v_2 \in N(P)$。因此， \]

N\left( \begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \right) \subseteq N\left( \begin{pmatrix}
X^T & 0 \
0 & P
\end{pmatrix} \right)。

\[ --- ## 定理 4.16 如果 $\hat{b}_H$ 是受限正常方程解的第一个分量，则 $\hat{b}_H$ 最小化 $Q(b)$ 在受限参数空间 $T$ 上。 **证明** 设 $\tilde{b}$ 是满足 $P^T\tilde{b} = \delta$ 的任意向量。现在，写作： \]

Q(\tilde{b}) = ||y - X\tilde{b}||^2 = ||y - X\hat{b}_H + X(\tilde{b} - \hat{b}_H)||^2
= Q(\hat{b}_H) + ||X(\tilde{b} - \hat{b}_H)||^2，

\[ 由于交叉项为 $2(\tilde{b} - \hat{b}_H)'X(y - X\hat{b}_H) = 2(\tilde{b} - \hat{b}_H)'P\hat{\theta}_H$，其中 $\hat{\theta}_H$ 是受限正常方程解的第二个分量。但 $P^T\hat{b}_H = P^T\tilde{b} = \delta$，因此交叉项为零。现在， \]

Q(\tilde{b}) \geq Q(\hat{b}_H) \text{ 对于所有 } \tilde{b} \text{ 满足 } P^T\tilde{b} = \delta，\text{ 当且仅当 } X\hat{b}_H = X\tilde{b}。

\[ --- ## 定理 4.17 设 $\hat{b}_H$ 为受限正常方程解的第一个分量。$\tilde{b}$ 满足 $P^T\tilde{b} = \delta$ 和 $Q(b) = Q(\hat{b}_H)$ 当且仅当 $\tilde{b}$ 也是受限正常方程的一个解。 **证明** **（⇒）**：根据上一个定理，$Q(\hat{b}_H) = Q(\tilde{b})$ 当且仅当 $X\hat{b}_H = X\tilde{b}$。因此，我们有 $X\hat{b}_H = X\tilde{b}$，设定 $\hat{\theta}$ 为受限正常方程解的第二个分量。再设 $\hat{\theta}$ 为另一受限正常方程解的第二个分量。因此， \]

X'X\hat{b}_H + P\hat{\theta} = X'y。

\[ 显然，$P^T\hat{b} = \delta$。因此，$\tilde{b}$ 也是受限正常方程的一个解。 **（⇐）**：设 $(\tilde{b}, \tilde{\theta})$ 为受限正常方程的解。从方程中，$P^T\tilde{b} = \delta$。根据定理 4.16，$\tilde{b}$ 和 $\hat{b}_H$ 是优化 $Q$ 的最小值，因此 $Q(\tilde{b}) = Q(\hat{b}_H)$。\]

posted @ 2025-03-03 10:13 某宇_My 阅读(33) 评论(0) 收藏举报

刷新页面返回顶部

某宇_My