统计模型与推断II-notes4
SKX804 统计模型与推断 II
笔记 4: 可估计性与最小二乘估计量
书籍参考: Monahan (2008)
讲师: Sai Li 和 Kejun He
最后更新: 2025年2月
1. 动机
回顾 \(b\) 的最小二乘估计量为:
当 \(rank(X) < p\) 时,可能存在无限多个解。(这是因为 \(I - (X'X)^{-1}(X'X)\) 是对 \(N(X)\) 的投影。)因此,如果我们对某个特定的 \(b_0\) 感兴趣,无论我们有多少样本,恢复它都是徒劳的。
当 \(rank(X) < p\) 时,我们感兴趣的是哪些 \(b\) 的函数是有意义的估计。特别地,在这笔记中,我们将研究哪些线性函数是可估计的。
2. 模型
在前面的笔记中,我们是从一个近似的观点出发的。现在,我们充分利用一般线性模型的形式:
其中:
- \(y\) 是响应向量
- \(X\) 是已知的设计矩阵
- \(b\) 是未知但固定的系数向量
- \(e\) 是误差向量,且有 \(E(e) = 0\)(假设)
这意味着 \(E(y) = Xb\)(线性均值模型)。
3. 可估计性
参数函数的可估计性对应于存在一个线性无偏估计量。
定义 4.1 (无偏估计量)
估计量 \(t(y)\) 是一个无偏估计量,如果且仅如果 \(E(t(y)) = \lambda'b\) 对所有 \(b\) 成立。
定义 4.2 (线性估计量)
估计量 \(t(y)\) 是一个线性估计量,当且仅当 \(t(y) = c + a^Ty\) 对某些 \(c\) 和 \(a\) 成立。
定义 4.3 (线性可估计函数)
线性可估计的函数是指具有线性无偏估计量的函数。
定义 4.4 (可识别性)
令 \(\mathcal{P} = \{P_\theta : \theta \in \Theta\}\) 为一个参数空间为 \(\Theta\) 的统计模型。我们说 \(\mathcal{P}\) 是“可识别的”,如果映射 \(\theta \mapsto P_\theta\) 是一对一的:
一般而言,线性估计量将采用形式 \(c + a^Ty\) 的形式,对于某些 \(c\) 和 \(a\)。然而,在我们的上下文中,我们可以将焦点限制在形式 \(a^Ty\)。
这是因为,如果一个需求无偏性:
因此,\(c\) 必须为零,因为我们可以取 \(b = 0\)。因此,在这个上下文中,包含 \(c\) 或不包含 \(c\) 并没有区别。
推论 4.5 (结果 3.1)
函数 \(\psi = \lambda'b\) 是线性可估计的当且仅当存在如此关系 \(E(a^Ty) = \lambda'b\) 对所有 \(b\),或者 \(\lambda^T = a^TX\)。
在这门课中,我们将称线性可估计函数为可估计的简写。如果该函数不是(线性)可估计的,我们称其为不可估计。经典问题是:
是什么使 \(\lambda \in \mathbb{R}^p\) 使得 \(\psi = \lambda'b\) 可估计?
示例 1 (例 3.1; 不可估计)
假设我们希望估计 \(\alpha_1\)。那么对于 \(b = (\mu, \alpha_1, \alpha_2)^T\) 和 \(\lambda = (0, 1, 0)^T\),我们有 \(\alpha_1 = \lambda'b\)。我们尝试找到一个解决方案,使得:
没有解决方案存在。
定理 4.6
设 \(G\) 是 \(X\) 的广义逆。在一般线性模型 \(y = Xb + e\) 中,其中 \(E(e) = 0\),以下条件是等价的:
- \(\psi = \lambda'b\) 是(线性)可估计的。
- \(\lambda^T = a^TX\) 对某个 \(a\) 成立。
- \(\lambda^T = \lambda'GX\)。
用更通俗的话来说,这个结果表明特定的函数 \(\lambda'b\) 是可估计的,当且仅当它等于观察值的线性组合的期望值。
证明
(i) \(\iff\) (ii)
\(\psi\) 是可估计的 \(\iff\) 存在一个这样的 \(a\) 使得 \(E(a^Ty) = a^TXb = \lambda'b\)(由于 \(E(e) = 0\))
\(\iff\) \((a^TX - \lambda^T)b = 0 \text{ 对任意的 } b\)
\(\iff\) \(a^TX = \lambda^T\)
(ii) \(\Rightarrow\) (iii)
\(\lambda^T = a^TX \Rightarrow \lambda^TGX = a^TXGX = a^TX\)
(iii) \(\Rightarrow\) (i)
\(\lambda^T = \lambda'GX \Rightarrow \lambda^T = a^TX\),通过取 \(a^T = \lambda'G\)。
注意到(ii)等价于 \(\lambda \in C(X^T)\)。
如果在(iii)中使用摩尔-彭罗斯伪逆,则有 \(X^+X\),这是 \(C(X^T)\) 上的一个对称投影。由于 \(X'X\) 的对称性,(iii)变为 \(\lambda = X^+X\lambda\)。换句话说,这要求 \(\lambda\) 在 \(C(X^T)\) 中。
\(\psi = \lambda'b\) 的可估计性可以通过以下方式进行检验:
- 构造一个简单的无偏线性估计量 \(a^Ty\)。
- 代数方式证明 \(\lambda^T = \lambda'GX\) 对于广义逆 \(G\) 的 \(X\)。常用的选择是 \(G = X^+\),它可以通过 \(X\) 的奇异值分解(SVD)获得。
- 将 \(\lambda'b\) 表示为 \(E(y_i)\) 的线性组合,其中 \(y_i\) 是 \(y\) 的第 \(i\) 项。
- 显示 \(\lambda \in C(X^T)\)。这可以通过证明 \(\lambda\) 是 \(C(X^T)\) 的一个基的线性组合,或验证 \(\lambda\) 垂直于 \(N(X)\) 的每一个基向量来实现。
考虑单因素方差分析模型:
其中 \(E(e_{ij}) = 0\)。如果我们按 \(i\) 对 \(y_{ij}\) 进行排序,然后按 \(j\) 排成 \(y\),则
注意到 \(N = \sum_{i=1}^{a} n_i, \quad p = a + 1\) 并且 \(rank(X) = a\)。因此,\(N(X)\) 的维数为 1。\(N(X)\) 的一个基向量是:
方法 4:任意与 \(v\) 正交的 \(\lambda\) 导致可估计的函数。换句话说,\(\lambda'b = \lambda_0\mu + \sum_{i=1}^{a} \lambda_i\alpha_i\) 是可估计的,当且仅当 \(\lambda_0 - \sum_{i=1}^{a} \lambda_i = 0\)。以下是一些示例:
- \(\mu + \alpha_i\)
- \(\alpha_i - \alpha_k\)
- \(\sum_{i=1}^{a} d_i\alpha_i\) 如果 \(\sum_{i=1}^{a} d_i = 0\)。
方法 3:\(E[y_{1,j}] = \mu + \alpha_1\) 和 \(E[y_{1,j} - y_{3,j}] = \alpha_1 - \alpha_3\)。
定义 4.7 (定义 3.4)
对于任意函数 \(\psi = \lambda'b\),我们称 \(\hat{\psi} = \lambda'\hat{b}\) 为 \(b\) 的最小二乘估计量。
定理 4.8 (结果 3.2)
假设 \(\hat{b}\) 是任意 \(b\) 的最小二乘估计量。函数 \(\psi = \lambda'b\) 具有独特的最小二乘估计量 \(\hat{\psi} = \lambda'b\),当且仅当 \(\psi\) 是(线性)可估计的。
证明
\(\Leftarrow\) : 假设 \(\psi\) 是可估计的。根据定理 4.6,我们可以写 \(\lambda^T = a^TX\) 对某个 \(a\)。我们知道,对于任意 \(z\),
现在,
由于定理 3.9 及其讨论。
{\(\Rightarrow\)}: 假设 \(\hat{\psi} = \lambda'\hat{b}\) 对于每一个 \(\hat{b}\) 是唯一的。我们有 \(\lambda^T(I - (X'X)^{-1}(X'X))z = 0 \text{ 对所有 } z\)。这意味着 \(\lambda^T = \lambda'(X'X)^{-1}(X'X) = a^TX\),通过取 \(a^T = \lambda'(X'X)^{-1}X^T\)。根据定理 4.6,这完成了证明。
定理 4.9 (结果 3.3)
最小二乘估计量 \(\lambda'\hat{b}\) 是(线性)可估计函数 \(\lambda'b\) 的线性无偏估计量。
证明
根据定理 4.8,\(\lambda'\hat{b} = \lambda'X^+y\) 显然是线性估计量。根据定理 4.6,有:
因此它是无偏的。
示例 3 单因素方差分析
我们将为这些可估计函数写下最小二乘估计量:
- \(\mu + \alpha_i\)
- \(\alpha_i - \alpha_k\)
- \(\sum_{i=1}^{a} d_i\alpha_i \text{ 如果 } \sum_{i=1}^{a} d_i = 0\)。
首先,
对于任意 \(z\),其中 \(\bar{y_j} = \sum_{i=1}^{n_j}y_{ij}/n_j\)。\(\mu + \alpha_i\)、\(\alpha_i - \alpha_k\) 和 \(\sum_{i=1}^{a} d_i\bar{y_i}\)(对于 \(\sum_{i=1}^{a} d_i = 0\))是 \(\bar{y_i}, \bar{y_i} - \bar{y_k}\) 和 \(\sum_{i=1}^{a} d_i\bar{y_i}\)。注意,它们不依赖于 \(z\)。
4. 施加唯一解的条件
在单因素方差分析模型 \(y_{ij} = \mu + \alpha_i + e_{ij}, \quad j = 1, \ldots, N_{ij}, \quad i = 1, \ldots, a\) 中,我们通常会对正态方程的解施加条件,以便获得特别方便的解。这些条件的常见选择包括:
- \(\alpha_a = 0\) 或 \(\alpha_1 = 0\)。
- \(\sum_{i} \alpha_i = 0\)。
- \(\sum_{i} n_i \alpha_i = 0\)。
一个普遍性的问题是:
我们是否总能施加一组条件以获得唯一解?
我们将研究以下设置。写出 \(X\) 的秩为 \(r\)。假设条件采取形式 \(Cb = 0\),其中 \(C \in \mathbb{R}^{p \times p}\),\(s = p - r\),而\(\text{rank}(C) = s\)。结合这些条件,我们考虑增广的线性方程组:
根据推论 3.10,我们可以改为考虑:
唯一解的重要标准是左侧的秩必须为 \(p\)。否则,我们可以选择一个非零向量从零空间中取出,并将其添加到解中形成另一个解。换句话说,我们必须确保:
显然,如果 \(C(C^T) \cap N(C^T) \neq \{0\}\),则 \(\text{dim}(C(C^T)) < p\),因为 \(s = p - r\)。因此,我们希望 \(C(C^T) \cap N(C^T) = \{0\}\),这意味着对于每个非零向量 \(a \in \mathbb{R}^s\),\(C^T a \notin C(X^T)\)。
这暗示着,为了构造唯一解的 \(C\),我们需要找到 \(s = p - r\) 条线性无关的行,且每一个对应一个不可估计的函数。
示例 4 (Monahan (2008) 的示例 3.7)
再次考虑单因素方差分析模型。假设 \(a = 3\) 且 \(n_i = n\) 对于所有 \(i = 1, 2, 3\)(平衡情况)。那么 \(C(X^T)\) 的基向量为:
请考虑约束向量:
显然,\(C^T\) 不是可估计的,因为它与 \(N(X) = \text{span}\{[1, -1, -1, -1]^T\}\) 垂直(如前面的例子所推导的)。同时 \(s = 1 = 4 - 3 = p - r\)。
回顾确保 \(\text{rank}([X', C^T]) = p\) 时,我们需要 \(C\) 满足:
现在我们需要证明这些条件足以使系统 (4.1) 一致。更进一步,我们将直接显示有唯一解。
引理 4.10
系统 (4.1) 与以下系统等价:
证明
根据引理 3.1,\(Cb = 0\) 意味着 \(b \in N(C) = N(C^TC)\),因此 \(C^TCb = 0\) 意味着 \(Cb = 0\)。因此,(4.1) 与 (4.4) 等价。
引理 4.11
假设 \(C\) 满足 (4.3)。则系统 (4.4) 与以下系统等价:
证明
注意到 (4.4) 意味着 (4.5)。剩下的就是证明 (4.5) 意味着 (4.4)。注意到 (4.5) 意味着
左边属于 \(C(C^T)\),而右边属于 \(C(X^T)\)。根据 (4.3),\(C^TC = 0\)。因此,(4.5) 意味着 (4.4)。
推论 4.12
假设 \(C\) 满足 (4.2) 和 (4.3)。那么:
- \((X'X + C'C)\) 是非奇异的。
- \((X'X + C'C)^{-1}X'y\) 是 \(X'Xb = X'y\) 和 \(Cb = 0\) 的唯一解。
- \((X'X + C'C)^{-1}\) 是 \(X'X\) 的广义逆。
- \(C(X'X + C'C)^{-1}X^T = 0\)。
- \(C(X'X + C'C)^{-1}C^T = I.\)(作业)
证明
(i) 由于 (4.2) 和 (4.3),\(\text{rank}([X', C^T]) = p\)。因此,根据引理 3.1,
这意味着 \(X'X + C'C\) 为 \(p \times p\) 矩阵,是非奇异的。
(ii) 这由 (i) 以及引理 4.10 和 4.11 推出。
(iii) (由 (ii) 推导)
因此,\(X'X(X'X + C'C)^{-1} = X'\),所以 \(X'X(X'X + C'C)^{-1}X = X'\),完成证明。
(iv) (由 (ii) 推导)
这意味着 \(C(X'X + C'C)^{-1}X^T = 0\)。
(v) 【注意:作业 3.22:提示:设置**
并找出幂等矩阵 \(P_Z\),然后使用 (iii) 和 (iv)。设 \(Z = \begin{pmatrix} X \\ C \end{pmatrix}\)。
根据引理 3.7 和定理 2.15,\(C(Z)\) 的投影矩阵为:
根据 (iii) 和 (iv)。因为 \(\text{rank}(C) = s\),所以存在 \(a_1, \ldots, a_s \in \mathbb{R}^p\) 使得
其中 \(e_j\) 是 \(\mathbb{R}^s\) 的第 \(j\) 个标准向量。也就是说,\(e_j\) 的第 \(j\) 项为 1,其余为 0。由于投影的性质,
对于 \(j = 1, \ldots, s\),这意味着
因此,对于 \(j = 1, \ldots, s\),这意味着 \(C(X'X + C'C)^{-1}C^T = I_s\)。
示例 5 (Monahan (2008) 的示例 3.7 续)
我们假设示例 3 的设置。现在,
其逆为:
因此,
现在可以验证推论 4.12 的 (iii) 和 (iv)。
5. 约束参数空间
观察 \(y\) 的期望为 \(Xb\),其中 \(b \in T\)(而不是 \(\mathbb{R}^p\)):
其中 \(P \in \mathbb{R}^{p \times q}\) 具有满秩,\(\delta \in C(P^T)\)(这保证了系统的一致性 \(P^Tb = \delta\))。我们将假设在本节中 \(P\) 和 \(\delta\) 的这些条件。与前面的部分不同,我们现在考虑可估计和不可估计的约束。我们的兴趣在于研究约束如何影响可估计性,以及如何获得约束最小二乘估计量。
定义 4.13
函数 $ \lambda'b $ 在受限模型 \(T\) 中是可估计的,当且仅当存在 \(c\) 和 \(a\) 使得 \(E(c + a'y) = \lambda'b\) 对所有满足 \(P^tb = \delta\) 的 \(b\) 成立。
注意,如果 \(\lambda'b\) 在不受限模型中是可估计的,那么它对所有 \(b \in \mathbb{R}^p\) 具有线性无偏估计量,并且在受限模型中是可估计的。
定理 4.14
\((c + a'y)\) 是 \(\lambda'b\) 的无偏估计量,当且仅当存在 \(s\) 使得 \(\lambda = X^Ta + Pd\) 和 \(c = d'\delta\)。
证明
(⇐) 假设存在 \(s\) 使得 \(\lambda = X^Ta + Pd\),且 \(c = d'\delta\)。因此,
(⇒) 假设 \((c + a'y)\) 是 \(\lambda'b\) 的无偏估计量,对于所有 \(b \in T\)。首先,\(P^b = \delta\) 是一致的,因此解的形式为:
c + a'X[(PT)\delta + (I - (PT)P^T)z] = a'Xb = \lambda'(PT)\delta + (I - (PT)P^T)z
c + a'X[(PT)\delta] = \lambda'(PT)\delta + (I - (PT)P^T)z=0
L(b, \theta) = ||y - Xb||^2 + 2\theta'(P^Tb - \delta)。
\frac{\partial L(b, \theta)}{\partial b} = -2X^T(y - Xb) + 2P\theta
\frac{\partial L(b, \theta)}{\partial \theta} = 2(P^Tb - \delta)。
\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
b \
\theta
\end{pmatrix} = \begin{pmatrix}
X'y \
\delta
\end{pmatrix}。
\begin{pmatrix}
X'y \
\delta
\end{pmatrix} \in C\left( \begin{pmatrix} X^T & 0 \ 0 & P^T \end{pmatrix} \right)。
\begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \begin{pmatrix}
v_1 \
v_2
\end{pmatrix} = \begin{pmatrix}
0 \
0
\end{pmatrix}。
X'Xv_1 + Pv_2 = 0
P^Tv_1 = 0。
v_1'X'Xv_1 + v_1'Pv_2 = 0。
N\left( \begin{pmatrix}
X'X & P \
P^T & 0
\end{pmatrix} \right) \subseteq N\left( \begin{pmatrix}
X^T & 0 \
0 & P
\end{pmatrix} \right)。
Q(\tilde{b}) = ||y - X\tilde{b}||^2 = ||y - X\hat{b}_H + X(\tilde{b} - \hat{b}_H)||^2
= Q(\hat{b}_H) + ||X(\tilde{b} - \hat{b}_H)||^2,
Q(\tilde{b}) \geq Q(\hat{b}_H) \text{ 对于所有 } \tilde{b} \text{ 满足 } P^T\tilde{b} = \delta,\text{ 当且仅当 } X\hat{b}_H = X\tilde{b}。
X'X\hat{b}_H + P\hat{\theta} = X'y。

浙公网安备 33010602011771号