统计模型与推断II 课程2
1 线性代数回顾
详见A.1&A.2部分。
- 内积 $ \langle u,v \rangle = u^T v = \sum_i u_i v_i $ 。
- 欧几里得范数 或 $ \ell_2 $ -范数:$ |v|_2 = \sqrt{v^T v} $ 。
- 向量 $ { v_j, j \in S } $ 的线性张成:$ L(v_j, j \in S) = { \sum_j c_j v_j : c_j \in \mathbb{R} } $ 。
- 从 $ \mathbb{R}^n $ 到子空间 $ V = L(v_j, j \in S) $ 的正交投影:\[P(y|V) = \arg \min_{v \in V} \|y - v\|_2^2。 \]
- 子空间 $ V $ 的正交补:\[V^\perp = \{ u : P(u|V) = 0 \}。 \]
- 协方差算子:\[\text{Cov}(U, W) = E[U(W - E[W])^T], \quad \text{Var}(U) = \text{Cov}(U, U)。 \]
- 二次型(作业):如果 $ \epsilon $ 的均值为 $ \mu $ 且方差为 $ \Sigma $,则\[E[\epsilon^T \Lambda \epsilon] = \mu^T \Lambda \mu + \text{Tr}(\Sigma \Lambda)。 \]
2 广义逆
2.1 动机:最小二乘问题
假设我们给定响应向量 $ y \in \mathbb{R}^N $ 和设计矩阵 $ X \in \mathbb{R}^{N \times p} $ 。设 $ b \in \mathbb{R}^p $ 为固定但未知的参数。在没有进一步假设的情况下,我们总是可以写成:
如果我们定义 $ e = y - Xb $,那么这与一般线性模型有什么不同?
从逼近的角度来看,最小化一种“逼近误差”形式是有意义的。选择此类误差度量的一个选项是平方距离:
最小化 \(Q\) 的解称为最小二乘解(估计量)。写作
当梯度向量 $ \frac{\partial Q}{\partial b} $ 被设置为0时,\(Q\) 达到最小值。虽然你可以通过求解梯度微分来得到矩阵-向量微分公式,但我们将使用已知的矩阵-向量微分公式来推导梯度。
引理 2.1
对于任意 $ a \in \mathbb{R}^p $ 和 $ A \in \mathbb{R}^{p \times p} $,
(i) $ \frac{\partial a^T x}{\partial x} = a $
(ii) $ \frac{\partial x^T A x}{\partial x} = (A + A^T) x $
应用引理 2.1:
通过求解 $ \frac{\partial Q}{\partial b} = 0 $,我们得到常规方程:
我们将从线性方程组的角度来研究它。
2.2 广义逆
为了研究常规方程,重要的是要对求解线性方程组有一个一般的理解:
其中 \(x \in \mathbb{R}^n\),\(c \in \mathbb{R}^m\),\(A \in \mathbb{R}^{m \times n}\) 。如果 \(A\) 是非奇异的(这也意味着 \(m = n\)),则其逆 \(A^{-1}\) 存在,因此 \(x = A^{-1}c\) 是唯一解。在这一类中,\(A\) 不总是非奇异的。为了仍然能够系统地研究常规方程,我们引入了广义逆。
定义 2.2
矩阵 \(A\) 的广义逆是任何满足 \(AGA = A\) 的矩阵 \(G\) 。
定理 2.3
对于任意矩阵 \(A\),存在非奇异矩阵 \(P\) 和 \(Q\) 使得
(2.1)
其中 \(D\) 是一个非奇异的 \(r \times r\) 对角矩阵,且 \(r = \text{rank}(A)\) 。矩阵
其中 \(F\)、\(H\) 和 \(B\) 是适当维度的任意矩阵,满足 \(AGA = A\) 。
定理 2.3 表明,任意矩阵 \(A\) 都有广义逆,且除非 \(A\) 是非奇异的,\(A\) 可能有无穷多个广义逆。如果 \(A\) 是非奇异的,它有唯一的广义逆,即 \(A^{-1}\) 。此外,定理 2.3 提示了一种计算广义逆的方法,该方法给定了分解(2.1)后。一个特殊且有用的情况称为奇异值分解(SVD)。
定理 2.4 (SVD)
对于任意矩阵 \(A \in \mathbb{R}^{m \times n}\),若其秩为 \(r\),则存在 \(U_1 \in \mathbb{R}^{m \times r}\)、\(U_2 \in \mathbb{R}^{m \times (m - r)}\)、\(D_1 \in \mathbb{R}^{r \times r}\) 和 \(V_1 \in \mathbb{R}^{n \times r}\),\(V_2 \in \mathbb{R}^{n \times (n - r)}\),使得
其中 \(U^T U = I_m\),\(V^T V = I_n\),且 \(D = \text{diag}\{d_1, \dots, d_r\}\),并且 \(d_1 \geq d_2 \geq \cdots \geq d_r > 0\) 。
注意,SVD 并不是唯一的。例如,可以将 \(U\) 和 \(V\) 分别替换为 \(-U\) 和 \(-V\) 。有趣的是,可以很容易地验证 \(G = V D^+ U^T\) 满足 \(AGA = A\),无论是直接通过定理 2.3,还是通过 SVD 来得到。
显然,如果 \(A = 0_{m,n}\),那么 \(V \tilde{D}^+ U^T = 0_{n,m}\) 。否则,\(V \tilde{D}^+ U^T = V_1 D^{-1} U_1^T\),这更易于计算。
由于 SVD 在大多数线性代数包中都有实现,因此可以直接应用 SVD 来获得广义逆的版本 \(G = V D^+ U^T\) 。例如,R 语言中的函数 ginv() 就应用了 SVD 来计算广义逆:
library(MASS)
A <- matrix(1:9, nr=3, nc=3)
Ai <- ginv(A)
A %*% Ai %*% A # 验证
res <- svd(A) # 化简形式
Ai2 <- res$u %*% diag(1/res$d) %*% t(res$v) # 计算广义逆
A %*% Ai2 %*% A # 验证
2.3 Moore-Penrose 广义逆
定理 2.5
对于任意矩阵 \(A\),存在唯一的矩阵 \(A^+\),满足以下四个性质:
(i) \(AA^+A = A\)
(ii) \(A^+AA^+ = A^+\)
(iii) \(A^+A\) 是对称的
(iv) \(AA^+\) 是对称的
满足上述四个性质的矩阵 \(A^+\) 称为 \(A\) 的 Moore-Penrose 广义逆。你可以验证我们上面对 $ \tilde{D}^+ $ 的定义确实是 $ \tilde{D} $ 的 Moore-Penrose 广义逆。注意,证明表明 \(A^+\) 可以通过 SVD 来计算,这与我们之前讨论的广义逆相吻合。
2.4 投影矩阵
我不打算涵盖线性代数的基础知识。你可以参考Monahan(2008)的附录A.1-2进行快速复习。这里我将列出一些重要的定义和结果。你可以在Monahan(2008)中找到相关的证明。
定义 2.6
矩阵 \(A\) 的秩 $ \text{rank}(A) $ 是其独立行或列的数量。其列空间 $ C(A) $ 定义为由 \(A\) 的列所张成的向量空间。即:
它的零空间 $ N(A) $ 定义为空间 $ { x : Ax = 0 } $ 。向量空间 \(V\) 的维度 $ \text{dim}(V) $ 是 \(V\) 基的向量数目。
定理 2.7
(Monahan 2008年,定理A.1) 如果 $ A \in \mathbb{R}^{m \times n} $,则
定义 2.8
两个向量空间 $ V $ 和 $ S $ 被称为在 $ \mathbb{R}^m $ 中的正交补,如果且仅如果 $ V, S \subseteq \mathbb{R}^m $ ,$ V \cap S = { 0 } $ ,且对于任意 $ v \in V, s \in S $ 有 $ v^T s = 0 $ 。
定理 2.9
(Monahan 2008年,结果A.4) 如果 $ V $ 和 $ S $ 是 $ \mathbb{R}^m $ 中的正交补,则任意向量 $ x \in \mathbb{R}^m $ 可以表示为:
其中 $ v \in V, s \in S $,且该分解是唯一的。
定理 2.10
(Monahan 2008年,结果A.5)如果 $ A \in \mathbb{R}^{m \times n} $,则 $ C(A) $ 和 $ N(A^T) $ 是 $ \mathbb{R}^m $ 的正交补。
定理 2.11
(Monahan 2008年,结果A.6)设 \(V_1\) 和 \(S_1\) 是正交补,并且 \(V_2\) 和 \(S_2\) 也是正交补。如果 \(V_1 \subseteq V_2\),则 \(S_2 \subseteq S_1\) 。
定义 2.12
一个方阵 \(P\) 被称为幂等矩阵,当且仅当 \(P^2 = P\) 。
定义 2.13
一个方阵 \(P\) 被称为是投影矩阵,投影到向量空间 \(V\) 上,当且仅当:
(i) \(P\) 是幂等的。
(ii) 对于任何 \(x\),\(Px \in V\) 。
(iii) 对于任何 \(x \in V\),\(Px = x\) 。
推论 2.14
任何幂等矩阵都是投影到其列空间 \(C(P)\) 上的投影矩阵。
定理 2.15
\(AA^{-}\) 是投影到 \(C(A)\) 上的投影。
显然,\(AA^{-}\) 并不是唯一的投影到 \(C(A)\) 上的投影矩阵,因为可能存在 \(A^{-}\) 的不唯一性。现在,我们使用投影的概念来理解解的几何形状。回想一下,对于一致的系统 \(Ax = c\),解的通用形式为 \(x = A^{-}c + (I - AA^{-})z\),其中 \(z\) 为任意向量。注意到 \(A(I - AA^{-})z = 0\),因为 \(A(I - AA^{-}) = 0\) 。也就是说,\((I - AA^{-})z \in N(A)\) 对于任意的 \(z\) 。这并不巧合,下面的定理确实显示了 \(I - AA^{-}\) 是投影到 \(N(A)\) 上的投影。
定理 2.16
\(I - AA^{-}\) 是投影到 \(N(A)\) 上的投影矩阵。
示例 1
考虑矩阵 $ A = [1, 1]^T $ 。因此,$ C(A) $ 包含了所有在直线 $ y = x $ 上的点,即通过原点的斜率为1的直线。
为了找到一个广义逆 $ G = [u, v] $,我们利用以下性质:
这导致 $ v = 1 - u $ 。因此,$ G_u = [u, 1 - u] $ 是矩阵 $ A $ 的广义逆,对于任意的 $ u $ 。定理 2.15 表明,$ AG_u $ 是投影到 $ C(A) $ 上。举个例子,设 $ x = [2, 1]^T $ :
引理 2.17 (作业)
如果 \(Ax = Bx\) 对所有 \(x\) 都成立,则 \(A = B\) 。
引理 2.18 (作业)
对于任意矩阵 \(X\),如果 \(\text{trace}(X^T X) = 0\),则 \(X = 0\) 。
定理 2.19 (作业)
一个对称且幂等的矩阵 \(P\),如果它投影到向量空间 \(V\) 上,则它是唯一的。
这个唯一的投影矩阵与正交投影有密切关系。
推论 2.20
假设 \(P\) 是对称且幂等的矩阵,投影到 \(V\) 上。则 \(I - P\) 是一个投影到 \(V\) 的正交补的对称且幂等的投影矩阵。
显然,唯一的对称投影矩阵是非常理想的,因为它是一个正交投影。通过之前的探索,我们知道 \(AA^{-}\) 是一个投影到 \(C(A)\) 上的投影矩阵。那么,是否有办法得到唯一的对称投影矩阵到 \(C(A)\) 上呢?根据定理 2.19,我们可以尝试找到一个 \(A^{-}\),使得 \(AA^{-}\) 是对称的。而 Moore-Penrose 广义逆可以达到这个目的。
推论 2.21
\(AA^{-}\) 是唯一的对称投影矩阵,投影到其 \(C(A)\) 上。
令 \(U \tilde{D} V^T\) 为矩阵 \(A\) 的 SVD,如定理 2.4 所述,\(AA^{+} = U \tilde{D} V^T V \tilde{D}^{+} U^T = U_1 U_1^T\),这个可以用来计算 \(AA^{+}\) 。
示例 2(示例 1 继续)
通过计算机程序 $ A^+ = [0.5, 0.5]^T $ 。根据推论 2.21,$ AA^+ $ 是投影到 $ C(A) $ 上的唯一对称投影矩阵。
为了验证,
确实是一个对称矩阵。现在,设 $ x = [2, 1]^T $,则
这表示 $ x $ 投影到直线 $ y = x $ 上的正交投影。
作业
A.2, A.3, A.5, A.6, A.9

浙公网安备 33010602011771号