统计模型与推断II 课程2

1 线性代数回顾

详见A.1&A.2部分。

  • 内积 $ \langle u,v \rangle = u^T v = \sum_i u_i v_i $ 。
  • 欧几里得范数 或 $ \ell_2 $ -范数:$ |v|_2 = \sqrt{v^T v} $ 。
  • 向量 $ { v_j, j \in S } $ 的线性张成:$ L(v_j, j \in S) = { \sum_j c_j v_j : c_j \in \mathbb{R} } $ 。
  • 从 $ \mathbb{R}^n $ 到子空间 $ V = L(v_j, j \in S) $ 的正交投影:

    \[P(y|V) = \arg \min_{v \in V} \|y - v\|_2^2。 \]

  • 子空间 $ V $ 的正交补:

    \[V^\perp = \{ u : P(u|V) = 0 \}。 \]

  • 协方差算子:

    \[\text{Cov}(U, W) = E[U(W - E[W])^T], \quad \text{Var}(U) = \text{Cov}(U, U)。 \]

  • 二次型(作业):如果 $ \epsilon $ 的均值为 $ \mu $ 且方差为 $ \Sigma $,则

    \[E[\epsilon^T \Lambda \epsilon] = \mu^T \Lambda \mu + \text{Tr}(\Sigma \Lambda)。 \]

2 广义逆

2.1 动机:最小二乘问题

假设我们给定响应向量 $ y \in \mathbb{R}^N $ 和设计矩阵 $ X \in \mathbb{R}^{N \times p} $ 。设 $ b \in \mathbb{R}^p $ 为固定但未知的参数。在没有进一步假设的情况下,我们总是可以写成:

\[y = Xb + (y - Xb) = Xb + e, \]

如果我们定义 $ e = y - Xb $,那么这与一般线性模型有什么不同?

从逼近的角度来看,最小化一种“逼近误差”形式是有意义的。选择此类误差度量的一个选项是平方距离:

\[Q(b) = (y - Xb)^T(y - Xb) = \|y - Xb\|^2 \]

最小化 \(Q\) 的解称为最小二乘解(估计量)。写作

\[\frac{\partial Q}{\partial b} = \begin{bmatrix} \frac{\partial Q}{\partial b_1} \\ \vdots \\ \frac{\partial Q}{\partial b_p} \end{bmatrix} \]

当梯度向量 $ \frac{\partial Q}{\partial b} $ 被设置为0时,\(Q\) 达到最小值。虽然你可以通过求解梯度微分来得到矩阵-向量微分公式,但我们将使用已知的矩阵-向量微分公式来推导梯度。

引理 2.1

对于任意 $ a \in \mathbb{R}^p $ 和 $ A \in \mathbb{R}^{p \times p} $,

(i) $ \frac{\partial a^T x}{\partial x} = a $

(ii) $ \frac{\partial x^T A x}{\partial x} = (A + A^T) x $

应用引理 2.1:

\[\frac{\partial Q}{\partial b} = 2 X^T X b - 2 X^T y. \]

通过求解 $ \frac{\partial Q}{\partial b} = 0 $,我们得到常规方程:

\[X^T X b = X^T y \]

我们将从线性方程组的角度来研究它。

2.2 广义逆

为了研究常规方程,重要的是要对求解线性方程组有一个一般的理解:

\[Ax = c, \]

其中 \(x \in \mathbb{R}^n\)\(c \in \mathbb{R}^m\)\(A \in \mathbb{R}^{m \times n}\) 。如果 \(A\) 是非奇异的(这也意味着 \(m = n\)),则其逆 \(A^{-1}\) 存在,因此 \(x = A^{-1}c\) 是唯一解。在这一类中,\(A\) 不总是非奇异的。为了仍然能够系统地研究常规方程,我们引入了广义逆。

定义 2.2

矩阵 \(A\) 的广义逆是任何满足 \(AGA = A\) 的矩阵 \(G\)

定理 2.3

对于任意矩阵 \(A\),存在非奇异矩阵 \(P\)\(Q\) 使得

\[A = P \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} Q, \]

(2.1)

其中 \(D\) 是一个非奇异的 \(r \times r\) 对角矩阵,且 \(r = \text{rank}(A)\) 。矩阵

\[G = Q^{-1} \begin{bmatrix} D^{-1} & F \\ H & B \end{bmatrix} P^{-1}, \]

其中 \(F\)\(H\)\(B\) 是适当维度的任意矩阵,满足 \(AGA = A\)

定理 2.3 表明,任意矩阵 \(A\) 都有广义逆,且除非 \(A\) 是非奇异的,\(A\) 可能有无穷多个广义逆。如果 \(A\) 是非奇异的,它有唯一的广义逆,即 \(A^{-1}\) 。此外,定理 2.3 提示了一种计算广义逆的方法,该方法给定了分解(2.1)后。一个特殊且有用的情况称为奇异值分解(SVD)。

定理 2.4 (SVD)

对于任意矩阵 \(A \in \mathbb{R}^{m \times n}\),若其秩为 \(r\),则存在 \(U_1 \in \mathbb{R}^{m \times r}\)\(U_2 \in \mathbb{R}^{m \times (m - r)}\)\(D_1 \in \mathbb{R}^{r \times r}\)\(V_1 \in \mathbb{R}^{n \times r}\)\(V_2 \in \mathbb{R}^{n \times (n - r)}\),使得

\[A = U \tilde{D} V^T := [U_1 \, U_2] \begin{bmatrix} D & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} V_1 & V_2 \end{bmatrix}^T \]

其中 \(U^T U = I_m\)\(V^T V = I_n\),且 \(D = \text{diag}\{d_1, \dots, d_r\}\),并且 \(d_1 \geq d_2 \geq \cdots \geq d_r > 0\)

注意,SVD 并不是唯一的。例如,可以将 \(U\)\(V\) 分别替换为 \(-U\)\(-V\) 。有趣的是,可以很容易地验证 \(G = V D^+ U^T\) 满足 \(AGA = A\),无论是直接通过定理 2.3,还是通过 SVD 来得到。

显然,如果 \(A = 0_{m,n}\),那么 \(V \tilde{D}^+ U^T = 0_{n,m}\) 。否则,\(V \tilde{D}^+ U^T = V_1 D^{-1} U_1^T\),这更易于计算。

由于 SVD 在大多数线性代数包中都有实现,因此可以直接应用 SVD 来获得广义逆的版本 \(G = V D^+ U^T\) 。例如,R 语言中的函数 ginv() 就应用了 SVD 来计算广义逆:

library(MASS)
A <- matrix(1:9, nr=3, nc=3)

Ai <- ginv(A)
A %*% Ai %*% A  # 验证

res <- svd(A)  # 化简形式
Ai2 <- res$u %*% diag(1/res$d) %*% t(res$v)  # 计算广义逆
A %*% Ai2 %*% A  # 验证

2.3 Moore-Penrose 广义逆

定理 2.5

对于任意矩阵 \(A\),存在唯一的矩阵 \(A^+\),满足以下四个性质:

(i) \(AA^+A = A\)

(ii) \(A^+AA^+ = A^+\)

(iii) \(A^+A\) 是对称的

(iv) \(AA^+\) 是对称的

满足上述四个性质的矩阵 \(A^+\) 称为 \(A\) 的 Moore-Penrose 广义逆。你可以验证我们上面对 $ \tilde{D}^+ $ 的定义确实是 $ \tilde{D} $ 的 Moore-Penrose 广义逆。注意,证明表明 \(A^+\) 可以通过 SVD 来计算,这与我们之前讨论的广义逆相吻合。

2.4 投影矩阵

我不打算涵盖线性代数的基础知识。你可以参考Monahan(2008)的附录A.1-2进行快速复习。这里我将列出一些重要的定义和结果。你可以在Monahan(2008)中找到相关的证明。

定义 2.6

矩阵 \(A\) 的秩 $ \text{rank}(A) $ 是其独立行或列的数量。其列空间 $ C(A) $ 定义为由 \(A\) 的列所张成的向量空间。即:

\[\{ x : \text{存在向量 } c \text{ 使得 } x = Ac \} \]

它的零空间 $ N(A) $ 定义为空间 $ { x : Ax = 0 } $ 。向量空间 \(V\) 的维度 $ \text{dim}(V) $ 是 \(V\) 基的向量数目。

定理 2.7

(Monahan 2008年,定理A.1) 如果 $ A \in \mathbb{R}^{m \times n} $,则

\[\text{dim}(N(A)) + \text{dim}(C(A)) = n。 \]

定义 2.8

两个向量空间 $ V $ 和 $ S $ 被称为在 $ \mathbb{R}^m $ 中的正交补,如果且仅如果 $ V, S \subseteq \mathbb{R}^m $ ,$ V \cap S = { 0 } $ ,且对于任意 $ v \in V, s \in S $ 有 $ v^T s = 0 $ 。

定理 2.9

(Monahan 2008年,结果A.4) 如果 $ V $ 和 $ S $ 是 $ \mathbb{R}^m $ 中的正交补,则任意向量 $ x \in \mathbb{R}^m $ 可以表示为:

\[x = v + s \]

其中 $ v \in V, s \in S $,且该分解是唯一的。

定理 2.10

(Monahan 2008年,结果A.5)如果 $ A \in \mathbb{R}^{m \times n} $,则 $ C(A) $ 和 $ N(A^T) $ 是 $ \mathbb{R}^m $ 的正交补。

定理 2.11

(Monahan 2008年,结果A.6)设 \(V_1\)\(S_1\) 是正交补,并且 \(V_2\)\(S_2\) 也是正交补。如果 \(V_1 \subseteq V_2\),则 \(S_2 \subseteq S_1\)

定义 2.12

一个方阵 \(P\) 被称为幂等矩阵,当且仅当 \(P^2 = P\)

定义 2.13

一个方阵 \(P\) 被称为是投影矩阵,投影到向量空间 \(V\) 上,当且仅当:

(i) \(P\) 是幂等的。

(ii) 对于任何 \(x\)\(Px \in V\)

(iii) 对于任何 \(x \in V\)\(Px = x\)

推论 2.14

任何幂等矩阵都是投影到其列空间 \(C(P)\) 上的投影矩阵。

定理 2.15

\(AA^{-}\) 是投影到 \(C(A)\) 上的投影。

显然,\(AA^{-}\) 并不是唯一的投影到 \(C(A)\) 上的投影矩阵,因为可能存在 \(A^{-}\) 的不唯一性。现在,我们使用投影的概念来理解解的几何形状。回想一下,对于一致的系统 \(Ax = c\),解的通用形式为 \(x = A^{-}c + (I - AA^{-})z\),其中 \(z\) 为任意向量。注意到 \(A(I - AA^{-})z = 0\),因为 \(A(I - AA^{-}) = 0\) 。也就是说,\((I - AA^{-})z \in N(A)\) 对于任意的 \(z\) 。这并不巧合,下面的定理确实显示了 \(I - AA^{-}\) 是投影到 \(N(A)\) 上的投影。

定理 2.16

\(I - AA^{-}\) 是投影到 \(N(A)\) 上的投影矩阵。

示例 1

考虑矩阵 $ A = [1, 1]^T $ 。因此,$ C(A) $ 包含了所有在直线 $ y = x $ 上的点,即通过原点的斜率为1的直线。

为了找到一个广义逆 $ G = [u, v] $,我们利用以下性质:

\[AGA = A \]

这导致 $ v = 1 - u $ 。因此,$ G_u = [u, 1 - u] $ 是矩阵 $ A $ 的广义逆,对于任意的 $ u $ 。定理 2.15 表明,$ AG_u $ 是投影到 $ C(A) $ 上。举个例子,设 $ x = [2, 1]^T $ :

\[AG_0 x = \begin{bmatrix} 0 & 1 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \end{bmatrix} \in C(A) \]

\[AG_1 x = \begin{bmatrix} 1 & 0 \\ 1 & 0 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} = \begin{bmatrix} 2 \\ 2 \end{bmatrix} \in C(A) \]

引理 2.17 (作业)

如果 \(Ax = Bx\) 对所有 \(x\) 都成立,则 \(A = B\)

引理 2.18 (作业)

对于任意矩阵 \(X\),如果 \(\text{trace}(X^T X) = 0\),则 \(X = 0\)

定理 2.19 (作业)

一个对称且幂等的矩阵 \(P\),如果它投影到向量空间 \(V\) 上,则它是唯一的。

这个唯一的投影矩阵与正交投影有密切关系。

推论 2.20

假设 \(P\) 是对称且幂等的矩阵,投影到 \(V\) 上。则 \(I - P\) 是一个投影到 \(V\) 的正交补的对称且幂等的投影矩阵。

显然,唯一的对称投影矩阵是非常理想的,因为它是一个正交投影。通过之前的探索,我们知道 \(AA^{-}\) 是一个投影到 \(C(A)\) 上的投影矩阵。那么,是否有办法得到唯一的对称投影矩阵到 \(C(A)\) 上呢?根据定理 2.19,我们可以尝试找到一个 \(A^{-}\),使得 \(AA^{-}\) 是对称的。而 Moore-Penrose 广义逆可以达到这个目的。

推论 2.21

\(AA^{-}\) 是唯一的对称投影矩阵,投影到其 \(C(A)\) 上。

\(U \tilde{D} V^T\) 为矩阵 \(A\) 的 SVD,如定理 2.4 所述,\(AA^{+} = U \tilde{D} V^T V \tilde{D}^{+} U^T = U_1 U_1^T\),这个可以用来计算 \(AA^{+}\)

示例 2(示例 1 继续)

通过计算机程序 $ A^+ = [0.5, 0.5]^T $ 。根据推论 2.21,$ AA^+ $ 是投影到 $ C(A) $ 上的唯一对称投影矩阵。

为了验证,

\[AA^+ = \begin{bmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{bmatrix} \]

确实是一个对称矩阵。现在,设 $ x = [2, 1]^T $,则

\[AA^+ x = \begin{bmatrix} 1.5 \\ 1.5 \end{bmatrix} \]

这表示 $ x $ 投影到直线 $ y = x $ 上的正交投影。

作业

A.2, A.3, A.5, A.6, A.9

posted @ 2025-02-19 13:17  某宇_My  阅读(65)  评论(0)    收藏  举报
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/