Introduction to Linear Algebra

第1章:向量介绍

1.1 向量与线性组合

向量加法:\(\mathbf{u} + \mathbf{v} =\begin{bmatrix} u_1 + v_1 \\ u_2 + v_2 \\ \vdots \\ u_n + v_n \end{bmatrix}\)
标量乘法:\(c\mathbf{v} =\begin{bmatrix} cv_1 \\ cv_2 \\ \vdots \\ cv_n \end{bmatrix}\)
线性组合:\(c\mathbf{u} + d\mathbf{v}\)

示例:
\(\mathbf{u} =\begin{bmatrix} 1 \\ 2 \end{bmatrix}\)\(\mathbf{v} =\begin{bmatrix} 3 \\ 4 \end{bmatrix}\)
\(2\mathbf{u} + 3\mathbf{v} = 2\begin{bmatrix} 1 \\ 2 \end{bmatrix} + 3\begin{bmatrix} 3 \\ 4 \end{bmatrix}=\begin{bmatrix} 2 + 9 \\ 4 + 12 \end{bmatrix}=\begin{bmatrix} 11 \\ 16 \end{bmatrix}\)

1.2 向量的长度与点积

长度(范数):\(\|\mathbf{v}\| = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2}\)
点积:\(\mathbf{u} \cdot \mathbf{v} = u_1v_1 + u_2v_2 + \cdots + u_nv_n\)
柯西 - 施瓦茨不等式:\(|\mathbf{u} \cdot \mathbf{v}| \leq \|\mathbf{u}\| \|\mathbf{v}\|\)

示例:
\(\mathbf{u} =\begin{bmatrix} 1 \\ 2 \end{bmatrix}\)\(\mathbf{v} =\begin{bmatrix} 3 \\ 4 \end{bmatrix}\)
\(\mathbf{u} \cdot \mathbf{v} = 1×3 + 2×4 = 3 + 8 = 11\)
\(\|\mathbf{u}\| = \sqrt{1^2 + 2^2} = \sqrt{5}\)
\(\|\mathbf{v}\| = \sqrt{3^2 + 4^2} = \sqrt{25} = 5\)
验证柯西 - 施瓦茨不等式:\(|11| \leq \sqrt{5}×5 = \sqrt{25} \approx 11.18\)

1.3 矩阵

矩阵加法:元素 - wise
矩阵乘法:行与列的点积
转置:交换行和列

示例:
\(A =\begin{bmatrix} 1 & 3 \\ 2 & 4 \end{bmatrix}\)\(B =\begin{bmatrix} 5 & 7 \\ 6 & 8 \end{bmatrix}\)
\(A + B =\begin{bmatrix} 6 & 10 \\ 8 & 12 \end{bmatrix}\)
\(AB =\begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix}\)
\(A^T =\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\)

第2章:求解线性方程组

2.1 向量与线性方程

线性方程组:一组可以同时求解的线性方程
增广矩阵:系数矩阵加上常数向量

示例:
方程组:
\(\begin{cases} x_1 + 2x_2 = 3 \\ 2x_1 + 3x_2 = 5 \end{cases}\)
增广矩阵:
\(\begin{bmatrix} 1 & 2 & \mid & 3 \\ 2 & 3 & \mid & 5 \end{bmatrix}\)

2.2 消元的概念

消元:通过行变换简化方程组,目标是将增广矩阵化为上三角形式
回代:从上三角形式的矩阵中求解变量

示例:
从增广矩阵开始:
\(\begin{bmatrix} 1 & 2 & \mid & 3 \\ 2 & 3 & \mid & 5 \end{bmatrix}\)
使用第1行消去第2行的 \(x_1\)
\(R_2 = R_2 - 2R_1\)
\(\begin{bmatrix} 1 & 0 & \mid & 3 \\ 0 & -1 & \mid & -1 \end{bmatrix}\)
通过回代求解:
从第2行:\(-x_2 = -1 \Rightarrow x_2 = 1\)
从第1行:\(x_1 + 2(1) = 3 \Rightarrow x_1 = 1\)
所以,\(\mathbf{x} =\begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

2.3 用矩阵进行消元

LU分解:将 \(A\) 分解为 \(L\)\(U\),使得 \(A = LU\)

示例:
\(A =\begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix}\)
执行消元:
\(L =\begin{bmatrix} 1 & 2 \\ 0 & 1 \end{bmatrix}\)
\(U =\begin{bmatrix} 1 & 0 \\ 2 & -1 \end{bmatrix}\)
验证:
\(L \cdot U =\begin{bmatrix} 1 & 2 \\ 0 & 1 \end{bmatrix}\begin{bmatrix} 1 & 0 \\ 2 & -1 \end{bmatrix}=\begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix}=A\)

2.4 矩阵运算规则

加法和数乘:元素 - wise
乘法:行与列的点积
转置:交换行和列
逆矩阵:对于可逆矩阵 \(A\),存在 \(A^{-1}\) 使得 \(A \cdot A^{-1} = I\)

示例:
\(A =\begin{bmatrix} 1 & 3 \\ 2 & 4 \end{bmatrix}\) 的逆矩阵。
首先,计算行列式:
\(\det(A) = 1×4 - 2×3 = 4 - 6 = -2\)
然后,
\(A^{-1} = \frac{1}{\det(A)}\begin{bmatrix} 4 & -3 \\ -2 & 1 \end{bmatrix}=\begin{bmatrix} -2 & 1.5 \\ 1 & -0.5 \end{bmatrix}\)
验证:
\(A \cdot A^{-1} =\begin{bmatrix} 1×(-2) + 2×1.5 & 1×1 + 2×(-0.5) \\ 3×(-2) + 4×1.5 & 3×1 + 4×(-0.5) \end{bmatrix}=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}=I\)

2.5 逆矩阵

逆矩阵:如果 \(A\) 是可逆的,那么 \(A\mathbf{x} = \mathbf{b}\) 的解就是 \(\mathbf{x} = A^{-1}\mathbf{b}\)

示例:
给定 \(A =\begin{bmatrix} 1 & 3 \\ 2 & 4 \end{bmatrix}\)\(\mathbf{b} =\begin{bmatrix} 5 \\ 11 \end{bmatrix}\)
\(\mathbf{x}\)
首先,找到 \(A^{-1}\)
\(A^{-1} =\begin{bmatrix} -2 & 1.5 \\ 1 & -0.5 \end{bmatrix}\)
然后,
\(\mathbf{x} = A^{-1}\mathbf{b} =\begin{bmatrix} -2 & 1.5 \\ 1 & -0.5 \end{bmatrix}\begin{bmatrix} 5 \\ 11 \end{bmatrix}=\begin{bmatrix} -2×5 + 1×11 \\ 1.5×5 + (-0.5)×11 \end{bmatrix}=\begin{bmatrix} -10 + 11 \\ 7.5 - 5.5 \end{bmatrix}=\begin{bmatrix} 1 \\ 2 \end{bmatrix}\)
验证:
\(A\mathbf{x} =\begin{bmatrix} 1×1 + 2×2 \\ 3×1 + 4×2 \end{bmatrix}=\begin{bmatrix} 1 + 4 \\ 3 + 8 \end{bmatrix}=\begin{bmatrix} 5 \\ 11 \end{bmatrix}=\mathbf{b}\)

2.6 消元=分解:\(A=LU\)

LU分解:将 \(A\) 分解为 \(L\)\(U\),使得 \(A = LU\)

示例:
\(A =\begin{bmatrix} 2 & 3 & 1 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}\)
执行消元:
使用第1行消去第2行和第3行的 \(x_1\)
\(R_2 = R_2 - 2R_1\)\([4 - 4, 5 - 6, 6 - 2]=[0, -1, 4]\)
\(R_3 = R_3 - 3.5R_1\)\([7 - 7, 8 - 10.5, 9 - 3.5]=[0, -2.5, 5.5]\)
现在,\(A\) 看起来是:
\(\begin{bmatrix} 2 & 3 & 1 \\ 0 & -1 & 4 \\ 0 & -2.5 & 5.5 \end{bmatrix}\)
使用第2行消去第3行的 \(x_2\)
首先,将第2行缩放以使 \(x_2\) 的系数为1:\(R_2 = -1×R_2\)\([0, 1, -4]\)
然后,\(R_3 = R_3 + 2.5R_2\)\([0, -2.5 + 2.5, 5.5 - 10]=[0, 0, -4.5]\)
最终的 \(U\) 矩阵:
\(U =\begin{bmatrix} 2 & 3 & 1 \\ 0 & 1 & -4 \\ 0 & 0 & -4.5 \end{bmatrix}\)
\(L\) 矩阵包含用于消元的乘数:
\(L =\begin{bmatrix} 1 & 0 & 0 \\ 2 & 1 & 0 \\ 3.5 & -2.5 & 1 \end{bmatrix}\)
验证:
\(L \cdot U =\begin{bmatrix} 1 & 2 & 3.5 \\ 0 & 1 & -2.5 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} 2 & 3 & 1 \\ 0 & 1 & -4 \\ 0 & 0 & -4.5 \end{bmatrix}\)

计算:
第1行:
\(1×2 + 0×0 + 0×0 = 2\)
\(1×3 + 0×1 + 0×0 = 3\)
\(1×1 + 0× - 4 + 0× - 4.5 = 1\)

第2行:
\(2×2 + 1×0 + 0×0 = 4\)
\(2×3 + 1×1 + 0×0 = 6 + 1 = 7\)
\(2×1 + 1× - 4 + 0× - 4.5 = 2 - 4 = -2\)

第3行:
\(3.5×2 + (-2.5)×0 + 1×0 = 7\)
\(3.5×3 + (-2.5)×1 + 1×0 = 10.5 - 2.5 = 8\)
\(3.5×1 + (-2.5)× - 4 + 1× - 4.5 = 3.5 + 10 - 4.5 = 9\)

因此,
\(L \cdot U =\begin{bmatrix} 2 & 3 & 1 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}\) (原文档此处计算有误,经修正后符合)

第3章:向量空间和子空间

3.1 向量空间

向量空间:满足加法和数乘封闭性的集合

3.2 矩阵的零空间

零空间:满足 \(A\mathbf{x} = \mathbf{0}\) 的所有向量 \(\mathbf{x}\) 的集合

示例:
\(A =\begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix}\)
求其零空间。
解方程 \(A\mathbf{x} = \mathbf{0}\)
\(\begin{cases} x_1 + 2x_2 = 0 \\ 2x_1 + 4x_2 = 0 \end{cases}\)
由第一个方程 \(x_1 = -2x_2\),代入第二个方程成立,所以零空间是:
\(\text{Null}(A) = \left\{\begin{bmatrix} -2x_2 \\ x_2 \end{bmatrix} \mid x_2 \in \mathbb{R} \right\} = \text{span} \left( \begin{bmatrix} -2 \\ 1 \end{bmatrix} \right)\)

3.3 \(A\mathbf{x} = \mathbf{b}\) 的完整解

完整解:线性方程组 \(A\mathbf{x} = \mathbf{b}\) 的解可以表示为特解加上零空间中的向量

公式:
如果 \(\mathbf{x}_p\)\(A\mathbf{x} = \mathbf{b}\) 的一个特解,那么完整解为:
\(\mathbf{x} = \mathbf{x}_p + \mathbf{x}_h\)
其中 \(\mathbf{x}_h \in \text{Null}(A)\)

示例:
对于方程组 \(A\mathbf{x} =\begin{bmatrix} 3 \\ 5 \end{bmatrix}\),其中 \(A =\begin{bmatrix} 1 & 2 \\ 2 & 3 \end{bmatrix}\),我们之前已经求得特解 \(\mathbf{x}_p =\begin{bmatrix} 1 \\ 1 \end{bmatrix}\),零空间是 \(\text{span} \left( \begin{bmatrix} -2 \\ 1 \end{bmatrix} \right)\),所以完整解为:
\(\mathbf{x} =\begin{bmatrix} 1 \\ 1 \end{bmatrix} + t\begin{bmatrix} -2 \\ 1 \end{bmatrix} =\begin{bmatrix} 1 - 2t \\ 1 + t \end{bmatrix}, t \in \mathbb{R}\)

3.4 独立性、基和维度

  • 线性独立:一组向量中没有任何一个向量可以表示为其他向量的线性组合
  • :一组线性独立的向量,它们的线性组合可以生成整个向量空间
  • 维度:基向量的个数

判断线性独立的方法:
设有一组向量 \(\{\mathbf{v}_1, \mathbf{v}_2, \cdots, \mathbf{v}_k\}\),如果方程 \(c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_k\mathbf{v}_k = \mathbf{0}\) 只有平凡解 \(c_1 = c_2 = \cdots = c_k = 0\),则这组向量线性独立

示例:
向量 \(\begin{bmatrix} 1 \\ 0 \end{bmatrix}\)\(\begin{bmatrix} 0 \\ 1 \end{bmatrix}\) 是线性独立的,因为 \(c_1\begin{bmatrix} 1 \\ 0 \end{bmatrix} + c_2\begin{bmatrix} 0 \\ 1 \end{bmatrix} =\begin{bmatrix} c_1 \\ c_2 \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \end{bmatrix}\) 只有 \(c_1 = c_2 = 0\) 这个解

3.5 四个子空间的维度

  • 列空间:矩阵 \(A\) 的所有列向量的线性组合生成的空间,记作 \(\text{Col}(A)\)
  • 行空间:矩阵 \(A\) 的所有行向量的线性组合生成的空间,记作 \(\text{Row}(A)\)
  • 零空间:同上
  • 左零空间:矩阵 \(A^T\) 的零空间,即 \(\text{Null}(A^T)\)

维度关系:
\(\dim(\text{Col}(A)) = \text{rank}(A)\)
\(\dim(\text{Row}(A)) = \text{rank}(A)\)
\(\dim(\text{Null}(A)) = n - \text{rank}(A)\)(如果 \(A\)\(m \times n\) 矩阵)
\(\dim(\text{Null}(A^T)) = m - \text{rank}(A)\)

示例:
对于矩阵 \(A =\begin{bmatrix} 1 & 2 & 3 \\ 2 & 4 & 6 \end{bmatrix}\),其秩 \(\text{rank}(A) = 1\),因为第二列是第一列的两倍,第三行是第一行的三倍。
列空间的维度是 \(1\)
行空间的维度也是 \(1\)
零空间的维度是 \(2 - 1 = 1\)
左零空间的维度是 \(3 - 1 = 2\)

第4章:正交性

4.1 四个子空间的正交性

正交子空间:如果两个子空间的任意两个向量都是正交的,则这两个子空间是正交的。

4.2 正交投影

投影公式:向量 \(\mathbf{b}\) 在子空间 \(V\) 上的投影可以表示为 \(\text{proj}_V\mathbf{b} = (\mathbf{v}_1 \cdot \mathbf{b})\mathbf{v}_1 + \cdots + (\mathbf{v}_k \cdot \mathbf{b})\mathbf{v}_k\),其中 \(\{\mathbf{v}_1, \cdots, \mathbf{v}_k\}\)\(V\) 的正交基。

示例:
\(\mathbf{u} =\begin{bmatrix} 1 \\ 2 \end{bmatrix}\) 是正交基,\(\mathbf{b} =\begin{bmatrix} 3 \\ 4 \end{bmatrix}\),则:
\(\mathbf{p} = \frac{1 \times 3 + 2 \times 4}{1^2 + 2^2}\begin{bmatrix} 1 \\ 2 \end{bmatrix} = \frac{11}{5}\begin{bmatrix} 1 \\ 2 \end{bmatrix} =\begin{bmatrix} \frac{11}{5} \\ \frac{22}{5} \end{bmatrix}\)

子空间投影


目标:将向量 \(\boldsymbol{b} \in \mathbb{R}^m\) 投影到由矩阵 \(A \in \mathbb{R}^{m \times n}\) 的列空间 \(\text{Col}(A)\) 上,找到投影向量 \(\boldsymbol{p}\) 和投影矩阵 \(P\)

几何意义:

  • 投影 \(\boldsymbol{p}\)\(\text{Col}(A)\) 中离 \(\boldsymbol{b}\) 最近的向量(欧氏距离最短)。
  • 误差向量 \(\boldsymbol{e} = \boldsymbol{b} - \boldsymbol{p}\) 垂直于 \(\text{Col}(A)\)

二、数学推导与矩阵形式

  1. 投影向量的表达式
  • 假设:投影 \(\boldsymbol{p} = A \boldsymbol{x}\),其中 \(\boldsymbol{x} \in \mathbb{R}^n\) 为系数向量。
  • 正交条件:误差向量 \(\boldsymbol{e}\)\(\text{Col}(A)\) 正交,即:

    \[A^\top (\boldsymbol{b} - A \boldsymbol{x}) = 0. \]

  • 正规方程(Normal Equation):

    \[A^\top A \boldsymbol{x} = A^\top \boldsymbol{b}. \]

  • 解:若 \(A^\top A\) 可逆(当 \(A\) 列满秩时成立),则:

    \[\boldsymbol{x} = (A^\top A)^{-1} A^\top \boldsymbol{b}. \]

  • 投影向量:

    \[\boldsymbol{p} = A \boldsymbol{x} = A (A^\top A)^{-1} A^\top \boldsymbol{b}. \]

  1. 投影矩阵的构造
  • 定义:将 \(\boldsymbol{p} = P \boldsymbol{b}\),则投影矩阵为:

    \[P = A (A^\top A)^{-1} A^\top. \]

  • 关键性质:
    1. 幂等性:\(P^2 = P\)(多次投影结果不变)。
    2. 对称性:\(P^\top = P\)(几何对称性的代数体现)。
    3. 秩:\(\text{rank}(P) = \text{rank}(A)\)(投影矩阵秩与子空间维度一致)。
    4. 作用效果:对任意 \(\boldsymbol{v} \in \mathbb{R}^m\)\(P \boldsymbol{v} \in \text{Col}(A)\)
  1. 正交补空间的投影矩阵
  • 到正交补空间 \(\text{Col}(A)^\perp\) 的投影矩阵为:

    \[P_\perp = I - P. \]

  • 验证:
    • \(P_\perp \boldsymbol{b} = \boldsymbol{b} - \boldsymbol{p} = \boldsymbol{e}\)(残差向量)。
    • \(P_\perp^2 = P_\perp\)(幂等性保持)。

特例分析:一维投影
场景:若 \(A\) 的列空间为一条直线(即 \(A = \boldsymbol{a} \in \mathbb{R}^m\)):

  • 投影矩阵:

    \[P = \frac{\boldsymbol{a} \boldsymbol{a}^\top}{\boldsymbol{a}^\top \boldsymbol{a}}. \]

  • 投影向量:

    \[\boldsymbol{p} = \frac{\boldsymbol{a}^\top \boldsymbol{b}}{\boldsymbol{a}^\top \boldsymbol{a}} \boldsymbol{a}. \]

  • 几何解释:标量系数 \(\frac{\boldsymbol{a}^\top \boldsymbol{b}}{\|\boldsymbol{a}\|^2}\) 表示 \(\boldsymbol{b}\)\(\boldsymbol{a}\) 方向上的缩放比例(类比向量点积的几何意义)。

应用实例:最小二乘法

  1. 线性回归问题
  • 目标:拟合数据点 \((x_i, y_i)\) 到直线 \(y = c_0 + c_1 x\)
  • 矩阵形式:

    \[A = \begin{pmatrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_m \end{pmatrix}, \quad \boldsymbol{b} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix}. \]

  • 最优解:

    \[\boldsymbol{c} = (A^\top A)^{-1} A^\top \boldsymbol{b}. \]

  1. 投影视角
  • 最小二乘解等价于将 \(\boldsymbol{b}\) 投影到 \(\text{Col}(A)\),使得残差平方和 \(\|\boldsymbol{e}\|^2\) 最小。
  • 物理意义:通过投影消除数据噪声,找到最佳拟合直线。

几何与代数的统一性总结

视角 几何意义 代数形式
投影向量 子空间中离原向量最近的点 \(\boldsymbol{p} = P \boldsymbol{b}\)
误差向量 与原子空间正交的残差 \(\boldsymbol{e} = (I - P) \boldsymbol{b}\)
最小二乘 最小化残差平方和 \(\min_{\boldsymbol{x}} |A \boldsymbol{x} - \boldsymbol{b}|^2\)
矩阵性质 幂等性、对称性、秩与子空间维度一致 \(P^2 = P, \, P^\top = P\)

4.3 最小二乘逼近

最小二乘法:在超定系统 \(A\mathbf{x} = \mathbf{b}\) 中,最小化 \(\|A\mathbf{x} - \mathbf{b}\|^2\) 的解称为最小二乘解。

公式:
最小二乘解满足 \(A^TA\mathbf{x} = A^T\mathbf{b}\)

示例:
\(A =\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix}\)\(\mathbf{b} =\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}\),求最小二乘解。
先计算 \(A^TA\)\(A^T\mathbf{b}\)
\(A^TA =\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} =\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\)
\(A^T\mathbf{b} =\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{bmatrix}\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} =\begin{bmatrix} 4 \\ 5 \end{bmatrix}\)
解方程 \(A^TA\mathbf{x} = A^T\mathbf{b}\)
\(\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} =\begin{bmatrix} 4 \\ 5 \end{bmatrix}\)
使用公式或高斯消元法求解,得到:
\(\mathbf{x} =\begin{bmatrix} \frac{2}{3} \\ \frac{5}{3} \end{bmatrix}\)

4.4 格拉姆 - 施密特正交化过程

格拉姆 - 施密特过程:将一组线性独立的向量转化为正交(或标准正交)向量。

步骤:
给定向量 \(\mathbf{v}_1, \mathbf{v}_2, \cdots, \mathbf{v}_k\),构造正交向量 \(\mathbf{u}_1, \mathbf{u}_2, \cdots, \mathbf{u}_k\)
\(\mathbf{u}_1 = \mathbf{v}_1\)
\(\mathbf{u}_2 = \mathbf{v}_2 - \text{proj}_{\mathbf{u}_1}\mathbf{v}_2\)
\(\mathbf{u}_3 = \mathbf{v}_3 - \text{proj}_{\mathbf{u}_1}\mathbf{v}_3 - \text{proj}_{\mathbf{u}_2}\mathbf{v}_3\)
依此类推。

示例:
\(\mathbf{v}_1 =\begin{bmatrix} 1 \\ 0 \end{bmatrix}\)\(\mathbf{v}_2 =\begin{bmatrix} 1 \\ 1 \end{bmatrix}\)
\(\mathbf{u}_1 = \mathbf{v}_1 =\begin{bmatrix} 1 \\ 0 \end{bmatrix}\)
\(\text{proj}_{\mathbf{u}_1}\mathbf{v}_2 = \frac{1 \times 1 + 0 \times 1}{1^2 + 0^2}\begin{bmatrix} 1 \\ 0 \end{bmatrix} =\begin{bmatrix} 1 \\ 0 \end{bmatrix}\)
\(\mathbf{u}_2 = \mathbf{v}_2 - \text{proj}_{\mathbf{u}_1}\mathbf{v}_2 =\begin{bmatrix} 1 \\ 1 \end{bmatrix} - \begin{bmatrix} 1 \\ 0 \end{bmatrix} =\begin{bmatrix} 0 \\ 1 \end{bmatrix}\)
现在得到正交基 \(\begin{bmatrix} 1 \\ 0 \end{bmatrix}\)\(\begin{bmatrix} 0 \\ 1 \end{bmatrix}\),它们也是标准正交的。

第5章:行列式

5.1 行列式的性质

行列式:行列式是一个标量函数,定义在方阵上,反映矩阵的某些特性,如是否可逆。

性质:

  • 行列式为零当且仅当矩阵是奇异的(不可逆的)。
  • \(\det(A^T) = \det(A)\)
  • \(\det(AB) = \det(A)\det(B)\)

对于 \(2 \times 2\) 矩阵:
\(\det\begin{bmatrix} a & b \\ c & d \end{bmatrix} = ad - bc\)

5.2 行列式和体积

行列式:行列式的绝对值表示线性变换对体积的缩放因子。

5.3 行列式的计算

  • 余子式和代数余子式

    • 余子式 \(M_{ij}\):删除第 \(i\) 行第 \(j\) 列后得到的子矩阵的行列式。
    • 代数余子式 \(C_{ij}\)\(C_{ij} = (-1)^{i + j}M_{ij}\)
  • 按行或列展开

    • \(\det(A) = \sum_{j = 1}^{n}a_{ij}C_{ij}\)(按第 \(i\) 行展开)
    • \(\det(A) = \sum_{i = 1}^{n}a_{ij}C_{ij}\)(按第 \(j\) 列展开)

示例:
计算 \(3 \times 3\) 矩阵 \(A =\begin{bmatrix} 1 & 4 & 7 \\ 2 & 5 & 8 \\ 3 & 6 & 9 \end{bmatrix}\) 的行列式。
按第一行展开:
\(\det(A) = 1 \cdot C_{11} + 2 \cdot C_{12} + 3 \cdot C_{13}\)

计算代数余子式:
\(C_{11} = (-1)^{1 + 1}\det\begin{bmatrix} 5 & 8 \\ 6 & 9 \end{bmatrix} = 1 \cdot (5 \times 9 - 6 \times 8) = 45 - 48 = -3\)
\(C_{12} = (-1)^{1 + 2}\det\begin{bmatrix} 4 & 7 \\ 6 & 9 \end{bmatrix} = -1 \cdot (4 \times 9 - 6 \times 7) = -(36 - 42) = 6\)
\(C_{13} = (-1)^{1 + 3}\det\begin{bmatrix} 4 & 7 \\ 5 & 8 \end{bmatrix} = 1 \cdot (4 \times 8 - 5 \times 7) = 32 - 35 = -3\)

代入:
\(\det(A) = 1 \times (-3) + 2 \times 6 + 3 \times (-3) = -3 + 12 - 9 = 0\)
所以,\(\det(A) = 0\),说明 \(A\) 是奇异的。

第6章:特征值和特征向量

6.1 特征值和特征向量

特征值方程:\(A\mathbf{v} = \lambda\mathbf{v}\),其中 \(\lambda\) 是特征值,\(\mathbf{v}\) 是特征向量。
特征方程:
\(\det(A - \lambda I) = 0\)

示例:
考虑矩阵 \(A =\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\)
特征方程:
\(\det\begin{bmatrix} 2 - \lambda & 1 \\ 1 & 2 - \lambda \end{bmatrix} = (2 - \lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0\)
解得 \(\lambda_1 = 1\)\(\lambda_2 = 3\)

求特征向量:
对于 \(\lambda_1 = 1\)
解方程 \((A - I)\mathbf{v} = \mathbf{0}\)
\(\begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}\begin{bmatrix} v_1 \\ v_2 \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \end{bmatrix}\)
得到 \(v_1 + v_2 = 0\),所以特征向量可以是 \(\begin{bmatrix} 1 \\ -1 \end{bmatrix}\)

对于 \(\lambda_2 = 3\)
解方程 \((A - 3I)\mathbf{v} = \mathbf{0}\)
\(\begin{bmatrix} -1 & 1 \\ 1 & -1 \end{bmatrix}\begin{bmatrix} v_1 \\ v_2 \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \end{bmatrix}\)
得到 \(-v_1 + v_2 = 0 \Rightarrow v_1 = v_2\),所以特征向量可以是 \(\begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

6.2 对角化


矩阵对角化的核心目标是将一个 \(n \times n\) 矩阵 \(A\) 通过相似变换转化为对角矩阵 \(D\),即寻找可逆矩阵 \(P\) 和对角矩阵 \(D\),使得:

\[P^{-1}AP = D \quad \text{或等价地} \quad A = PDP^{-1}. \]

这一过程的意义在于简化矩阵的运算(如幂运算、指数函数等),并揭示矩阵的深层结构。


推导过程

  1. 特征值与特征向量的引入
    矩阵对角化的前提是 \(A\) 具有足够的线性无关特征向量。假设 \(A\)\(n\) 个线性无关的特征向量 \(v_1, v_2, \dots, v_n\),对应特征值 \(\lambda_1, \lambda_2, \dots, \lambda_n\),即:

    \[A v_i = \lambda_i v_i \quad (i = 1, 2, \dots, n). \]

  2. 构造可逆矩阵 \(P\)
    将特征向量 \(v_1, v_2, \dots, v_n\) 作为列向量构造矩阵 \(P\)

    \[P = [v_1 \quad v_2 \quad \cdots \quad v_n]. \]

    由于 \(v_1, v_2, \dots, v_n\) 线性无关,矩阵 \(P\) 可逆。

  3. 验证 \(AP = PD\)
    计算矩阵乘积 \(AP\)

    \[AP = A [v_1 \quad v_2 \quad \cdots \quad v_n] = [A v_1 \quad A v_2 \quad \cdots \quad A v_n]. \]

    根据特征方程 \(A v_i = \lambda_i v_i\),可得:

    \[AP = [\lambda_1 v_1 \quad \lambda_2 v_2 \quad \cdots \quad \lambda_n v_n]. \]

    另一方面,构造对角矩阵 \(D = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)\),则:

    \[PD = [v_1 \quad v_2 \quad \cdots \quad v_n] \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix} = [\lambda_1 v_1 \quad \lambda_2 v_2 \quad \cdots \quad \lambda_n v_n]. \]

    因此,\(AP = PD\)

  4. 导出对角化公式
    由于 \(P\) 可逆,对等式 \(AP = PD\) 左乘 \(P^{-1}\),得到:

    \[P^{-1}AP = D. \]

    这即是对角化公式。

可对角化条件
矩阵 \(A\) 可以对角化,当且仅当 \(A\)\(n\) 个线性独立的特征向量。数学公式前后均已添加 $ 符号标记。

示例:
继续使用 \(A =\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\),我们已经找到特征向量 \(\begin{bmatrix} 1 \\ -1 \end{bmatrix}\)\(\begin{bmatrix} 1 \\ 1 \end{bmatrix}\),它们线性独立。
所以,\(A\) 可以对角化。
\(P =\begin{bmatrix} 1 & 1 \\ -1 & 1 \end{bmatrix}\)\(D =\begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix}\)

计算 \(P^{-1}\)
\(\det(P) = 1×1 - 1×(-1) = 2\)
\(P^{-1} = \frac{1}{2}\begin{bmatrix} 1 & 1 \\ -1 & 1 \end{bmatrix}\)

验证 \(A = PDP^{-1}\)
\(PDP^{-1} =\begin{bmatrix} 1 & 1 \\ -1 & 1 \end{bmatrix}\begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix}\frac{1}{2}\begin{bmatrix} 1 & 1 \\ -1 & 1 \end{bmatrix} =\begin{bmatrix} 1 & 3 \\ -1 & 3 \end{bmatrix}\frac{1}{2}\begin{bmatrix} 1 & 1 \\ -1 & 1 \end{bmatrix} =\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\)

6.3 对称矩阵和正定矩阵

对称矩阵:满足 \(A = A^T\)

性质:

  • 所有特征值都是实数。
  • 可以对角化,并且存在正交矩阵 \(Q\) 使得 \(A = Q\Lambda Q^T\),其中 \(\Lambda\) 是特征值的对角矩阵。

正定矩阵:对称矩阵 \(A\) 是正定的,如果对于所有非零向量 \(\mathbf{x}\),有 \(\mathbf{x}^TA\mathbf{x} > 0\)

性质:
所有特征值都是正数。

示例:
矩阵 \(A =\begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix}\) 是对称的。
计算特征值:
\(\det(A - \lambda I) = \det\begin{bmatrix} 3 - \lambda & 1 \\ 1 & 3 - \lambda \end{bmatrix} = (3 - \lambda)^2 - 1 = \lambda^2 - 6\lambda + 8 = 0\)
解得 \(\lambda_1 = 2\)\(\lambda_2 = 4\),都是正数,所以 \(A\) 是正定的。

第7章:奇异值分解(SVD)

7.1 SVD的介绍

SVD定义:任何 \(m×n\) 矩阵 \(A\) 都可以分解为 \(A = U\Sigma V^T\),其中:

  • \(U\)\(m×m\) 正交矩阵。
  • \(\Sigma\)\(m×n\) 对角矩阵,对角线上的元素 \(\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0\) 是奇异值。
  • \(V\)\(n×n\) 正交矩阵。

几何意义:

  • \(U\)\(V\) 分别表示在域空间和值域空间中的旋转或反射。
  • \(\Sigma\) 表示在主方向上的缩放。

示例:
\(A =\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}\)
则:
\(U =\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}\)\(\Sigma =\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}\)\(V =\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\)
显然,\(A = U\Sigma V^T\)

7.2 SVD的应用

  • 主成分分析(PCA):通过SVD可以降维数据,提取最重要的特征方向。
  • 图像压缩:通过保留前几个奇异值,可以近似原矩阵,达到压缩的效果。
  • 推荐系统:利用SVD可以发现用户和物品之间的潜在关系。

示例(PCA):
假设有一组二维数据点 \(\{ \mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n \}\),我们希望将其降维到一维。

  • 计算数据点的均值 \(\boldsymbol{\mu} = \frac{1}{n}\sum_{i = 1}^{n} \mathbf{x}_i\)
  • 计算协方差矩阵 \(C = \frac{1}{n - 1}\sum_{i = 1}^{n}(\mathbf{x}_i - \boldsymbol{\mu})(\mathbf{x}_i - \boldsymbol{\mu})^T\)
  • \(C\) 进行SVD分解,得到主成分方向(即 \(V\) 矩阵的第一列)。
  • 将数据投影到主成分方向上,得到降维后的数据。

第8章:线性变换

8.1 线性变换的定义

线性变换 \(T: V \to W\) 满足:

  • \(T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v})\)
  • \(T(c\mathbf{v}) = cT(\mathbf{v})\)

示例:
旋转变换 \(R: \mathbb{R}^2 \to \mathbb{R}^2\),旋转角度为 \(\theta\),定义为:
\(R\begin{pmatrix}\begin{bmatrix} x \\ y \end{bmatrix}\end{pmatrix} =\begin{bmatrix} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{bmatrix}\begin{bmatrix} x \\ y \end{bmatrix}\)
验证线性性:

  • \(R(\mathbf{u} + \mathbf{v}) = R(\mathbf{u}) + R(\mathbf{v})\)
  • \(R(c\mathbf{v}) = cR(\mathbf{v})\)

8.2 线性变换的矩阵表示

矩阵表示:选取 \(V\)\(W\) 的基后,线性变换可以用矩阵表示。

示例:
考虑线性变换 \(T: \mathbb{R}^2 \to \mathbb{R}^2\),定义为 \(T\begin{pmatrix}\begin{bmatrix} x \\ y \end{bmatrix}\end{pmatrix} =\begin{bmatrix} 2x + y \\ x + 3y \end{bmatrix}\)
选用标准基 \(\left\{\begin{bmatrix} 1 \\ 0 \end{bmatrix}, \begin{bmatrix} 0 \\ 1 \end{bmatrix}\right\}\),则:
\(T\begin{pmatrix}\begin{bmatrix} 1 \\ 0 \end{bmatrix}\end{pmatrix} =\begin{bmatrix} 2 \\ 1 \end{bmatrix}\)\(T\begin{pmatrix}\begin{bmatrix} 0 \\ 1 \end{bmatrix}\end{pmatrix} =\begin{bmatrix} 1 \\ 3 \end{bmatrix}\)
所以,\(T\) 的矩阵表示是:
\(A =\begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix}\)

8.3 寻找合适的基

选择合适的基:选择合适的基可以简化线性变换的矩阵表示,例如对角化。

示例:
考虑对称矩阵 \(A =\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}\)
我们已经知道其特征向量是 \(\begin{bmatrix} 1 \\ -1 \end{bmatrix}\)\(\begin{bmatrix} 1 \\ 1 \end{bmatrix}\),特征值分别是 \(1\)\(3\)
如果选择这组特征向量作为基,则 \(A\) 在这个基下的矩阵表示是:
\(D =\begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix}\)
这样,线性变换的表示更加简洁。

第9章:复向量和矩阵

9.1 复数

复数表示:复数表示为 \(a + bi\),其中 \(i^2 = -1\)
复数运算:加法、乘法和共轭运算。

示例:
\(z_1 = 1 + 2i\)\(z_2 = 3 - i\),则:

  • \(z_1 + z_2 = (1 + 3) + (2 - 1)i = 4 + i\)
  • \(z_1z_2 = (1)(3) + (1)( - i) + (2i)(3) + (2i)( - i) = 3 - i + 6i - 2i^2 = 3 + 5i + 2 = 5 + 5i\)
  • \(\overline{z_1} = 1 - 2i\)

9.2 厄米特矩阵和酉矩阵

  • 厄米特矩阵:满足 \(A = A^H\),其中 \(A^H\) 是共轭转置。
  • 酉矩阵:满足 \(A^HA = I\)

示例:
\(A =\begin{bmatrix} 1 & -i \\ i & 1 \end{bmatrix}\),计算 \(A^H\)
\(A^H =\begin{bmatrix} 1 & i \\ -i & 1 \end{bmatrix}\)
验证 \(A\) 是否为厄米特矩阵:
\(A^H = A\),所以 \(A\) 是厄米特矩阵

9.3 快速傅里叶变换(FFT)

DFT公式:对于长度为 \(n\) 的复数序列 \(x_0, x_1, \cdots, x_{n - 1}\),其DFT为:
\(X_k = \sum_{j = 0}^{n - 1} x_j e^{- \frac{2\pi ijk}{n}}, k = 0, 1, \cdots, n - 1\)

应用:
信号处理、图像处理、音频处理等领域。

示例:
计算长度为 \(4\) 的序列 \(\mathbf{x} = [1, 2, 3, 4]\) 的DFT:

  • \(X_0 = 1 + 2 + 3 + 4 = 10\)
  • \(X_1 = 1 + 2e^{- \frac{2\pi i}{4}} + 3e^{- \frac{4\pi i}{4}} + 4e^{- \frac{6\pi i}{4}} = 1 + 2e^{- \frac{i\pi}{2}} + 3e^{- i\pi} + 4e^{- \frac{3i\pi}{2}} = 1 + 2(0 - i) + 3(-1) + 4(0 + i) = 1 - 2i - 3 + 4i = -2 + 2i\)
  • \(X_2 = 1 + 2e^{- \frac{4\pi i}{4}} + 3e^{- \frac{8\pi i}{4}} + 4e^{- \frac{12\pi i}{4}} = 1 + 2e^{- i\pi} + 3e^{- 2i\pi} + 4e^{- 3i\pi} = 1 + 2(-1) + 3(1) + 4(-1) = 1 - 2 + 3 - 4 = -2\)
  • \(X_3 = 1 + 2e^{- \frac{6\pi i}{4}} + 3e^{- \frac{12\pi i}{4}} + 4e^{- \frac{18\pi i}{4}} = 1 + 2e^{- \frac{3i\pi}{2}} + 3e^{- 3i\pi} + 4e^{- \frac{9i\pi}{2}} = 1 + 2(0 + i) + 3(-1) + 4(0 - i) = 1 + 2i - 3 - 4i = -2 - 2i\)

所以,DFT结果是 \(\mathbf{X} = [10, -2 + 2i, -2, -2 - 2i]\)

第10章:线性代数的应用

10.1 图和网络

邻接矩阵:描述图中节点之间的连接关系。

应用:通过矩阵运算分析图的结构,如节点的度、路径长度等。

示例:
设邻接矩阵\(A = \begin{bmatrix} 0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0 \end{bmatrix}\)

计算\(A^2\)
\(A^2 = \begin{bmatrix} 0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0 \end{bmatrix}\begin{bmatrix} 0 & 1 & 1 \\ 1 & 0 & 1 \\ 1 & 1 & 0 \end{bmatrix} = \begin{bmatrix} 2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{bmatrix}\)

\((A^2)_{ij}\)表示从节点\(i\)到节点\(j\)的长度为\(2\)的路径数,例如\((A^2)_{12} = 1\)表示从节点\(1\)到节点\(2\)\(1\)条长度为\(2\)的路径。

10.2 工程中的矩阵

有限元方法:在结构工程中,刚度矩阵用于模拟结构的行为。

示例:
设刚度矩阵\(K = \begin{bmatrix} k & -k \\ -k & k \end{bmatrix}\)

求解系统的位移时,需要求解方程\(K\mathbf{u} = \mathbf{f}\),其中\(\mathbf{f}\)是力向量。

10.3 马尔可夫矩阵

马尔可夫矩阵:每个元素表示状态转移的概率,每一行的和为\(1\)

应用:建模随机过程,如人口迁移、网页排名等。

示例:
设马尔可夫矩阵\(P = \begin{bmatrix} 0.7 & 0.3 \\ 0.4 & 0.6 \end{bmatrix}\)

稳态概率\(\boldsymbol{\pi}\)满足\(\boldsymbol{\pi}P = \boldsymbol{\pi}\)\(\pi_1 + \pi_2 = 1\)

解方程:
\(\begin{cases} 0.7\pi_1 + 0.4\pi_2 = \pi_1 \\ 0.3\pi_1 + 0.6\pi_2 = \pi_2 \end{cases}\)

结合\(\pi_1 + \pi_2 = 1\),解得:\(\pi_1 = \frac{4}{7}\)\(\pi_2 = \frac{3}{7}\)

10.4 线性规划

线性规划问题:最小化或最大化线性目标函数\(c^T\mathbf{x}\),在满足线性约束\(A\mathbf{x} \leq \mathbf{b}\)\(\mathbf{x} \geq \mathbf{0}\)的条件下。

应用:资源分配、生产计划、成本最小化等。

示例:
最大化\(z = 3x_1 + 2x_2\)

约束条件:
\(\begin{cases} x_1 + x_2 \leq 4 \\ 2x_1 + x_2 \leq 5 \\ x_1, x_2 \geq 0 \end{cases}\)

通过图解法或单纯形法求解,找到可行区域的顶点,计算目标函数值,得到最优解。

10.5 傅里叶级数

傅里叶级数:将周期函数表示为正弦和余弦函数的线性组合。

公式:
\(f(x) = \frac{a_0}{2} + \sum_{n = 1}^{\infty} (a_n \cos(nx) + b_n \sin(nx))\)

其中:
\(a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \cos(nx)dx\)\(b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \sin(nx)dx\)

示例:
计算方波函数的傅里叶级数。设\(f(x)\)是周期为\(2\pi\)的方波函数,定义为:
\(f(x) = \begin{cases} 1, & 0 < x < \pi \\ -1, & -\pi < x < 0 \end{cases}\)

计算\(a_n\)\(b_n\)
\(a_n = 0\)\(b_n = \begin{cases} \frac{4}{n\pi}, & n \text{ 奇数} \\ 0, & n \text{ 偶数} \end{cases}\)

所以,傅里叶级数为:
\(f(x) = \frac{4}{\pi} (\sin(x) + \frac{1}{3} \sin(3x) + \frac{1}{5} \sin(5x) + \cdots)\)

10.6 计算机图形学

变换矩阵:用于表示图形的平移、旋转、缩放等变换。

示例:
二维旋转矩阵:
\(R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}\)

平移矩阵:
\(T(a,b) = \begin{bmatrix} 1 & 0 & a \\ 0 & 1 & b \\ 0 & 0 & 1 \end{bmatrix}\)

10.7 密码学

希尔密码:使用矩阵进行文本的加密和解密。

示例:
设加密矩阵\(E = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\)

将文本 "HI" 转换为数字对\([7,8]\)

加密:
\(\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\begin{bmatrix} 7 \\ 8 \end{bmatrix} = \begin{bmatrix} 23 \\ 53 \end{bmatrix}\)

取模\(26\)
\(\begin{bmatrix} 23 \bmod 26 \\ 53 \bmod 26 \end{bmatrix} = \begin{bmatrix} 23 \\ 1 \end{bmatrix}\)

对应字母 "XD"。

解密需要\(E\)的逆矩阵。计算\(E^{-1}\)
\(\det(E) = 1\times4 - 2\times3 = -2\)
\(E^{-1} = -\frac{1}{2} \begin{bmatrix} 4 & -3 \\ -2 & 1 \end{bmatrix} = \begin{bmatrix} -2 & 1.5 \\ 1 & -0.5 \end{bmatrix}\)

在模\(26\)下,需要找到整数逆元。这里简化示例,实际应用会选择更合适的矩阵。

第11章:数值线性代数

11.1 高斯消元法的数值稳定性

问题:在计算机实现高斯消元法时,由于舍入误差,可能会导致结果不准确。

解决方案:

  • 主元选择:选择最大的元素作为主元,减少舍入误差。
  • 部分主元法:只在列内交换行。
  • 完全主元法:在整个矩阵中选择最大的元素作为主元。

示例:
考虑病态矩阵\(A = \begin{bmatrix} 1 & 2 \\ 2 & 3.0001 \end{bmatrix}\),求解\(A\mathbf{x} = \begin{bmatrix} 3 \\ 5.0001 \end{bmatrix}\)

通过主元选择,可以改善数值稳定性。

11.2 范数和条件数

  • 范数:衡量向量或矩阵的“大小”。
  • 条件数:衡量矩阵求逆或线性方程组求解对数据误差的敏感度。

公式:
\(\kappa(A) = \|A\| \cdot \|A^{-1}\|\)

示例:
计算矩阵\(A = \begin{bmatrix} 1 & 0 \\ 0 & \epsilon \end{bmatrix}\)的条件数,其中\(\epsilon\)很小。
\(\|A\|_2 = 1\)\(\|A^{-1}\|_2 = \frac{1}{\epsilon}\)

所以,\(\kappa(A) = \frac{1}{\epsilon}\),当\(\epsilon\)很小时,条件数很大,矩阵是病态的。

11.3 迭代方法

  • 共轭梯度法:用于求解对称正定矩阵的线性方程组。
  • 幂迭代法:用于求解矩阵的主特征值和特征向量。

示例(共轭梯度法):
考虑求解\(A\mathbf{x} = \mathbf{b}\),其中\(A = \begin{bmatrix} 2 & -1 \\ -1 & 2 \end{bmatrix}\)\(\mathbf{b} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

初始猜测\(\mathbf{x}_0 = \begin{bmatrix} 0 \\ 0 \end{bmatrix}\),计算残差\(\mathbf{r}_0 = \mathbf{b} - A\mathbf{x}_0 = \mathbf{b}\)

\(\mathbf{p}_0 = \mathbf{r}_0\)

计算\(\alpha_0 = \frac{\mathbf{r}_0^T\mathbf{r}_0}{\mathbf{p}_0^TA\mathbf{p}_0} = 1\)

更新\(\mathbf{x}_1 = \mathbf{x}_0 + \alpha_0\mathbf{p}_0 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

计算新的残差\(\mathbf{r}_1 = \mathbf{r}_0 - \alpha_0A\mathbf{p}_0 = \begin{bmatrix} 0 \\ 0 \end{bmatrix}\)

因为残差为零,停止迭代,解为\(\mathbf{x} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

第12章:线性代数在概率和统计中的应用

12.1 基本概念

均值、方差、协方差:使用向量和矩阵表示数据集的统计量。

示例:
设数据集\(\{\mathbf{x}_1, \mathbf{x}_2\}\),其中\(\mathbf{x}_1 = \begin{bmatrix} 1 \\ 2 \end{bmatrix}\)\(\mathbf{x}_2 = \begin{bmatrix} 3 \\ 4 \end{bmatrix}\)

均值:
\(\boldsymbol{\mu} = \frac{1}{2}(\mathbf{x}_1 + \mathbf{x}_2) = \begin{bmatrix} 2 \\ 3 \end{bmatrix}\)

协方差矩阵:
\(C = \begin{bmatrix} 2 & 2 \\ 2 & 2 \end{bmatrix}\)

12.2 多元高斯分布

高斯分布的矩阵形式:
\(f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x} - \boldsymbol{\mu}))\)

示例:
\(\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}\)\(\boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}\)\(\Sigma = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\),则:
\(f(\mathbf{x}) = \frac{1}{2\pi} \exp(-\frac{1}{2}(x_1^2 + x_2^2))\)

12.3 最小二乘法

数据拟合:使用最小二乘法在给定数据集上拟合线性模型。

公式:
\(\mathbf{w} = (X^TX)^{-1}X^T\mathbf{y}\)

示例:
给定数据集\(\{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2)\}\),其中\(\mathbf{x}_1 = \begin{bmatrix} 1 \\ 2 \end{bmatrix}\)\(y_1 = 3\)\(\mathbf{x}_2 = \begin{bmatrix} 3 \\ 4 \end{bmatrix}\)\(y_2 = 5\)

设计矩阵:
\(X = \begin{bmatrix} 1 & 3 \\ 2 & 4 \end{bmatrix}\)\(\mathbf{y} = \begin{bmatrix} 3 \\ 5 \end{bmatrix}\)

计算:
\(X^TX = \begin{bmatrix} 10 & 14 \\ 14 & 20 \end{bmatrix}\)\(X^T\mathbf{y} = \begin{bmatrix} 18 \\ 26 \end{bmatrix}\)

解方程\((X^TX)\mathbf{w} = X^T\mathbf{y}\)
\(\begin{bmatrix} 10 & 14 \\ 14 & 20 \end{bmatrix}\begin{bmatrix} w_1 \\ w_2 \end{bmatrix} = \begin{bmatrix} 18 \\ 26 \end{bmatrix}\)

可以使用高斯消元法或矩阵求逆求解\(\mathbf{w}\)

posted @ 2025-02-05 10:30  归游  阅读(69)  评论(0)    收藏  举报