Live2D Demo

香港中文大学(深圳) MAT2041 - Linear Algebra and Applications 笔记

PDF下载链接

笔记包括2025年春学期该课程的内容
所有知识点截图均来自Cosme Louart教授的课件

期中前

  • l2-Norm,即向量的模长,\(||\alpha||_2\)或只写\(||\alpha||\)

    性质:

    \(||v||\geq0,\ ||v||=0\Leftrightarrow v=0\)

    \(||cv||=|c|\ ||v||\)

    Symmetry 对称性:\(<v,w>=<w,v>\)

    对任意非零向量\(v\)\(\frac{v}{||v||}\)是元向量

    \(cos\theta=\frac{<v,w>}{||v||\ ||w||}\leq 1\)

    Cauchy Inequality 柯西不等式: \(|<v,w>|\leq||v||\ ||w||\)

    Triangle Inequality: \(||v+w||\leq ||v||+||w||\)

    Pythagoras Law: \(||v||^2+||w||^2=||v-w||^2\Leftrightarrow<v,w>=0\)

    1向量是所有元素都是1的向量,不是模长为1的向量

  • 表示矩阵的一行时用\(A^T_{(i)}\),表示矩阵的一列时用\(A_{(i)}\)

  • Coefficient Matrix和Augmented Matrix: 分别不包含和包含最右侧表示线性方程组等号右侧常数的那个列向量

  • \(x,y\)均为列向量,则\(<x,y>=x^Ty\)

  • 一个线性方程组是否是overdetermined, underdetermined或square只取决于未知数数量和方程数量的大小关系

  • Diagonal Matrix 对角矩阵:只有\(i=j\)的位置非零的矩阵,不一定要是正方形

  • Elementary Row Operations 矩阵的初等行变换 包括:

    • 将一行乘上一个非零标量
    • 将一行加上另一行与一个标量的乘积
    • 交换两行
  • Commutative交换律 Associative结合律 Distributive分配律

    矩阵乘法满足结合律和分配律,不满足交换律

  • \((AB)^T=B^TA^T\neq A^TB^T\)

    对更多矩阵的乘积也是类似,也就是\((\prod_{i=1}^n A_i)^T=\prod_{i=1}^nA_{n+1-i}^T\)

  • Symmetric Matrix 对称矩阵:转置后为自身的矩阵

  • Outer Product 向量的外积(张量积,和MAT1002学的外积/叉积不是一个东西)

    uv均为列向量,则外积为\(uv^T\)

  • 分块矩阵的乘法:什么情况下能乘?

    • Rule 1: A的列数等于B的行数
    • Rule 2: A第一行每个矩阵的列数 与 B第一列每个矩阵的行数 一一对应相等
  • Pivot 主元:高斯消元时某行中的第一个非零元素,用来进行消元。主元是矩阵中的一个坐标,也是这个坐标上的值

  • Row-Echelon Form 行阶梯形矩阵:

    image-20250224163945073

    Reduced Row-Echelon Form 简化行阶梯形矩阵:行阶梯形矩阵中每个主元1上方的元素都是0

    如果一个矩阵有RREF,那么通过交换列可以使这个矩阵的左上角出现一个对角矩阵

    • 没有系数全为0的行:唯一解
    • 系数全为0的行中有矛盾行(等号右侧非0):无解
    • 否则:无穷多组解

    最右侧那一列(等号右侧的)一般不算作这两种矩阵的一部分

  • Inverse 矩阵的逆:若\(AB=BA=I_n\),则\(B=A^{-1}\)

    Invertible 矩阵的可逆性:\(\exist B\ s.t.\ B=A^{-1}\)

    Singular 奇异矩阵,也就是不可逆的矩阵

    Uniqueness of Matrix Inverse:

    image-20250224190631579
  • 若A可逆,则线性系统\(Ax=b\)有唯一解\(x=A^{-1}b\)

    • \(A(A^{-1}b)=AA^{-1}b=b\Rightarrow A^{-1}b\)是一组解
    • \(A(x-y)=0\Rightarrow A^{-1}A(x-y)=A^{-1}0\Rightarrow x-y=0\Rightarrow x=y\)
  • 矩阵的逆的性质

    • 对角矩阵有逆当且仅当对角所有元素非零,其逆为\(A^{-1}_{i,i}=\frac1{A_{i,i}}\)
    • 三角矩阵有逆的充要条件同上
    • 上/下三角矩阵的逆是上/下三角矩阵
    • AB均为大小为n的可逆矩阵,则AB可逆且\((AB)^{-1}=B^{-1}A^{-1}\)
  • Elementary Matrix 初等矩阵:与恰好一个初等行变换相对应的矩阵

    三种初等矩阵:

    image-20250303170100544 image-20250303170122135 image-20250303170136009
  • Lower-Upper(LU) Decomposition: 将一个\(n\times n\)矩阵分解为一个下三角矩阵和一个上三角矩阵的乘积,需保证消元过程中不发生行的交换

    过程:先高斯消元得到上三角矩阵\(U\),再把其中的每一步表示为一个初等矩阵\(E_i\),则\(A=(E_kE_{k-1}\cdots E_1)^{-1}U\)

  • PLU Decomposition: 任何\(n\times n\)矩阵\(A\)都可以被表示为\(PA=LU\)的形式,其中\(P\)是一个置换矩阵

    image-20250303174636330

    \(P\)的选择:把正常高斯消元过程中做的所有交换行的操作叠加起来得到

    image-20250303175232915
  • 矩阵是否可逆:

    对于一个\(n\times n\)矩阵,以下陈述等价

    • \(A\)可逆
    • \(Ax=0\)有唯一解
    • \(A\)是若干初等矩阵的乘积
    • \(A\)有n个主元
    • \(A\)的各列线性无关/生成空间是\(\mathbb R^n\)/是一组基
    • \(dim(C(A))=n\)/矩阵的秩为\(n\)
    • \(Ax=b\)对任意\(b\)有解(也就是\(\forall b\)\(b\in C(A)\))

    对于一个\(m\times n\)矩阵,以下陈述等价:

    • \(Ax=0\)有唯一解(可以用来判断一些向量是否线性无关)
    • \(A\)的各列线性无关
    • \(A\)有n个主元(当\(m>n\)时)

    引理:若\(MA=I_n\),且\(M\)可逆(其实这个条件不需要,但暂时不需要会证明),则\(A^{-1}=M\)

  • 求矩阵的逆:消元成\(I_n\)的过程中对一个初始为\(I_n\)的矩阵执行同样的操作

  • 一般长方形矩阵的 Row-Echelon Form

    image-20250304203643748

    一般长方形矩阵的 Reduced Row-Echelon Form: 行阶梯形矩阵中每个主元1上方的元素都是0

  • Linear Space 线性空间(又称向量空间)

    \(V\)是一个定义了加法和标量乘法的集合,则\(V\)是线性空间当且仅当:

    1. 满足加法交换律,\(u+v=v+u(u,v\in V)\)

    2. 满足加法结合律,\(u+(v+w)=(u+v)+w(u,v,w\in V)\)

    3. 存在加法单位元,\(u+0=u(u\in V)\)

    4. \(u\in V\),存在\(-u=(-1)u\)

    5. 满足标量乘法的分配律,\(\alpha(u+v)=\alpha u+\alpha v(\alpha\in R;u,v\in V)\)

    6. \((\alpha+\beta)u=\alpha u+\beta u(\alpha,\beta\in R;u\in V)\)

    7. \(\alpha(\beta u)=(\alpha\beta)u(\alpha,\beta\in R;u\in V)\)

    8. \(1u=u(u\in V)\)

    例子:欧氏空间,\(\mathbb R^n\)被称为n-dimensional Euclidean Space

    验证是否是线性空间的流程:

    1. 满足5种运算律:1,2,5,6,7(一种交换律,两种结合律,两种分配律)

    2. 任何一些元素的线性组合都在集合内

    3. 存在3种关键性质/元素:加法单位元(是集合中的元素),加法逆元(是集合中的元素),标量乘法单位元(标量1),3,4,8

    • Subspace 子空间:\(W\)\(V\)的子空间当且仅当\(W\)\(V\)的非空子集且\(W\)是一个线性空间

      验证一个线性空间的子集是否是子空间的流程:

      • 加法封闭性
      • 数乘封闭性
      • 存在加法单位元
    • Linear Independence 线性无关

      \(V\)为一个线性空间,\(u_1\cdots u_k\in V\),若\(\forall c_1\cdots c_k\in\mathbb R\ s.t.\ (c_1,\cdots,c_k)\neq(0,\cdots,0)\)\(\sum_{i=1}^k c_iu_i\neq 0\),则\(u_1\cdots u_k\)线性无关,否则为线性相关

    • Homogeneous Linear System: \(Ax=0\),其中\(x\)未知

    • Null Space 零空间

      \(Ax=0\)的解集是\(A\)的零空间,是一个线性空间,也是\(\mathbb R^n\)的子空间

      对一个RREF求其零空间的一组基的方法:

      image-20250326233430915
    • Span 生成空间

      \(span(U)=\{\sum a_iu_i|a_i\in\mathbb R\}\)

      \(span(U)=V\),则\(U\)\(V\)的Spanning Set(生成集)

      • 判断是否是线性空间:用定义/是否是一个线性空间的子空间/是否是一个集合的生成空间

        例:

        image-20250310143523460
    • Column Space 列空间

      \(A\)的列空间是其所有列向量的生成空间,表示为\(C(A)\)

      \(Ax=b\)有解\(\Leftrightarrow\)\(b\in C(A)\)

      • 重要结论:\(\forall A,C(AA^T)=C(A)\)

        证明:

        对于\(C(AA^T)\)中任意元素\(b=AA^Tx\),令\(y=A^Tx\),则\(b=Ay\),因此\(b\in C(A)\),因此\(C(AA^T)\subseteq C(A)\)

        由下面"矩阵的秩"中"重要结论"一栏得\(dim(C(AA^T))=dim(C(A))\),因此\(C(AA^T)=C(A)\)

    • \(Ax=b\)的解集:要么是空集,要么是\(x_p+N(A)\),其中\(x_p\)\(Ax=b\)的任意解

    • 关于线性相关集合生成空间的一个定理:

      image-20250310160352226
    • 线性空间的基(Basis):

      image-20250310160509976

      判断一个集合是否是一组基的过程

      1. 检查是否线性无关
      2. 检查原线性空间中任意元素是否都能被表示为其线性组合

      或:

      • \(n=\)维度且线性无关

      或:

      • \(n=\)维度且生成空间是原线性空间
    • 线性空间的维度(Dimension):一组基的大小,写作\(dim(V)\);若线性空间中只有加法单位元,维度为0

    • 矩阵的秩(Rank):\(r=dim(Row(A))=dim(C(A))=\)主元数量。证明:先消成RREF,然后证行列空间的维度都=主元数量

      • \(r=m\to\) full row rank;\(r=n\to\) full column rank;\(r=min\{m,n\}\to\) full rank

      • 重要结论:\(\forall A,rank(A)=rank(A^T)=rank(AA^T)\)

        证明:

        \(A\in\mathbb R^{m\times n}\)。首先证明\(\forall x,A^Tx=0\Leftrightarrow AA^Tx=0\)

        • 从左到右:\(AA^Tx=A0=0\)
        • 从右到左:\(AA^Tx=0\Rightarrow x^TAA^Tx=0\Rightarrow ||A^Tx||^2=0\Rightarrow A^Tx=0\)

        因此\(N(A^T)=N(AA^T)\)\(rank(A^T)=rank(AA^T)=n-dim(N(A^T))=n-dim(N(AA^T))\)。又因为\(rank(A)=rank(A^T)\),所以\(rank(A)=rank(AA^T)\)

        该证明出现于Quiz 3

    • Orthogonality 正交性

      • \(<u,v>=0\),则\(u\perp v\)
      • \(\forall v\in V,u\perp v\),则\(u\perp V\)
      • \(\forall u\in U,v\in V,u\perp v\),则\(U\perp V\)(其中\(U,V\)是线性(子)空间,注意此定义在\(\mathbb R^3\)中和"两平面互相垂直"不同)
      • Orthogonal Complement: \(\perp U\)的向量的集合(\(U\)是一个线性空间的一个子集),是一个线性空间,表示为\(V=U^{\perp}\);一个线性空间的任意子集的Orthogonal Complement唯一

      关于正交性的一个定理:

      image-20250317223622072
    • Fundamental Theorem of Linear Algebra

      \(A\in\mathbb R^{m\times n}\)

      • \(N(A)=Row(A)^{\perp},dim(N(A))=n-rank(A)\)
      • \(N(A^{T})=C(A)^{\perp},dim(N(A^{T}))=m-rank(A)\)

      • 例:给出\(n,m,r\),求\(Ax=b\)可能的解集大小

        计算\(dim(N(A))=n-r\),然后分\(b\in/\notin C(A)\)讨论

    • Four Fundamental Subspaces

      image-20250317225316289

期中后

  • Least Squares Problem 最小二乘问题

    • 定义:给定\(A\in\mathbb R^{m\times n},b\in\mathbb R^{m\times1}\),最小二乘问题为\(min_{x\in\mathbb R^{n\times1}}||Ax-b||\)

      \(\forall x,||Ay-b||\leq||Ax-b||\),则\(y\)是该问题的解,称\(y\)为Regression Vector。注意\(y\)不一定是\(Ax=b\)的解

    • 用行表示:找到\(x\ s.t.\ ||Ax-b||^2=\sum_{i=1}^m (A^T_ix-b_i)^2\)最小

    • 用列表示:找到\(p\in C(A)\ s.t.\ ||b-p||\)最小

    • Orthogonal Projection 正交投影:若\(S\)\(\mathbb R^m\)的子空间,\(p\in S,b-p\perp S\),则\(p\)\(b\)\(S\)上的投影(the projection of b onto S,\(\forall z\in S,||b-p||\leq||b-z||\))

    • 最小二乘问题的解法

      1. 目标:找到\(y\ s.t.\ b-Ay\perp C(A)\)

      2. \(b-Ay\perp C(A)\Leftrightarrow A^TAy=A^Tb\)(证明简单),其中\(A^TAy=A^Tb\)称为正规方程(Normal Equation)

      3. \(C(A^TA)=C(A^T)\),因此\(dim(C(A))=n\Rightarrow A^TA\)可逆

      4. 因此\(dim(C(A))=n\)时,\(y=(A^TA)^{-1}A^Tb\)

  • 正交集和正交基

    • Orthogonal Set 正交集:一个向量集合\(\{v_1\cdots v_k\}\),满足\(\forall i,v_i\neq0;\forall i,j\ s.t.\ i\neq j,<v_i,v_j>=0\)。一个正交集中的向量线性无关,证明方法:假设\(\sum c_iv_i=0\),取一个\(c_i\neq0\)\(v_i\),并把等式两边同时乘上\(v_i\)

      Orthonormal Set 标准正交集:每个元素的模长都为1的正交集

    • Orthonormal Basis 标准正交基:是一个线性空间的一组基的标准正交集

    • Orthogonal Matrix 正交矩阵:所有列构成\(\mathbb R^n\)的一组标准正交基的一个\(n\times n\)矩阵。是正交矩阵的充要条件:\(Q^TQ=I_n\)。正交矩阵的5个性质:

      • 所有列构成\(\mathbb R^n\)的一组标准正交基

      • \(Q^TQ=I_n\)

      • \(Q^{-1}=Q^T\)

      • \(<Qx,Qy>=<x,y>\)

      • \(||Qx||=||x||\)

      最后两条的证明:用矩阵乘法表示内积,然后直接展开即可

    • 把一个向量表示为一组标准正交基中元素的线性组合的方法:\(v=\sum_{i=1}^n<v,u_i>u_i\)

    • \(U\)为一个由 一些线性无关的向量 组成的集合,可以用Gram-Schmidt Process求出\(span(U)\)的一组标准正交基:

      • \(w_i=u_i-\sum_{j=1}^{i-1}proj_{v_j}u_i=u_i-\sum_{j=1}^{i-1}||u_i||\frac{<u_i,v_j>}{||u_i||\cdot||v_j||}\frac{v_j}{||v_j||}=u_i-\sum_{j=1}^{i-1}<u_i,v_j>v_j \ (\forall i\in[1,k])\)

      • \(v_i=\frac{w_i}{||w_i||}\)

      • \(\{v_1\cdots v_k\}\)为答案

      这样搞的动机还挺好理解的,不证明

  • Determinant (\(n\times n\)矩阵,即方阵的)行列式:其绝对值是矩阵的所有行/列向量围成的高维平行多面体的体积(用行向量计算和用列向量计算的结果是一样的)

    不是方阵的矩阵没有行列式

    行列式\(=0\Leftrightarrow\)行/列向量线性相关,因此可以用来判断矩阵可逆性等

    矩阵\(A\)的行列式表示为\(|A|\)\(det(A)\)

    • 计算行列式的值要用到的性质(前四个用上面提到的几何意义理解):

      • \(\begin{vmatrix}a_1&a_2&a_3\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}=\begin{vmatrix}a_1&0&0\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}+\begin{vmatrix}0&a_2&0\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}+\begin{vmatrix}0&0&a_3\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}\)
      • \(\begin{vmatrix}a_1&0&0\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}=\begin{vmatrix}a_1&0&0\\0&b_2&b_3\\0&c_2&c_3\end{vmatrix}+\begin{vmatrix}0&0&0\\b_1&b_2&b_3\\c_1&c_2&c_3\end{vmatrix}\)
      • \(\begin{vmatrix}a_1&0&0\\0&b_2&b_3\\0&c_2&c_3\end{vmatrix}=a_1\begin{vmatrix}b_2&b_3\\c_2&c_3\end{vmatrix}\)
      • 有一行或一列全为0的矩阵的行列式的值为0
      • 交换矩阵任意两行或两列,行列式的值变号
    • 具体计算方法(使用上面列出的结论得到):

      \(A\in\mathbb R^{n\times n}\)\(M_{i,j}\)\(A\)删去第\(i\)行和第\(j\)列的矩阵(称为\(a_{i,j}\)的minor,余子式)

      \(det(A)=\sum_{j=1}^n(-1)^{1+j}det(M_{1,j})a_{1,j}\)

      用其他的行和列也可以计算(Laplace Expansion):

      \(det(A)=\sum_{i=1}^n(-1)^{i+k}det(M_{k,i})a_{k,i}\)

      \(det(A)=\sum_{i=1}^n(-1)^{i+j}det(M_{i,j})a_{i,j}\)

    • 初等行变换对行列式的影响

      • 交换两行:取反
      • 一行乘\(\alpha\):行列式乘\(\alpha\)
      • 一行加上另一行的倍数:不变

      因此可以通过初等行变换来简化计算

    • 其他性质

      • 三角矩阵的行列式是对角线元素的乘积(由"初等行变换对行列式的影响"得)
      • \(det(AB)=det(A)det(B)\)(已知初等矩阵和任意矩阵乘积的行列式等于行列式的乘积。因此若\(A\)不可逆则左边\(=\)右边\(=0\);可逆则把\(A\)拆分成若干初等矩阵的乘积得)
      • \(det(A^{-1})=\frac1{det(A)}\)(由上一条得)
    • Applications & Tricks

      • 通过初等行变换快速计算行列式

        例:Assignment 5.3

        image-20250411140947964
  • Linear Transformation 线性变换

    • (前置知识) Mapping 映射:对于两个集合\(V,W\),若\(\forall v\in V\),存在唯一的\(w=T(v)\in W\),则称\(T\)\(V\)\(W\)的一个映射,\(V\)称为定义域(Domain),\(W\)称为陪域(Codomain)。映射的符号为\(\mapsto\),或者直接用普通箭头表示也可以

      映射的类型(课程内容里没有,只是觉得重要想写一下):

      1. Injective 单射:\(\forall v_1,v_2\in V,T(v_1)\neq T(v_2)\)
      2. Surjective 满射:\(\forall w\in W,\exist v\in V\ s.t.\ T(v)=w\)
      3. Bijective 双射:既是单射又是满射,即\(V,W\)中元素存在一一对应的关系
      4. 一般的情况:不是以上任何一种
    • 线性变换是针对线性空间而言的,不是线性空间的集合没有线性变换

    • 元素是向量的线性空间的线性变换

      • 定义

        \(f:V\mapsto W\)满足以下条件(\(V,W\)为线性空间),则称其为\(V\)\(W\)的一个线性变换:

        \(f(\alpha x+\beta y)=\alpha f(x)+\beta f(y)\),即"线性组合后的向量的线性变换\(=\)线性变换后的向量的线性组合"

      • 性质和检验

        • \(f(0)=0\)
        • \(f(\alpha x)=\alpha f(x)\)
        • \(f(x+y)=f(x)+f(y)\)
      • 用矩阵表示此种线性变换:\(\forall f:\mathbb R^n\mapsto\mathbb R^m,\exist A\in\mathbb R^{m\times n}\ s.t.\ f(x)=Ax\),且\(A=[f(e_1)\cdots f(e_n)]\),其中\(\{e_1\cdots e_n\}\)\(\mathbb R^n\)的标准基(即\(e_i\)的第\(i\)个元素是1,其余均为0)

      • 将一个矩阵\(A\)代表的线性变换作用到一些向量上之后,这些向量构成的高维平行多面体的体积变化的比例为\(det(A)\)。这是\(det(AB)=det(A)det(B)\)的几何证明

    • 其他线性空间的线性变换

      • 定义(基本一样)

        \(f:V\mapsto W\)满足以下条件(\(V,W\)为线性空间),则称其为\(V\)\(W\)的一个线性变换:

        \(f(\alpha x+\beta y)=\alpha f(x)+\beta f(y)\),即"线性组合后的元素的线性变换\(=\)线性变换后的元素的线性组合"

      • 用矩阵表示任意形式的线性变换:\(\forall f:V\mapsto W\);令\(\{v_1\cdots v_n\},\{w_1\cdots w_m\}\)分别为\(V,W\)的一组基;再令\(f(v_j)=a_{1,j}w_1+\cdots+a_{m,j}w_m\)\(a_j=[a_{1,j}\cdots a_{m,j}]^T\),则\(A=[a_1\cdots a_n]\)\(A\)\(f\)的一个矩阵形式。

        理解:将两个线性空间(\(V,W\))中的每个元素分别表示成各自的一组基的一个线性组合,并将线性组合中的系数序列作为该元素的一个"替身",则这些替身构成了两个元素是向量的线性空间,它们之间的线性变换的矩阵表示可以用之前提到的方法来求

  • (方阵的)特征值、特征向量和特征基:

    • 特征值和特征向量

      • 定义

        对于\(A\in\mathbb C^{n\times n}\)(\(\mathbb C\)是复数域),若存在\(\lambda\in\mathbb C,x\in\mathbb C^n ,x\neq 0\)使得\(Ax=\lambda x\),则\(\lambda\)\(A\)的一个特征值(Eigenvalue),\(x\)\(\lambda\)对应的一个特征向量(Eigenvector)

      • 求法

        若特征值确定,则解线性系统\((A-\lambda I)x=0\)可得到特征向量的值(每个\(\lambda\)对应至少一个特征向量),因此需要求出可能的\(\lambda\)的值。为了让\(x\)有非零解,需有\(det(A-\lambda I)=0\)\(p_A(\lambda)=det(A-\lambda I)\)(此处Cosme Louart教授课件中的表示似乎有误)称为\(A\)的特征多项式(Characteristic Polynomial),\(p_A(\lambda)=0\)称为特征方程(Characteristic Equation),解特征方程可以得到所有可行的\(\lambda\)的值。\(N(A-\lambda I)\)称为\(\lambda\)对应的特征空间(Eigenspace),其中除零向量外,其余向量均是\(x\)的可能值

        特征多项式的次数为\(n\),因此特征值在\(\mathbb C\)中有\(n\)个解(可能有重复的),其中如果有重复,则每种值的重复次数(即代数重数)是一定的,不可随意更改。比如特征多项式为\((x-1)^2(x-2)\),那么特征值就一定是两个1和一个2,不能是一个1和两个2或是其他什么东西

      • 性质

        对称矩阵有两个特征值\(a,b,a\neq b\)\(c,d\)分别是\(a,b\)的一个特征向量,则一定有\(cd\)正交

        一个值作为特征值出现的次数被称为该特征值的代数重数,这个值对应的特征向量构成的线性空间被称为其特征空间,其维度被称为这个特征值的几何重数。永远有一个特征值的几何重数\(\leq\)其代数重数

    • 特征基(Eigenbasis)

      • (前置知识)Multiset 多重集:允许元素重复的集合,表示为\(\#\{\cdots\}\)

        例:\(\#\{a,b,a\}\)\(\#\{a,a,b\}\)被认为是同一个多重集

      • (前置知识)Linear Space over \(\mathbb C\):指其中标量来自复数域\(\mathbb C\)的线性空间

        例:\(\mathbb C^n\)是,\(\mathbb R^n\)不是

        \(z\in\mathbb C^n\),则\(\overline z^Tz=\sum|z_i|^2\)(由复数运算规则得)

      • 定义和一些性质

        若从\(A\)的所有特征向量(无论其对应的特征值是什么、是否有重复)中选取一些组成一个集合,满足其是\(\mathbb C^n\)的一组基,则这个集合是\(A\)的一组特征基

        一个方阵\(A\)不一定有特征基

        \(A\)有特征基,则可以从其\(n\)个特征值(无论其是否有重复)对应的特征向量中各取一个,共取出\(n\)个向量,来构成一组特征基

      • 特征基存在的一个充分条件

        (实际上,在这个条件下矩阵的特征基甚至可以是一组标准正交基)

        分步推导:

        1. \(AV=VD\),其中\(D\)是一个元素为\(\lambda_1\cdots\lambda_n\)的对角矩阵,则有\(\forall i,Av_i=\lambda_iv_i\)(直接把\(V\)按列展开计算得)。因此,若这个条件满足,则有\(V\)的各列是\(A\)的特征向量

        2. 实矩阵(所有元素都是实数的矩阵)\(A\)是对称矩阵\(\Leftrightarrow A\)可以写成\(A=VDV^T\)的形式;其中\(V\)是正交矩阵(回顾:正交矩阵是所有的列构成一个标准正交基的矩阵,其性质为\(W^T=W^{-1}\)),\(D\)是对角矩阵,且它们两个中的所有元素\(\in\mathbb R\)

          证明:

          • 从右向左推导

            \[\begin{align} A^T&=(VDV^T)^T\\ &=(V^T)^T\ (VD)^T\\ &=V\ D^TV^T\\ &=VDV^T\\ &=A \end{align} \]

          • 从左向右推导

            Spectral Theorem 谱定理:任意实对称矩阵\(A\)能够被写成\(A=VDV^T\)的形式;其中\(V\)是正交矩阵,\(D\)是对角矩阵,且它们两个中的所有元素\(\in\mathbb R\)(证明略)

        3. \(A\)是实对称矩阵,由2、1依次得:\(A=VDV^T\)\(AV=VD\)\(V\)是标准正交基,同时也是\(A\)的一组特征基

        最终得出的充分条件:A是实对称矩阵

        在这个条件下,不同特征值对应的特征向量正交,所有特征值和特征向量都由实数组成,且特征向量可以组成\(\mathbb R^n\)的一组基

    • 特征值的性质

      • \(\sum\lambda_i=\sum a_{i,i}=tr(A)\),其中\(tr(A)\)被称为矩阵\(A\)的迹(Trace)
      • \(\prod\lambda_i=det(A)\)
      • \(\forall k>0\),若\(EIG(A)=\#\{\lambda_1\cdots\lambda_n\}\),则\(EIG(A^k)=\#\{\lambda_1^k\cdots\lambda_n^k\}\)
      • \(A\)可逆,则\(EIG(A^{-1})=\#\{\lambda_1^{-1}\cdots\lambda_n^{-1}\}\)

      对于前两条,\(n=2\)的情况可以轻易用韦达定理证明

  • Similar Matrices 相似矩阵

    \(\exist S\ s.t.\ A=SBS^{-1}\),则称\(AB\)相似,表示为\(A\sim B\)

    此时\(EIG(A)=EIG(B)\),其中\(EIG\)表示特征向量组成的多重集,证明:\(det(B-\lambda I)=0\Rightarrow det(SBS^{-1}-\lambda I)=0\Rightarrow det(S(B-\lambda I)S^{-1})=0\Rightarrow det(S)det(B-\lambda I)det(S^{-1})=0\Rightarrow det(B-\lambda I)=0\)

    • Diagonalizable 可对角化

      若矩阵\(A\sim D\),其中\(D\)为对角矩阵,则称\(A\)可对角化

      \(A\)可对角化\(\Leftrightarrow A\)有特征基,证明:

      • 从左向右推导

        \(AD\)相似,因此两者特征值多重集相等,因此\(D\)中对角元素是\(A\)的特征值;又因为\(AS=SD\),因此\(S\)的各列是\(A\)的特征向量;又因为\(S\)可逆,因此\(S\)各列线性无关,因此\(S\)的各列是一组特征基

      • 从右向左推导

        \(S\)为以\(A\)的特征基为列向量构成的矩阵,\(D\)\(A\)的特征值作为元素构成的对角矩阵;由于\(rank(S)=n\),因此\(S\)可逆,因此\(AS=SD\Rightarrow A=SDS^{-1}\)

    • Eigenvalue Decomposition (EVD) 特征值分解

      \(A\)表示为\(A=VDV^{-1}\)的形式,其中\(V\)中的列是一组特征基(\(V\)不一定是正交矩阵),\(D\)是对角矩阵,其中元素是\(A\)的特征值

      注意:谱定理中有"任意实对称矩阵\(A\)能够被写成\(A=VDV^T\)的形式",但谱定理的这个分解不是特征值分解,因为谱定理要求\(V\)的列是一组标准正交基,而特征值分解中仅要求是一组特征基

  • (实矩阵的)奇异值、奇异向量和奇异值分解

    • Singular Value Decomposition (SVD) 奇异值分解

      任意\(A\in\mathbb R^{m\times n}\)可以被表示为\(A=U\Sigma V^T=\sum_{i=1}^{min(m,n)}\sigma_iu_iv_i^T\),其中\(U\in\mathbb R^{m\times m},V\in \mathbb R^{n\times n}\)是两个正交矩阵,\(\Sigma\)是一个\(m\times n\)的对角矩阵,其元素为\(\{\sigma_1\cdots\sigma_{min(n,m)}\}\)以下所有内容都建立在默认该陈述成立的基础上,而不是在解释该陈述

      推论:由以上陈述和转置的性质知,\(AA^T=U(\Sigma\Sigma^T)U^T,A^TA=V(\Sigma^T\Sigma)V^T\);由于\(U,V\)是正交矩阵,因此\(U^{-1}=U^T\)\(V\)也是;因此\(AA^T\sim\Sigma\Sigma^T,A^TA\sim\Sigma^T\Sigma\),因此两两之间\(EIG\)分别相同;又因为\(\Sigma\)是对角矩阵,所以\(AA^T,A^TA\)的非零特征值组成的多重集相同

      因为\(\Sigma\Sigma^T\)是一个对角矩阵,由上面"可对角化"中"从左向右推导"的部分得,\(U\)的各列是\(AA^T\)的一组特征基,被称为\(A\)的左奇异向量(Left-singular Vectors);\(V\)的各列是\(A^TA\)的一组特征基,被称为\(A\)的右奇异向量。所有\(\sigma_j\)被称为\(A\)的奇异值,\(\sigma_j=\sqrt{\lambda_j}\),其中\(\{\lambda_j\}\)\(AA^T,A^TA\)所共有的特征值(不一定非零,但由于\(AA^T\)是实对称矩阵,其一定全部非负)

    • Compact SVD 紧凑奇异值分解

      任意\(A\in\mathbb R^{m\times n}\),令其秩为\(r\),可以被表示为\(A=U_r\Sigma_rV_r^T=\sum_{j=1}^r\sigma_ju_jv_j^T\),其中\(U_r\in\mathbb R^{m\times r},V_r\in\mathbb R^{n\times r}\)是两个 各列是互相正交的单位向量 的矩阵,\(\Sigma_r\in\mathbb R^{r\times r}\)是一个对角矩阵

      image-20250504223817158
    • 性质

      矩阵的秩等于其(考虑重数的)非零奇异值的数量,不一定等于其非零特征值的数量

  • 求奇异值分解的具体方法

    1. \(AA^T\)特征值为\(\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_r>0\),其余特征值为0(非零特征值数量与矩阵的秩相等是实对称矩阵的一个性质)。用\(\sigma_j=\sqrt{\lambda_j}\)直接求出\(\Sigma\)

    2. 观察:\(\forall i\leq r\),对于右奇异向量中的一个\(v_i\),有\(A^TAv_i=\lambda_iv_i\Rightarrow v_i=A^TA\frac{v_i}{\lambda_i}\in C(A^TA)=R(A)\);对于\(i>r\),有\(A^TAv_i=0\Rightarrow v_i\in N(A)\)

    3. 求右奇异向量

      • \(V\)的前\(r\)

        用到的性质:对称矩阵每个特征值的代数重数=几何重数,对称矩阵不同特征值对应的特征向量正交

        因此在每个不同的特征值对应的特征空间中选一组正交基即可

      • \(V\)其余部分

        由2知其前\(r\)列是\(R(A)\)的一组基,又因为\(R(A),N(A)\)正交,因此从\(N(A)\)中取一组正交基即可

    4. 求左奇异向量

      • \(U\)的前\(r\)

        直接使用公式\(u_i=\frac{Av_i}{\sigma_i}\)

        推导:令\(e_i\)表示第\(i\)个标准基向量。\(Av_i=U\Sigma V^Tv_i\Rightarrow Av_i=U\Sigma e_i=\sigma_iu_i\Rightarrow\)原式

        为了更好理解,提供一部分反向的正确性证明:可以直接计算得出\(u_i\)确实是特征向量。证明\(||u_i||=1\)\(A^TAv_i=\lambda_iv_i\Rightarrow v_i^TA^TAv_i=\lambda_iv_i^Tv_i\Rightarrow ||Av_i||^2=\lambda_i\cdot 1\Rightarrow ||Av_i||=\sigma_i\),带入得证

      • \(U\)其余部分

        类似上面,从\(N(A^T)\)中取一组正交基即可

  • Quadratic Form 二次形式

    对于实对称矩阵\(A\),称函数\(f(x)=x^TAx\)是一个二次形式。若把\(x\)中每个元素看成一个未知数,\(f(x)\)展开式中每一项次数都为2

    • 矩阵的正定性分类

      一个实对称矩阵\(A\)至少满足以下5条中的一条:

      • Positive Semidefinite (PSD) 正半定\(\Leftrightarrow \forall x\in\mathbb R^n,x^TAx\geq 0\),写作\(A\succeq0\)
      • Positive Definite (PD) 正定\(\Leftrightarrow \forall x\in\mathbb R^n\text{\\}\{0\},x^TAx>0\),写作\(A\succ0\)
      • Indefinite 不定\(\Leftrightarrow x,y\in\mathbb R^n\ s.t.\ x^TAx<0<y^TAy\)
      • Negative Semidefinite (NSD) 负半定\(\Leftrightarrow \forall x\in\mathbb R^n,x^TAx\leq 0\),写作\(A\preceq0\)
      • Negative Definite (ND) 负定\(\Leftrightarrow \forall x\in\mathbb R^n\text{\\}\{0\},x^TAx<0\),写作\(A\prec0\)

      在本课程中,PD和PSD矩阵必须是实对称的(在某些教科书里可以不是实对称的所以要特别声明一下)

    • 正定性判断:PD与PSD的等价条件

      image-20250505215557147

      证明比较长(但不难),可以问AI

    • 二次形式的应用:判断形如\(ax^2+bxy+cy^2+dx+ey+f=0\)的曲线的形状

      先转为:\(x^TAx+w^Tx+f=0\),其中\(A=\bigl[ \begin{smallmatrix} a & b/2 \\ b/2 & c \end{smallmatrix} \bigr],w=\bigl[ \begin{smallmatrix} d\\ e \end{smallmatrix} \bigr]\)

      计算\(A\)的特征值,如果为两正或两负,则是椭圆(Ellipsoid);如果为一正一负,则是双曲线(Hyperbola);其余情况本课程暂不考虑

    • 转标准形式:将\(ax^2+bxy+cy^2=d\)转为标准形式

      首先表示为\(x^TAx=d\),然后求出\(A\)的特征值,则标准形式为\(\lambda_1y_1^2+\lambda_2y_2^2=d\)

posted @ 2025-04-09 21:11  LegendStane  阅读(322)  评论(0)    收藏  举报