你疑似有点太线代化了
- I. Vector Spaces
- II. Linear Transformation and Matrices
- II.I. Linear Transformations, Null Spaces, and Ranges
- II.II. The Matrix Representation of a Linear Transformation
- II.III. Composition of Linear Transformations and Matrix Multiplication
- II.IV. Invertibility and Isomorphisms
- II.V. The Change of Coordinate Matrix
- II.VI. Dual Spaces
- II.VII. Homogeneous Linear Differential Equations with Constant Coefficients
- III. Elementary Matrix Operations and Systems of Linear Equations
- IV. Determinants
- V. Diagonalization
- VI. Inner Product Spaces
- VI.I. Inner Products and Norms
- VI.II. The Gram - Schmidt Orthogonalization Process and Orthogonal Compliments
- VI.III. The Adjoint of a Linear Operator
- VI.IV. Normal and Self-Adjoint Operators
- VI.V. Unitary and Orthogonal Operators and Their Matrices
- VI.VI. Orthogonal Projections and the Spectral Theorem
- VI.VII. The Singular Value Decomposition and the Pseudoinverse
- VI.VIII. Bilinear and Quadratic Forms
- VII. Canonical Forms
- Ex. Extra Notions
I. Vector Spaces
I.I. Introduction
向量加法满足 平行四边形法则(Parallelogram Law for Vector Addition)。
向量的长度可以被 标量乘法(scalar multiplication)修改。两非零向量平行,若 \(\b y=t\b x\)。
I.II. Vector Spaces
关于域 \(F\) 定义的 线性空间(Linear Space)/向量空间(Vector Space) \(\s V\) 是关于向量加法和标量乘法定义的代数结构,满足:
- 对于 \(\s V\) 中的两个元素 \(\b x,\b y\),存在唯一元素 \(\b x+\b y\)。
- 对于 \(F\) 中元素 \(t\) 和 \(\s V\) 中元素 \(\b x\),存在唯一元素 \(t\b x\)。
- 满足其它一堆交换律、结合律、分配律之类。
\(F\) 中的元素称作 标量(scalars),而 \(\s V\) 中的元素称作 向量(vectors)。
\(F\) 上的一个 \(n\) 元组(\(n\)-tuple with entries from \(F\))是 \((a_1,a_2,\dots,a_n)\),其中的每个 \(a_i\) 称作 \(n\) 元组的 项(entry)或 成分/元素(component)。
\(F\) 上全体 \(n\) 元组构成集合记作 \(\s F^n\),则其是关于 \(F\) 定义的一个线性空间。\(\s F^n\) 中的元素往往被记作列向量
特别地,一元组也可以被当成 \(F\) 中的单一元素,所以 \(\s F^1\) 常被直接写成 \(F\)。
\(m\times n\) 矩阵是 \(m\) 行 \(n\) 列矩阵,其中项被记作如 \(a_{ij}\) 形式。对角项(diagonal entry)称呼 \(i=j\) 的项。零矩阵被记作 \(O\)。
I.III. Subspaces
关于 \(F\) 定义的向量空间 \(\s V\) 拥有向量空间 \(\s W\) 作为 子空间(subspace),若 \(\s W\) 是 \(\s V\) 的子集,且 \(\s W\) 关于 \(F\) 是向量空间。
验证子空间只需验证如下条款:
- 加法封闭。
- 标量乘法封闭。
- 存在零元(勿忘!这是为了保证子空间非空)。
矩阵 \(A\) 的 转置(transpose) 记作 \(A^t\)。对称矩阵(symmetric matrix)是转置等于自身的矩阵。易验证全体对称矩阵组成的空间是全体方阵空间的子空间。对角矩阵(diagonal matrix)是仅有对角线元素可能非零的矩阵。对角矩阵全体亦是子空间。零子空间(zero subspace)是仅含零元的子空间。
矩阵的 迹(trace)是全体对角线元素之和,记作 \(\tr(M)\)。所有零迹矩阵构成子空间。
子空间的交仍是子空间。
上三角(upper triangular)矩阵是对角线下方元素均为零的矩阵。上三角矩阵构成子空间。
斜对称矩阵/交错矩阵/反对称矩阵(skew symmetric matrix)是满足 \(A^t+A=0\) 的矩阵。斜对称矩阵全体构成子空间。
I.IV. Linear Combination and Systems of Linear Equations
令 \(S\) 是线性空间 \(\s V\) 的子集。\(\s V\) 中的元素 \(\b v\) 被称作 \(S\) 中元素的 线性组合(linear combination)如果存在标量 系数(coefficient) \(u_1,\dots,u_n\) 使得 \(\b v=\sum u_i\b s_i\)。
全体线性组合称作该集合的 生成集合(span),记作 \(\span(S)\)。所有的生成集合都是子空间。且若子空间 \(\s U\) 包含 \(S\),则其必然包含 \(\span(S)\)。
\(S\) 生成(generate/span)子空间 \(\s V\),若 \(\span(S)=\s V\)。也可以说 \(S\) 中向量共同生成 \(\s V\)。
I.V. Linear Dependence and Linear Independence
一组集合称为 线性相关(adj.linearly dependent; n.linear dependence)的,若存在非零系数使其组合出 \(0\);通过全零系数组合出零被称作 平凡表示(trivial representation)。反之,非线性相关即为 线性无关(adj.linearly independent; n.linear independence)。
线性无关集合的子集均为线性无关;反之,线性相关集合的超集均为线性相关。
对于线性无关的集合 \(S\) 和向量 \(\b v\),\(S\cup\{\b v\}\) 线性无关当且仅当 \(\b v\notin\span(S)\)。
I.VI. Bases and Dimension
线性空间的 基(basis)是线性无关且生成之的集合。令基为 \(\beta=\{\b u_1,\dots,\b u_n\}\),则此时线性空间中每个元素 \(\b v\) 均存在唯一系数 \(a_1,\dots,a_n\) 使得
可以被有限集合生成的线性空间均可以找到该集合的子集作为一组基。换言之,有限生成集合(finite spanning set)可以被收缩为基。
取代定理(replacement theorem):对含 \(n\) 个元素的集合 \(G\) 生成的线性空间 \(\s V\),若 \(L\) 是 \(\s V\) 中的一个线性无关的 \(m\) 元子集,则 \(m\leq n\) 且可以从 \(G\) 中挑选 \(n-m\) 个向量组成 \(H\),并使用 \(L\cup H\) 生成 \(\s V\)。
初始令 \(H=G\),每次尝试引入 \(L\) 中一个元素,并开除 \(H\) 中一个元素。
考虑当前尝试引入 \(\b v\)。其在 \(H\) 和 \(L\) 的前半下共同展开为 \(\sum a_i\b u_i+\sum b_i\b w_i\),其中 \(\b u_i\) 来自 \(H\)、\(\b w_i\) 来自 \(L\) 的前半。因为 \(L\) 线性无关,所以 \(a_i\) 不可能全非零,于是从中挑出任一一个非零元 \(a_i\b u_i\),用 \(\b v\) 换掉 \(\b u_i\) 即可。
于是得到推论:任两组有限基含同数目元素。
一个线性空间是 有限维(finite-dimentional)的,若其任一组基含有限元素。该基的元素数目称作该线性空间的 维数(dimention)\(\dim(\s V)\)。非有限维即为 无限维(infinite-dimentional)
推论:对于 \(n\) 维线性空间 \(\s V\):
- 其有限生成集含至少 \(n\) 元素;含恰 \(n\) 元素的有限生成集即为基。
- 线性无关集含至多 \(n\) 元素;含恰 \(n\) 元素的线性无关集即为基。
- 任一线性无关集可被扩充为基。
子空间的维数必然小于母空间的维数,且若二者等维则子空间等于母空间。
I.VII. Maximal Linearly Independent Subsets
对于集族 \(\c F\),其中的极大集合不存在包含之的其它集合。集族 \(\c C\) 是一个 链(chain/nest/tower),若其中任两集合总有一包含另一。
Zorn 引理/第一极大原理(Maximal Principle):所有链都存在上界(包含链中所有集合为子集的集合)的集族存在极大元。
注意:以下定理与前一节中所述有区别,具体而言是其可以在无穷维线性空间中生效!
定理:极大线性无关子集是基。
因为 \(\s V\sube\span(S)\) 不然可以塞元素。
定理:线性无关集可以扩充为基。
考虑集族 \(\c F\) 为全体含该集的线性无关集,使用 Zorn 引理即证其中所有链有极大元。
考虑链中全体集合的并集,只需证其线性无关即有其属于 \(\c F\) 进而是极大元。
若其线性相关则其存在有限个元素的线性组合为零,这有限个元素必然同归属于链中某个集合,则该集合线性相关,出现矛盾,故其必然线性无关,故其有极大元,故其有基。
II. Linear Transformation and Matrices
II.I. Linear Transformations, Null Spaces, and Ranges
一个函数 \(\s T:\s U\to\s V\) 是 线性映射(linear transformation),若:
- \(\forall\b x,\b y\in\s U,\s T(\b x)+\s T(\b y)=\s T(\b x+\b y)\)。
- \(c\s T(\b x)=\s T(c\b x)\)。
线性映射的验证只需验证 \(\s T(a\b x+\b y)=a\s T(\b x)+\s T(\b y)\)。
\(\s I_{\s V}:\s V\to\s V\) 指 恒等映射(identity transformation)。\(\s T_0:\s V\to\s W\) 指 零映射(zero transformation)。
一个映射的 零空间(null space)/核(kernel)\(\s N(\s T)\) 指满足 \(\s T(\b x)=0\) 的全体 \(\b x\) 构成集合。易验证其是 \(\s V\) 的子空间。一个映射的 值域(range)/像(image)\(\s R(\s T)\) 指全体 \(\s T(\b x)\) 构成的集合。易验证其是 \(\s W\) 的子空间。
定理:若 \(\s V\) 有基 \(\beta\),则
映射的 零化度(nullity)\(\nullity(\s T)\) 是 \(\s N(\s T)\) 的维数,而映射的 秩(rank)\(\rank(\s T)\) 是 \(\s R(\s T)\) 的维数。
定理:
考虑 \(\s T(\beta)=\gamma\)。将 \(\gamma\) 排序,使得前 \(\rank(\s T)=m\) 个 \(\gamma\) 构成 \(\s R(\s T)\) 的基(因为任何生成集总是可以被缩减为基)。则对于后 \(n-m\) 个 \(\gamma\),有唯一一种分解为前 \(m\) 个 \(\gamma\) 线性组合的方法。
现在考虑零空间中的一个元素。考虑后 \(n-m\) 个 \(\beta\) 的系数确定,则其像对应的后 \(n-m\) 个 \(\gamma\) 的系数亦被确定。现在要其为像为零,只能靠前 \(m\) 个系数来消它。因为每个 \(\gamma\) 被消掉的方法唯一确定,所以因像为零,则前 \(m\) 个系数也确定。故:后 \(n-m\) 个 \(\beta\) 的系数可任选,一旦选定则前 \(m\) 个 \(\beta\) 的系数则确定,故零空间维数即为 \(n-m\)。以上分析有误,因为后 \(n-m\) 个系数任选不可推得零空间维数为 \(n-m\)。
考虑令 \(\beta_1,\dots\beta_k\) 为零空间基。扩充 \(\beta_{k+1},\dots,\beta_n\) 为 \(\s V\) 基。
对于 \(\s T(\s V)\) 的一个元素,其必然可以写成 \(\s T(\sum u_i\beta_i)\) 的形式。但是前 \(\beta_1,\dots,\beta_k\) 都有 \(\s T(\beta_k)=0\),因此可以只考虑 \(\beta_{k+1}\sim\beta_n\),也即 \(\s T(\beta_{k+1\sim n})\) 是 \(\s R(\s T)\) 的生成集。
因为这些元都不属于零空间,且其所有线性组合均不属于零空间,可知 \(\s T(\beta_i)\) 的任一非平凡线性组合均不可能组出 \(0\),因此其为基。
推论:单射当且仅当 \(\s N(\s T)=\{0\}\)。
等有限维线性空间 \(\s V,\s W\) 通过线性映射 \(\s T\) 联系时,以下条件相等:
- \(\s T\) 是单射。
- \(\s T\) 是满射。
- \(\rank(\s T)=\dim(\s V)\)。
条件三与条件一等价。
满射则单射:若 \(\s T(\b x)=\s T(\b y)\),则 \(\s T(\b x-\b y)=0\)。
单射则满射:\(\s T\) 会把基映到线性无关集(因为若基的映射线性组合得到零,则零就被多射了),有限场合即为基。【也可以使用:子空间维数等于母空间则子空间等于母空间定理】
- 注意:非有限维的场合单射、满射无法互推。
对于 \(\s V\) 的基 \(\beta\) 和 \(\s W\) 的集合 \(\gamma\),\(\s T:\beta_i\mapsto\gamma_i\) 的 \(\s T\) 唯一。
推论:验证两线性变换是否相同只需验证基是否具有相同的像。
II.II. The Matrix Representation of a Linear Transformation
有序基(ordered basis)为字面意思:按顺序标好号的基向量们。则线性空间中的一个向量有其 关于有序基的坐标向量(coordinate vector relative to an ordered basis),记作 \([\b x]_\beta\),其是其唯一分解中各基系数排列成的列向量。这可以被看作一个 \(\s V\to\s F^n\) 的线性变换,易知该变换是双射。
对于线性变换 \(\s T:\s V\to\s W\),令 \(\s V\) 有基 \(\beta\),\(\s W\) 有基 \(\gamma\),则使用全体 \(\s T(\beta)\) 可以描述该 \(\s T\),而描述其的方式可以使用 \(\gamma\) 意义下的坐标向量们拼成一个矩阵:第 \(i\) 列即为 \([\s T(\beta_i)]_\gamma\)。该矩阵称作 线性变换关于有序基的矩阵表示(matrix representation),记作 \([\s T]_\beta^\gamma\);在线性变换的定义域等于值域且两有序基相同时,也可以简写为 \([\s T]_\beta\)。
在全体 \(\s V\to\s W\) 的函数集合上,也可以定义加法和标量乘法。全体线性变换关于加法和标量乘法成线性空间,该线性空间记作 \(\c L(\s V,\s W)\)。该线性空间通过 \([\s T]_\beta^\gamma\) 双射于矩阵线性空间。
II.III. Composition of Linear Transformations and Matrix Multiplication
线性映射的复合仍是线性映射;线性映射的复合放到矩阵表示下就是矩阵乘法;即,
Kronecker delta 函数 \(\delta_{ij}=[i=j]\)。其等效于对角矩阵 \(I_n:(I_n)_{ij}=\delta_{ij}\)。
易验证矩阵乘法与标量乘法间的交换律、结合律。
易验证 \([\s T(\b x)]_\gamma=[\s T]_\beta^\gamma[\b x]_\beta\)。因此 \(m\times n\) 矩阵的左乘对应着 \(\s F^m\to\s F^n\) 的线性映射 \(\s L_A(\b x)=A\bf x\)。此乃 左乘变换(left-multiplication transformation)。左乘变换双射于矩阵。
一个 关联矩阵(incidence matrix)可以被看作图论中的邻接矩阵,即 \(01\) 且对角线为零的矩阵。一个 支配矩阵(dominance matrix)是特殊的关联矩阵:其满足 \(A+A^T+I=\text{全一矩阵}\),即 \(A_{ij}=1\) 当且仅当 \(A_{ji}=0\);若 \(A_{ij}=1\),则称 \(i\) 支配(dominate)\(j\)。支配矩阵 \(A\) 满足如下性质:\(A+A^2\) 至少存在一行或一列除对角线全非零,即至少存在一个人可以在不超过两步内支配所有人或被所有人支配。
考虑 \(i\) 是支配最多人的人。若其没有支配 \(j\),则 \(j\) 必然支配 \(i\);\(j\) 不可能支配全体被 \(i\) 支配的人,否则 \(j\) 就比 \(i\) 支配更多人;因此必然有一个被 \(i\) 支配的人支配 \(j\),进而 \(i\) 在两步以内支配 \(j\)。
因此:任一支配人数最多者满足条件;任一被最多人支配者亦满足条件。
II.IV. Invertibility and Isomorphisms
对于 \(\s T:\s V\to\s W\),称其 可逆(invertible),若存在 \(\s U:\s W\to\s V\) 使得 \(\s{TU}=\s I_\s W\) 且 \(\s{UT=I_V}\)。称 \(\s U\) 为 \(\s T\) 的 逆元(inverse)。逆元唯一,记作 \(\s T^{-1}\)。
线性可逆映射的逆亦是线性可逆的。
同理可知,\(n\times n\) 矩阵 \(A\) 可逆若存在 \(B\) 满足 \(AB=BA=I\)。
可逆映射必然发生在等维空间(或者同为无穷维)之间。
两个存在可逆映射的线性空间称为 同构(isomorphic)的。同构构成等价关系。
可知:有限维线性空间同构当且仅当等维。\(m\) 维线性空间到 \(n\) 维线性空间的线性变换全体同构于 \(m\times n\) 矩阵全体。
线性空间 \(\s V\) 关于有序基 \(\beta\) 的标准表示(standard representation)是线性映射 \(\Phi_\beta:\s V\to\s F^n,\b x\mapsto[\b x]_\beta\)。
II.V. The Change of Coordinate Matrix
对于 \(\s V\) 的两组基 \(\beta,\beta'\),令 \(Q=[\s{I_V}]_{\beta'}^\beta\)(即 \(\beta'\) 中的每个基向量在 \(\beta\) 上的分解),则:
- \(Q\) 可逆。
- \([\b x]_\beta=Q[\b x]_{\beta'}\)。
该 \(Q\) 称作 坐标系变换矩阵(change of coordinate matrix),其 将 \(\beta'\) 坐标系变换为 \(\beta\) 坐标系(change \(\beta'\)-coordinates into \(\beta\)-coordinates)。
\(\s V\) 至自身的双射称作 线性算子(linear operator)。线性算子在 \(\beta\) 系和 \(\beta'\) 系下的矩阵表示可能不同:此时要研究二者间的关系,
发现:
换言之,因为 \([\s T]_\beta\) 其实是 \([\s T]_\beta^\beta\) 的简称,所以其实是
推论:令 \(A\in\s M_{n\times n}(F)\),\(\gamma\) 是 \(\s F^n\) 的一组基,则 \([\s L_A]_\gamma=Q^{-1}AQ\)。
\(A\) 其实是在标准基下左乘变换 \(\s L_A\) 的矩阵表示;\(Q\) 是 \(\gamma\) 到标准基的坐标变换矩阵。
两个矩阵 相似(similar)若存在 \(Q\) 使得 \(B=Q^{-1}AQ\)。
II.VI. Dual Spaces
线性函数(linear function)是从线性空间到标量(一维线性空间)的线性变换,常常用小写字母 \(\s f,\s g\) 等表示。
全体 \([0,2\pi]\) 上连续函数构成无穷维线性空间 \(\s V\)。Fourier 系数(Fourier coefficient)
是 \(\s V\to\R\) 上的线性函数。
基 \(\beta\) 下第 \(i\) 个坐标函数(\(i\)-th coordinate function with respect to the basis \(\beta\))是将 \(\b x\) 映到其在基 \(\beta\) 下第 \(i\) 分量值的线性变换,可记作 \(\s f_i\)。
关于 \(F\) 定义的线性空间 \(\s V\),其对偶空间为 \(\c L(\s V,F)\),记作 \(\s V^*\)。显然,若 \(\s V\) 是有限维空间,则 \(\s V^*\) 与其等维。
定理:\(\beta\) 是 \(\s V\) 的基,则 \(\beta^*=\{\s f_1,\dots,\s f_n\}\) 是 \(\s V^*\) 的一组基,且对于任一 \(\s f\in\s V^*\),有
有 \(\b x=\sum\s f_i(\b x)\beta_i\),于是 \(\s f(\b x)=\sum\s f(\beta_i)\s f_i(\b x)\),也即 \(\s f\) 可以被 \(\s f_i\) 线性表出,则 \(\s f_i\) 是 \(\s V^*\) 的生成集,且 \(\s f\) 的元素数目等于 \(\s V^*\) 的维数。
定理:若 \(\s V,\s W\) 分别有基 \(\beta,\gamma\),对于 \(\s T:\s V\to\s W\),其对偶 \(\s T^t:\s W^*\to\s V^*,\s g\mapsto\s g\s T\) 是线性变换,且 \([\s T^t]_{\gamma^*}^{\beta^*}=([\s T]_\beta^\gamma)^t\)。由此我们可以定义一个映射的 转置(transpose)。可见:映射转置则其矩阵表示亦转置。
对于向量 \(\b x\),令 \(\hat{\b x}:\s V^*\to F,\hat{\b x}(\s f)=\s f(\b x)\),则 \(\hat{\b x}\) 是 \(\s V\) 的二阶对偶 \(\s V^{**}\) 中元素。可以证明 \(\b x\mapsto\hat{\b x}\) 是双射,因此 \(\s V\cong\s V^{**}\)。
II.VII. Homogeneous Linear Differential Equations with Constant Coefficients
关于未知函数 \(y=y(t)\) 的(一元)微分方程(differential function)如果是如下形式的方程:
其中 \(a_i,f\) 都是关于时间的函数,则其是 线性(linear)的。若 \(f\) 是零函数,则其被称作 齐次(homogeneous)的。若 \(a_i\) 均为常数,则其是 常系数(constant coefficient)的。
\(n\) 阶(order)常系数齐次线性微分方程的标准形式是
导数算子 \(\s D=\dfrac{\d}{\d t}\) 是 \(\scr C^\infty\to\scr C^\infty\) 的线性算子。因此上式可以被写成
于是对于常系数齐次微分方程,可以定义其对应的 辅助多项式(auxiliary polynomial)
然后写成
\(p(\s D)\) 是线性算子,则全体解 \(y\) 是其零空间中元素,因此全体解构成 \(\scr C^\infty\) 中一线性空间(零空间),称作 解空间(solution space)。
\(p(\s D)\) 作为 \(n\) 阶多项式,在复数域上总是可以被因式分解为
每个 \(y'=c_iy\) 的解均为 \(\span(e^{c_iy})\)。因此,若 \(c\) 是 \(p(t)\) 的根,则 \(e^{ct}\) 是解空间中元素。
- 但如果有重根咋办?
定理:解空间维数等于微分方程阶数。
引理:算子 \(\s D-c\s I:\scr C^\infty\to\scr C^\infty\) 总是满射,也即对于一切 \(v\),都存在 \(u\) 使得 \((\s D-c\s I)u=v\),也即方程 \(u'-cu=v\) 对于一切 \(v\) 均有解。
- 证明靠微积分中的常数变易法。
引理:对于 \(\s V\) 上线性算子 \(\s U,\s T\),若有 \(\s U\) 满射、\(\s U,\s T\) 零空间有限维,则
\[\s{\dim(N(TU))=\dim(N(T))+\dim(N(U))} \]
考虑 \(\s N(\s U)\) 的基 \(\beta_{1\sim m}\)。其张成空间中任一元均经 \(\s U\) 映到零,再经 \(\s T\) 仍是零,故其中任一元亦为 \(\s N(\s{TU})\) 中元素,则其为 \(\s N(\s{TU})\) 中线性无关集。可以扩张为基底 \(\beta_{1\sim n}\)。
因为 \(\s U\) 是满射,所以对于每个 \(\b x\in\s N(\s T)\),必然存在 \(\b y\) 使得 \(\s U(\b y)=\b x\),进而 \(\s U(\beta)=\gamma\) 必然生成 \(\s N(\s T)\)。
其中,\(\gamma_{1\sim m}=0\)。若存在 \(c_{m+1\sim n}\) 使得 \(\sum\limits_{i=m+1}^nc_i\gamma_i=0\),则 \(\s U(\sum\limits_{i=m+1}^nc_i\beta_i)=0\),但 \(\beta_{m+1\sim n}\) 并非 \(\s N(\s U)\) 中元素,因此不合法,故 \(\gamma_{m+1\sim n}\) 线性无关,是 \(\s N(\s T)\) 的基。故 \(\dim(\s N(\s U))=m,\dim(\s N(\s T))=n-m,\dim(\s N(\s{TU}))=n\)。
通过以上二引理可以证明该定理。对 \(p(\s D)\) 归纳,每次复合上一个满射的 \(\s D-c\s I\) 即可。
没有重根时,对于不同的 \(c_i\),\(e^{c_it}\) 彼此线性无关,可成为基。
引理:若 \(c\) 是 \(n\) 重根,则易验证 \(e^{c_it},\dots,t^{n-1}e^{c_it}\) 均是线性无关解。
然后即知常系数齐次线性微分方程的通解,即零空间的一组基。
III. Elementary Matrix Operations and Systems of Linear Equations
III.I. Elementary Matrix Operations and Elementary Matrices
基础行变换(elementary row operation)指下述变换之一:
- 交换两行。
- 将任一行乘以非零标量。
- 将任一行的标量倍加到另一行上。
基础列变换(elementary column operation)同理。三种操作分别对应着三 类(type)基础矩阵。
对 \(I_n\) 进行基础行变换后得到的矩阵被称作 基础矩阵(elementary matrix)。不区分基础行矩阵和基础列矩阵,因为易发现任一基础矩阵都存在一种行变换和一种列变换达到。
定理:基础行变换等效于左乘基础矩阵,而基础列变换等效于右乘基础矩阵。
基础矩阵总是可逆的,逆矩阵也是基础矩阵,且与原矩阵属于同一类基础矩阵。
III.II. The Rank of a Matrix and Matrix Inverses
一个矩阵的 秩(rank)是其对应的左乘变换的秩,也记作 \(\rank(A)\)。
对于线性变换 \(\s T\),有 \(\rank(\s T)=\rank([\s T]_\beta^\gamma)\)。
定理:对于 \(m\times n\) 矩阵 \(A\),若 \(P,Q\) 是可逆的 \(m\times m,n\times n\) 矩阵,则:
- \(\rank(PA)=\rank(A)\);
- \(\rank(AQ)=\rank(A)\);
- \(\rank(PAQ)=\rank(A)\)。
\(\s R(\s L_A\s L_Q)=\s L_A\s L_Q(\s F^n)=\s L_A(\s L_Q(\s F^n))\)。因为 \(\s L_Q\) 可逆所以其是满射,因此其等于 \(\s L_A(\s F^n)=\s R(\s L_A)\)。\(P\) 的场合同理(真的吗?)
因此基础行变换保秩。
定理:秩等于最大线性无关列数;等于列向量张成空间的维数。
因为在其对应的左乘变换的场合,其像集即为列向量张成空间;故左乘变换的秩即等于列向量张成空间维数。
定理:任一矩阵通过 Gauss 消元都可以被消成如下形式:
其中 \(0\) 代指任意形状的全零矩阵,且 \(k\) 等于秩。
推论:对于 \(A\) 存在可逆 \(B,C\) 将 \(A\) 消成如前述的 \(BAC\)。
推论:矩阵的秩等于矩阵转置的秩(对 \(BAC\) 转置即可),故行秩等于列秩,等于最大线性无关行向量数目或列向量数目。
推论:可逆矩阵总可以表为基础矩阵之积。
定理:对于 \(\s T:\s V\to\s W,\s U:\s W\to\s Z\),有 \(\rank(\s U\s T)\leq\rank(\s U),\rank(\s{UT})\leq\rank(\s T)\);\(\rank(AB)\leq\rank(A),\rank(AB)\leq\rank(B)\)。
有 \(\s R(\s T)\sube\s W\),因此 \(\s U(\s R(\s T))\sube\s R(\s U)\),因此 \(\s R(\s {UT})\sube\s R(\s U)\);将 \(\s U\) 定义域限制为 \(\s R(\s T)\) 得到 \(\s U'\),于是 \(\rank(\s U')\leq\dim(\s U')=\rank(\s T)\)。
定义:对于 \(m\times n\) 的 \(A\) 和 \(m\times p\) 的 \(B\),其 增广矩阵(augmented matrix)\(A|B\) 是 \(m\times(n+p)\) 的矩阵,即在 \(A\) 右侧摆放 \(B\) 得到的矩阵。
为求出可逆矩阵的逆矩阵,在其右侧摆放 \(I_n\),当其被行变换消成 \(I_n\) 时,原本的 \(I_n\) 即被消成它的逆。
III.III. Systems of Linear Equations - Theoretical Aspects
线性方程组的 系数矩阵(coefficient matrix)为各变量前系数按顺序排列成的矩阵。此时线性方程组可以被写成解方程
的形式。满足上式的 \(\b x\) 被称作一个 解(solution)。全体解构成 解集(solution set)。一致(consistent)的方程组的解集非空;不一致(inconsistent)则为空。
齐次(homogeneous)的线性方程组满足 \(\b b=0\),反之则称为 非齐次(nonhomogeneous)。
齐次方程的解集即为其对应左乘变换的零空间,因此有
其中 \(\s K\) 为解空间。
非齐次方程 \(A\b x=\b b\) 对应的齐次方程 即指方程 \(A\b x=0\)。
定理:令 \(K\) 为非齐次方程解集,\(\s{K_H}\) 为对应齐次方程的解空间,则令 \(\b s\) 为 \(K\) 中任一元素,则有
若 \(\b s\) 是一解,\(\b s'\) 是一解,则 \(\b s-\b s'\) 即为齐次解,反之亦然。
定理:若 \(A\b x=\b b\) 满足 \(A\) 可逆,则其有唯一解,即 \(A^{-1}\b b\);反之,若有唯一解,则 \(A\) 可逆。
方程 \(A\b x=\b b\) 的 增广矩阵(augmented matrix)亦为 \(A|\b b\)。
定理:方程一致当且仅当 \(\rank(A)=\rank(A|\b b)\)。
这是因为,\(A\b x=\b b\) 有解当且仅当 \(\b b\) 可以由 \(A\) 的列向量线性表示。
III.IV. Systems of Linear Equations - Computational Aspects
两个方程组 等价 若其有相同解集。
定理:方程 \(A\b x=\b b\) 等价于方程 \((CA)\b x=C\b b\),若 \(C\) 是可逆矩阵。
推论:对 \(A|\b b\) 作初等行变换不改变解集。
一个矩阵是 约化行阶梯型矩阵(reduced row echelon form),若:
- 若某行有非零项,则其位于一切不含非零项的行之前。
- 每行的首个非零项是该列的唯一非零项。
- 每行的首个非零项为 \(1\),且位于前一行的首个非零项右侧。
约化行阶梯型矩阵唯一。求约化行阶梯型矩阵的方法被称作 Gauss 消元(Gaussian elimination)。
若增广矩阵的约化阶梯型矩阵中,某行中唯一非零项落在最后一行,则其不一致。
IV. Determinants
IV.I. Determinants of Order \(2\)
二阶矩阵 \(\bmat{a&b\\c&d}\) 的 行列式(determinant)被定义为标量 \(ad-bc\)。
行列式并非 \(\s M_{2\times2}(F)\to F\) 的线性变换;但它确实有一个好的线性性,即为:
- 当除了某一行/列外,其它位置全都固定时,行列式关于本行/列存在线性性。也即,有如 \(\det\bmat{\b u+k\b v&\b w}=\det\bmat{\b u&\b w}+k\det\bmat{\b v&\b w}\)。
Cramer 法则:二阶方阵逆矩阵可以写成
对于 \(\s R^2\) 的有序基 \(\beta=\{\b u,\b v\}\),其 定向(orientation)为
其 \(\in\pm1\)。右手系(right-handed system)的定向为 \(1\),反之为 \(-1\) 即为 左手系(left-handed system)。
两向量张成的平行四边形的有向面积即为其行列式的实际意义。有向面积的绝对值被记作 \(\A\bmat{\b u\\\b v}\)。
IV.II. Determinants of Order \(n\)
余子式(minor)是矩阵删掉一行一列并求行列式的结果,常常记作 \(\tilde A_{ij}\)。代数余子式(cofactor)则是其乘以 \((-1)^{i+j}\) 的结果。
对于 \(n\) 阶行列式,递归地定义之为
记代数余子式
于是有
称为 沿第一行的代数余子式展开(cofactor expansion along the first row)。
\(n\) 阶行列式同样满足关于某一行或列的线性性。证明归纳。
因此有结论:某行/列为零的矩阵行列式为零。
通过证明若某行/列向量为单位向量则其值即为对应位置的 \(A_{ij}c_{ij}\) 后,即可证明行列式可以关于任一行/列展开。
交换两行/列会使行列式取反;将一行的常数倍加到另一行上不改变行列式(对被加的那一行使用线性性展开为原矩阵和一个有重复行的矩阵),因此非满秩矩阵的行列式为零;一行乘以 \(k\) 倍则行列式乘以 \(k\);由此可以在 Gauss 消元的过程中维护行列式。
IV.III. Properties of Determinants
行列式的积等于积的行列式。
若两个 factor 中有一个不满秩,则因为积的秩不超过成分的秩,所以积必然不满秩,故此时二者均为零;若均满秩,则都可以分解为基础矩阵的积。
因此有推论:逆矩阵的行列式为倒数;转置矩阵的行列式不变(因为每个基础矩阵转置不变行列式)
Cramer 法则:令 \(A\b x=\b b\) 是方程。若 \(\det(A)\neq0\),则其有唯一解,且满足 \(x_k=\dfrac{\det(M_k)}{\det(A)}\),其中 \(M_k\) 是将 \(A\) 的第 \(k\) 列换成 \(\b b\) 得到的矩阵。
特别地,在某些证明题中,在 \(\det(A)=0\) 时,仍可以使用 \(\det(A)x_k=\det(M_k)\) 的式子,但此时其不再保证解唯一。
\(\b a_k\) 为其第 \(k\) 个列向量。令 \(X_k\) 为单位矩阵第 \(k\) 行换成 \(\b x\) 得到的矩阵,则计算 \(AX_k=M_k\)。对 \(X_k\) 关于第 \(k\) 列代数余子式展开得到 \(\det(X_k)=x_k\),于是 \(\det(A)x_k=\det(M_k)\),然后知 Cramer 法则。
使用 Cramer 法则可知,如 \(A\) 的行列式为 \(\pm1\),则整系数方程必有整数解。
Cramer 法则比起计算更适合拿来分析。 Cramer 法则有如下等价形式:
其中 \(C\) 是代数余子式矩阵。证明把 \(A^{-1}\) 的每一列掏出来代入方程组的 Cramer 法则即证。
IV.IV. Summary - Important Facts about Determinants
……唔,好像没提供任何有效信息的说。
IV.V. A Characterization of the Determinant
行列式是 \(n\)-线性函数(\(n\)-linear function)的例子,它是一类类似于 \(\s V^n\to F\) 的变换,满足对于 \(\s V^n\) 的每一维,固定其它仅变动这一维时,它是线性函数。
同时,它还具有 交错(alternating)的性质,即:相邻两行相同则函数值为零。分析可得,该性质在结合线性性后,等效于交换两行会取反函数值,或是任两行(不一定相邻)相同则函数值为零。
行列式是唯一一个满足下述性质的函数:
- \(n\)-线性。
- \(\delta(I)=1\)。
- 交错。
因为行列式的所有推理都只需如上三性质(使用矩阵的基本矩阵分解分析)。
V. Diagonalization
V.I. Eigenvalues and Eigenvectors
一个线性算子 \(\s T\) 被认为是 可对角化(diagonalizable)的,如果其在某个基 \(\beta\) 下的 \([\s T]_\beta\) 是对角矩阵;矩阵被认为是 可对角化 的,如果它对应的 \(\s L_A\) 可对角化。
对于使用 \(\beta\) 对角化的 \(\s T\),则 \(\s T(\beta_j)=D_{jj}\beta_j=\lambda_j\beta_j\),其中 \(\lambda_j=D_{jj}\);相反,若对于全体 \(\beta_i\) 都有 \(\s T(\beta_i)=\lambda_i\beta_i\) 则显然有 \([\s T]_\beta\) 为由 \(\lambda\) 构成之对角矩阵。
特征向量(eigenvector)是满足 \(\s T(\b v)=\lambda\b v\) 的向量 \(\b v\),其对应的 \(\lambda\) 称为 特征值(eigenvalue)。矩阵的场合同理。
定理:线性算子可对角化当且仅当存在由特征向量组成的一组基;而对一个矩阵/线性算子 对角化 即为寻找该特征向量的过程。
定理:\(\lambda\) 是特征值,当且仅当 \(\det(A-\lambda I_n)=0\)。
于是定义相应的 特征多项式(characteristic polynomial)为 \(f(x)=\det(F-xI_n)\)。
相似的矩阵总具有相同的特征多项式。
\(\det(P-\lambda I)=\det(Q)\det(P-\lambda I)\det(Q^{-1})=\det(QPQ^{-1}-\lambda I)\)。
因此,\(\s T\) 无论在哪个基下展开,得到的特征多项式均相同,故可以直接对线性算子定义特征多项式,记作 \(\det(\s T-\lambda\s I)\)。需要注意的是,具体计算特征多项式的场合,还是应依托具体基底展开再议。
定理:特征多项式是首项系数为 \((-1)^n\) 的 \(n\) 阶多项式,故有至多 \(n\) 个不等特征值。
定理:\(\b v\) 是 \(\s T\) 对应 \(\lambda\) 之特征向量,当且仅当 \(\b v\neq\b0\) 且 \(\b v\in\s N(\s T-\lambda\s I)\)。
定理:\(\b v\) 是 \(\s T\) 的特征向量,当且仅当其在 \(\beta\) 基意义下的展开 \([\b v]_\beta\) 是 \(\s T\) 在 \(\beta\) 基意义下的表示 \([\s T]_\beta\) 的特征向量。
V.II. Diagonalizability
定理:拥有两两不同特征值的线性算子,各特征值对应特征向量线性无关。
在线性相关时,取一组极大线性无关集 \(\b v_1,\dots,\b v_m\) 和一个基外的 \(\b v_0\),不妨令 \(\lambda_0\neq0\)(否则可以重新选一组基,用一个特征值非零的向量换掉 \(\b v_0\))。有
\[\b v_0=\sum_{i=1}^mc_i\b v_i \]于是
\[\lambda_0\b v_0=\s T(\b v_0)=\s T\left(\sum_{i=1}^m c_i\b v_i\right)=\sum_{i=1}^mc_i\lambda_i\b v_i \]则
\[\b v_0=\sum_{i=1}^mc_i\dfrac{\lambda_i}{\lambda_0}\b v_i \]因为特征值两两不同,所以必有 \(\dfrac{\lambda_i}{\lambda_0}\neq1\),因此 \(\b v_0\) 存在两组不同的系数展开,不合法,故假设不对,不存在基和基外的 \(\b v_0\),则其必然线性无关。
推论:不等特征值推出可对角化。
多项式 \(f(x)\in F[x]\) 在 \(F\) 上 分裂(splits over \(F\)),若其所有根都属于 \(F\)。
定理:可对角化线性算子的特征多项式必然在其定义线性空间 \(\s V\) 依托的域 \(F\) 上分裂。
因为其可对角化,所以存在特征向量与特征值,特征值都是 \(F\) 上标量。
定义:对于特征多项式的根 \(\lambda\),其 (代数)重数(algebraic multiplicity)是其作为重根数目。
若 \(\s T\) 通过特征向量基 \(\beta\) 可对角化,则每个 \(\lambda\) 会在对角矩阵 \([\s T]_\beta\) 的对角线上出现重数次。因此,研究可对角化性就是在研究对于每个 \(\lambda\) 能否找到与重数相等数目的特征向量。而特征向量都是 \(\s N(\s T-\lambda\s I)\) 的元素,因此该空间被称作 特征空间(eigenspace),可记作 \(\s E_\lambda\)。
定理:特征空间的维数 \(\dim(\s E_\lambda)\) 满足 \(1\leq\dim(\s E_\lambda)\leq m\),其中 \(m\) 是 \(\lambda\) 的重数。
首先,因为 \(\lambda\) 是特征值,则其至少有一个特征向量。
若存在 \(\b v_1,\dots,\b v_{m+1}\) 作为一组线性无关 \(\lambda\)-特征向量,则其可以被扩充为基 \(\beta\),此时
\[[\s T]_\beta=\bmat{\lambda I_{m+1}&A\\0&C}{} \]其中 \(A,B,C\) 为任意矩阵块。计算行列式可知,该坨东西必然有特征多项式含 \((\lambda-x)^{m+1}\) 的部分,与重数是 \(m\) 不符。
引理:自每个不同的 \(\lambda_i\) 的特征空间中取一个 \(\b v_i\),则 \(\sum\b v_i=0\) 当且仅当全体 \(\b v_i\) 均为零。
由本节开头定理推知。
推论:自每个不同的 \(\lambda_i\) 的特征空间中取一批线性无关的 \(\b v_i\),所有集合取并仍线性无关。
最终结论:矩阵可对角化,当且仅当全体特征空间维数等于重数;且此时,直接取每个特征空间的一组基,其并构成全空间一组基。
对于一阶常系数齐次微分方程组 \(\b x'=A\b x\),若是能对角化,那就再好不过了:因为此时有 \(\b x'=QDQ^{-1}\b x\),通过换元 \(Q^{-1}\b x=\b y\),有 \(\b y'=D\b y\),此时则可解。
定义:子空间的 和(sum)
特别地,如果对于所有的 \(\s W_j\) 均满足其与 \(\sum\limits_{i\neq j}\s W_i\) 交仅含 \(0\) 向量,则该和称作 直和(direct sum)。
注意,两两交为零向量并不符合要求。例如,过原点的全体直线两两交均为零向量,但最多仅能挑出两个作直和。
定理:以下条件等价:
- 母空间 \(\s V\) 由子空间 \(\s W_i\) 们直和得到。
- 由和得到,且满足:任一组自每个子空间各出一个向量且和为零的组合,必有全体向量为零。
- \(\s V\) 中的每个向量存在分解到每个 \(\s W_i\) 中的唯一方案。
- 每个 \(\s W_i\) 各取一个有序基,拼一块构成 \(\s V\) 的有序基。
- 上一条定理的存在版本(存在一组 \(\s W_i\) 的有序基,拼一块仍是有序基)。
使用直和语言,可知:\(\s T\) 可对角化,当且仅当特征空间直和为全空间。
V.III. Matrix Limits and Markov Chains
矩阵列收敛,若每个位置独立收敛。因为矩阵元素有限(换言之其实是一致收敛),所以易知矩阵极限与矩阵乘法、标量乘法均可交换。
现在考虑求复矩阵幂 \(A^n\) 的极限。有结论:其存在,当且仅当如下两条件均成立:
- 所有复特征值的模长均不超过 \(1\)。
- \(1\) 是特征值,则其特征空间维度等于重数。
第一条的证明考虑 \(A^n\b v\) 其中 \(\b v\) 是特征向量。
第二条的证明一光年以后会出现。
其中,第二条可以变成更强的“可对角化”,此时直接求 \(QDQ^{-1}\) 的幂次即可。
定义:复矩阵的 \(\rho_i(A)\) 为对第 \(i\) 行元素模长求和的结果;同理有对列模长求和的 \(\nu_i(A)\)。行和(row sum)函数 \(\rho(A)\) 和 列和(column sum)函数 \(\nu(A)\) 分别为二者各自的最大值。
定义 Gerschgorin 盘(Gerschgorin disk)为
则有如下的 Gerschgorin 盘定理(Gerschgorin's Disk Theorem):每个特征值必须落入某个 Ger 盘中。
若特征值 \(\lambda\) 对应特征向量 \(\b v=\bmat{v_1\\\vdots\\v_n}\)。则
\[\sum_{j=1}^nA_{ij}v_j=\lambda v_i \]取模长最大的 \(v_k\),则其必非零。下证 \(\lambda\in C_k\),即 \(|\lambda-A_{kk}|\leq\rho_i(A)-|A_{kk}|=r_k\)。
\[|\lambda v_k-A_{kk}v_k|=\left|\sum_{j\neq k}A_{kj}v_j\right| \\\leq\sum_{j\neq k}|A_{kj}||v_k|=|v_k|r_k \]然后知 \(|\lambda-A_{kk}|\leq r_k\)。
推论:全体特征值落入 \(\rho(A)\) 盘中;同理可知落入 \(\nu(A)\) 盘中,因此落入二者较小值盘中。
因此,对于概率转移矩阵,必然有全体特征值模长均不超过 \(1\)。且,因为稳定向量必存在,所以必存在 \(1\)-特征值。
定理:对于全正矩阵,若存在 \(|\lambda|=\rho(A)\),则必有 \(\lambda=\rho(A)\),且对应特征空间维数为一、特征向量为全一向量。
V.IV. Invariant Subspaces and the Cayley-Hamilton Theorem
一个 \(\s T\)-不变子空间(invariant subspace)是指满足 \(\s T(\s W)\sube\s W\) 的空间。
以下子空间必然是不变子空间:
- \(\s V\)。
- \(\{0\}\)。
- \(\s R(\s T)\)。
- \(\s N(\s T)\)。
- \(\s E_\lambda(\s T)\)。
易知:不变子空间的交、并都是不变子空间。
一个 由 \(\b x\) 生成的 \(\s T\)-循环子空间(\(\s T\)-cyclic subspace generated by \(\b x\)) 即为 \(\span(\{\b x,\s T(\b x),\s T^2(\b x),\dots\})\)。易证:循环子空间必是不变子空间。
定理:令 \(\s W\) 是 \(\s T\) 的不变子空间,则 \(\s T_\s W\),即 \(\s T\) 将定义域(和值域,因为 \(\s W\) 是不变子空间)缩减到 \(\s W\) 后得到的新线性算子,其特征多项式会是 \(\s T\) 特征多项式的因式。
考虑取 \(\s W\) 的一组基 \(\beta\),然后将其扩充为 \(\s T\) 的基并仍称其 \(\beta\)。考虑 \([\s T]_\beta\),会发现其必有
\[\bmat{A&B\\O&C} \]的形式,其中 \(O\) 是全零矩阵,而 \(A\) 即为 \([\s T_\s W]_\beta\)。然后易知特征多项式的相互关系。
故,通过 \(\s T_\s W\) 的特征多项式,我们得以一窥 \(\s T\) 的特征多项式。
定理:令 \(\s W\) 是由 \(\b x\) 生成的循环子空间,\(k\) 为其维数,则:
- \(\b x,\dots,\s T^{k-1}(\b x)\) 为 \(\s W\) 的基。
- 若 \(\s T^k(\b x)\) 的线性相关性由 \(\sum\limits_{i=0}^{k-1}a_i\s T^i(\b x)+\s T^k(\b x)=\b 0\) 保证,则 \(\s T_\s W\) 的特征多项式即为 \((-1)^k(x^k+\sum\limits_{i=0}^{k-1}a_ix^i)\)。
第一条可以证明,若
\[\s T^k(\b x)=\sum_{i=0}^{k-1}a_i\s T^i(\b x) \]则
\[\s T^{k+1}(\b x)=\s T\left(\sum_{i=0}^{k-1}a_i\s T^i(\b x)\right) \\=\sum_{i=0}^{k-1}a_i\s T^{i+1}(\b x) \\=a_{k-1}\s T^k(\b x)+\sum_{i=1}^{k-1}a_{i-1}\s T^i(\b x) \\=\sum_{i=0}^{k-1}(a_{i-1}+a_{k-1}a_i)\s T^i(\b x) \]进而可以归纳证明,若 \(\s T^k(\b x)\) 可以表示为 \(\b x,\dots,\s T^{k-1}(\b x)\) 的线性组合,则全体 \(k'\geq k\) 均可,这意味着基必须是一段前缀;又因为基向量数目等于维数,所以必须恰为前 \(k\) 个。
进而,在这组基下有
\[[\s T_\s W]_\beta=\bmat{0&0&\dots&0&-a_0\\1&0&\dots&0&-a_1\\\vdots&\vdots&\ddots&\vdots&\vdots\\0&0&\dots&0&-a_{k-2}\\0&0&\dots&1&-a_{k-1}} \]算这玩意的特征多项式即可。
Cayley-Hamilton 定理(Cayley-Hamilton Theorem):令 \(\s T\) 是线性变换,\(f(x)\) 为其特征多项式,则 \(f(\s T)=\s T_0\),即零变换(将所有元素映为零的变换)。
只需对于一切 \(\b x\) 证明 \(f(\s T)(\b x)=\b0\)。
对于 \(\b x\),取其生成的循环子空间 \(\s W\),其对应特征多项式 \(g(x)\) 满足
\[g(\s T)(\b x)=(-1)^k\sum_{i=0}^{k-1}a_i\s T^i(\b x) \\=(-1)^{k+1}\left(\s T^k(\b x)+\sum_{i=0}^{k-1}a_i\s T^i(\b x)\right) \\=0 \]而因为 \(g(x)\mid f(x)\),所以该条件对 \(f(\s T)(\b x)\) 亦成立。
推论:在矩阵的场合,令 \(f(x)\) 为 \(A\) 的特征多项式,则有 \(f(A)=O\),其中 \(O\) 为零矩阵。
定理:令 \(\s W_i\) 是 \(\s T\)-不变子空间,且满足 \(\s V=\bigoplus\limits_{i=1}^n\s W_i\),则令 \(f_i\) 为 \(\s T_{\s W_i}\) 的特征多项式,\(f\) 为 \(\s T\) 的特征多项式,则有 \(f=\prod f_i\)。
证明直接取基然后得到
\[[\s T]_\beta=\bmat{[\s T_{\s W_1}]_{\beta_1}\\&[\s T_{\s W_2}]_{\beta_2}\\&&\ddots\\&&&[\s T_{\s W_n}]_{\beta_n}} \]
在 \(\s T\) 可对角化的场合,满足 \(\s V=\bigoplus\limits\s E_{\lambda_i}\),且 \(\s E_\lambda\) 均为不变子空间,因此即有 \(f=\prod(\lambda_i-x)^{m_i}\)。
定义:两个矩阵的 直和(direct sum)为:
同理易定义多矩阵直和。注意,和子空间直和不一致的是,矩阵直和没有交换律。
于是,使用矩阵直和的描述方法,即有 \([\s T]_\beta=\bigoplus[\s T_{\s W_i}]_{\beta_i}\)。
VI. Inner Product Spaces
VI.I. Inner Products and Norms
在 \(\mathbb R\) 或 \(\mathbb C\) 这两个先天赋范的域上存在的线性空间上定义的一个映到 \(F\) 的二元函数 \(\ip\cdot\cdot\) 被称作 内积(inner product),如果它满足如下性质:
- (双)线性性 \(\ip{a\b x+b\b z}{\b y}=a\ip{\b x}{\b y}+b\ip{\b z}{\b y}\)。
- 交换性 \(\ovl{\ip{\b x}{\b y}}=\ip{\b y}{\b x}\),其中 \(\ovl z\) 为取复数共轭。(当然,这发生在定义域是数域的场合)
- 正定性 \(\ip{\b x}{\b x}>0\) 若 \(\b x\neq\b0\)。(其前提是 \(\ip{\b x}{\b x}\in\R\) 的性质,才能与 \(0\) 进行比较)
\(\s F^n\) 上的 标准内积(standard inner product)为
特别地,在 \(\s F=\mathbb R\) 的场合,共轭可以忽略。
一个矩阵的 共轭转置(conjugate transpose/adjoint)矩阵 \(A^*\) 满足 \((A^*)_{ij}=\bar A_{ji}\)。
通过共轭转置,可以定义两个矩阵的 Frobenius 内积(Frobenius inner product)
定义了内积的线性空间乃是 内积空间(inner product space);分 \(F\) 为实数域或复数域,可以有 实内积空间(real inner product space)或 复内积空间(complex inner product space)。甚至,\([-\pi,\pi]\) 上所有分段 Riemann 可积函数关于
也构成内积空间。
内积空间可以由内积本身推出一些额外的二级结论:
- \(\ip{\b x}{\b 0}=\ip{\b 0}{\b x}=0\)。
- 若对于全体 \(\b x\) 均有 \(\ip{\b x}{\b y}=\ip{\b x}{\b z}\),则必有 \(\b y=\b z\)。
依托内积空间可以定义 范数(norm) 或 长度(length) \(\|\cdot\|=\sqrt{\ip\cdot\cdot}\)。
范数满足特有的性质:
- Cauchy-Schwarz 不等式:\(|\ip{\b x}{\b y}|\leq\|\b x\|\|\b y\|\)。
- 三角不等式:\(\|\b x+\b y\|\leq\|\b x\|+\|\b y\|\)。
C-S 表达式的证明比较神奇。
取系数 \(c\),有
\[0\leq\|\b x-c\b y\|^2=\ip{\b x-c\b y}{\b x-c\b y} \\=\ip{\b x}{\b x}-\bar c\ip{\b x}{\b y}-c\ip{\b y}{\b x}+c\bar c\ip{\b y}{\b y} \]此时,取 \(c=\dfrac{\ip{\b x}{\b y}}{\ip{\b y}{\b y}}\),即有
\[0\leq\ip{\b x}{\b x}-\dfrac{|\ip{\b x}{\b y}|^2}{\ip{\b y}{\b y}}=\|\b x\|^2-\dfrac{|\ip{\b x}{\b y}|^2}{\|\b y\|^2} \]即得 C-S 不等式。
三角不等式直接拆 \(\ip{\b x+\b y}{\b x+\b y}\) 即可。
若 \(\ip{\b x}{\b y}=0\) 则称二者为 正交(orthogonal)或 垂直(perpendicular)。一个集合 正交 若其中向量两两正交。若 \(\|\b x\|=1\) 则称之为 单位向量(unit vector)。若正交集合中所有向量都是单位向量,则称之为 正交归一(orthonormal)。
特别地,\(S\) 正交归一当且仅当 \(\ip{\b v_i}{\b v_j}=\delta_{ij}\),其中 \(\delta\) 是 Kronecker Delta。另,对向量乘以非零标量不影响正交性,因此通过将全体向量乘以 \(\dfrac1{\|\b x\|}\) 令其归一的过程被称作 正则化(normalizing)。
VI.II. The Gram - Schmidt Orthogonalization Process and Orthogonal Compliments
内积空间中可以定义 单位正交基(orthonormal basis),即单位正交的基底。
定理:对于任一正交集合 \(S\),令 \(\b y\in\span(S)\),则有
若 \(\b y=\sum_{i=1}^na_i\b v_i\),则
\[\ip{\b y}{\b v_j}=\sum_{i=1}^na_i\ip{\b v_i}{\b v_j} \]而因为正交性,除 \(i=j\) 的场合,其它位置的内积均为零,故
\[\ip{\b y}{\b v_j}=a_i\ip{\b v_i}{\b v_i} \]除过去即可。
推论:元素全非零的正交集合必线性无关。【因为 \(\b 0\) 的线性表达可以由上式确定】
Gram-Schmidt 过程(Gram-Schmidt process)是一种由线性无关集合生成正交集合且不改变其张成空间的过程。它如下进行:
-
依次考虑第 \(i\) 个向量,并从中剔除那些与前 \(i-1\) 个向量的非正交分量。
-
写成数学语言就是,令 \(\{\b w_i\}\) 是线性无关集合,\(\{\b v_i\}\) 是由之构建之正交集合,则
\[\b v_k=\b w_k-\sum_{i=1}^{k-1}\dfrac{\ip{\b w_k}{\b v_i}}{\|\b v_i\|^2}\b v_i \]
全体 \(\b v_k\) 非零由线性无关性保证;于是只需证明 \(\b v_i,\b v_k\) 正交即可,证明同前一定了。
对 \([-1,1]\) 上全体多项式的基底 \(\{1,x,x^2,\dots\}\) 使用 G-S 正交化,可以得到一批多项式,被称作 Legendre 多项式。
定理:任一非零有限维线性空间均存在单位正交基。
对于内积空间 \(\s V\) 的正交归一子集 \(\beta\),元素 \(\b x\in\s V\) 的 Fourier 系数(Fourier coefficients)被定义为全体 \(\ip{\b x}{\beta_i}\)。
定义:对于内积空间 \(\s V\) 的子集 \(S\),其 正交补(orthonormal complement)\(S^\perp\) 由全体与 \(S\) 中每一个向量全部正交的元素构成。
定理:令 \(\s W\) 为内积空间 \(\s V\) 的有限维子空间,则 \(\s V\) 中每个向量 \(\b y\) 都可以唯一分解为 \(\s W\) 和 \(\s W^\perp\) 中两个向量 \(\b u,\b z\) 的和。进一步,令 \(\{\b v_1,\dots,\b v_k\}\) 是 \(\s W\) 的一组单位正交基,则
考虑依上法求得 \(\b u\) 后,计算 \(\ip{\b z}{\b v_i}\) 以验证 \(\b z\) 确实属于正交补。
\[\ip{\b z}{\b v_i}=\ip{\b y-\b u}{\b v_i}=\ip{\b y}{\b v_i}-\ip{\b u}{\b v_i}=0 \]该分解是唯一的,因为若存在另一组 \(\b u'+\b z'\) 则 \(\b{u-u'}=\b{z'-z}\in\s W\cap\s W^\perp=\{\b0\}\)。
因此,依上法求得之 \(\b u\) 乃是 \(\s W\) 中最贴近 \(\b y\) 之向量。
定理:令 \(\{\b v_1,\dots,\b v_k\}\) 是正交归一集,则其可以被扩充为单位正交基,且扩充的 \(\{\b v_{k+1},\dots,\b v_n\}\) 恰为正交补的一组单位正交基。进一步,有 \(\dim(\s V)=\dim(\s W)+\dim(\s W^\perp)\)。
取正交补的任一组正交单位基补充即可。易知其确实是基。
VI.III. The Adjoint of a Linear Operator
Riesz 表示定理:对于每个线性函数(回忆起这是对偶空间中的元素,即从线性空间到标量的线性变换)\(\s g:\s V\to F\),存在唯一的 \(\b y\in\s V\) 使得 \(\s g(\b x)=\ip{\b x}{\b y}\)。
取任一组单位正交基,然后令
\[\b y=\sum_{i=1}^n\ovl{\s g(\b v_i)}\b v_i \]则对于 \(\b x=\sum a_i\b v_i\),有
\[\ip{\b x}{\b y}=\sum_{i=1}^n\ip{a_i\b v_i}{\ovl{\s g(\b v_i)}\b v_i}=\sum_{i=1}^na_i\s g(\b v_i) \]由内积的性质,若对于全体 \(\b x\) 均有 \(\ip{\b x}{\b y}=\ip{\b x}{\b z}\),则必有 \(\b y=\b z\),可知 \(\b y\) 唯一。
定理:对于每个 \(\s T\),都存在唯一的 \(\s T^*\) 满足 \(\ip{\s T(\b x)}{\b y}=\ip{\b x}{\s T^*(\b y)}\),且其是线性的。
对于固定的 \(\b y\) 而言,映射 \(\s g:\b x\mapsto\ip{\s T(\b x)}{\b y}\) 是线性映射,因此存在唯一的 \(\s T^*(\b y)\),其定义式即为
\[\s T^*(\b y)=\sum_{i=1}^n\ovl{\s g(\b v_i)}\b v_i=\sum_{i=1}^n\ovl{\ip{\s T(\b v_i)}{\b y}}\b v_i=\sum_{i=1}^n\ip{\b y}{\s T(\b v_i)}\b v_i \]易验证其线性性。
上述 \(\s T^*\) 被称作 \(\s T\) 的 伴随(adjoint)映射。
- 注意,无限维线性空间下,伴随不一定存在。
定理:对于任一单位正交基,有
最小二乘法。考虑采样点 \((t_i,y_i)\) 和近似线 \(y=ct+d\),则使用所有点到近似线垂直距离的平方和
衡量拟合的误差。若令
则 \(E=\|\b y-A\b x\|^2\)。
我们试图寻找最小化上式的 \(\b x\),而不局限于上述 \(A\in\s M_{m\times2}(F)\) 的场合。
记 \(\ip{\b x}{\b y}_n\) 为 \(\s F^n\) 中的标准内积,则有 \(\ip{\b x}{\b y}_n=\b y^*\b x\)(这里把 \(1\times 1\) 矩阵看成标量)。
于是,
定理:\(\rank(A^*A)=\rank(A)\)。
因为行数相同,则只需证明二者零空间等维即可。
若 \(A\b x=\b0\) 则必有 \(A^*A\b x=\b0\);反之,若 \(A^*A\b x=\b0\),则
\[0=\ip{A^*A\b x}{\b x}_m=\b x^*A^*A\b x=\ip{A\b x}{A\b x}_m \]可知 \(A\b x=\b0\)。
令 \(\s W=\{A\b x\mid\b x\in\s F^n\}\),则 \(\s W\) 是线性空间,\(\b y\) 在其中存在唯一的投影 \(A\b x_0\)。则 \(A\b x_0-\b y\) 与全体 \(A\b x\) 正交,即
换言之,
这必须有
当 \(A^*A\) 满秩(这等效于 \(A\) 列满秩)时,则有 \(\b x_0=(A^*A)^{-1}A^*\b y\)。
最小二乘法本质:求 \(\b y\) 到矩阵 \(A\) 列空间的投影(以及投影到 \(\b y\) 的范数)。
既然是列空间,那么可以只挑出主元列来张成列空间,此时 \(A\) 必然列满秩。
之后根据性质 \(\ip{A\b x_0-\b y}{A\b x}_n=0\) 对全体 \(\b x\) 均生效作推理即可。
定理:\(\s R(\s T^*)^\perp=\s N(\s T)\)。
对于 \(\b x\in\s N(\s T),\b y\in\s F^n\),考虑
\[\ip{\b x}{\s T^*(\b y)}=\ip{\s T(\b x)}{\b y}=\ip{\b0}{\b y}=0 \]于是 \(\s R(\s T^*)\) 与 \(\s N(\s T)\) 正交。
并且,有
\[\s T^*(\b y)=\sum_{i=1}^n\ovl{\ip{\s T(\b v_i)}{\b y}}\b v_i \]重排 \(\b v_i\) 使得 \(\s T(\b v_1),\dots,\s T(\b v_m)\) 构成 \(\{\s T(\b v_i)\}\) 的基。则当 \(\b y\) 在它们方向的投影确定后,在其它 \(\s T(\b v_i)\) 方向的投影也随之确定,因此 \(\dim(\s R(\s T^*))=\dim(\s R(\s T))\)。于是 \(\dim(\s R(\s T^*))+\dim(\s N(\s T))=\dim(\s V)\),可知二者互为正交补。
最小范数解。寻找方程 \(A\b x=\b b\) 的 \(\|\b x\|\) 最小解。
定理:最小范数解唯一,且恰为落入 \(\s R(\s L_{A^*})\) 中的那个;即,若 \(\b u\) 是 \(AA^*\b u=\b b\) 的解,则最小范数解 \(\b s=A^*\b u\)。可以证明,这样的 \(\b u\) 必然存在。
令 \(\s W\) 为 \(A^*\) 的列空间,\(\s W'\) 为 \(A\) 的零空间,则由上述定理,有二者正交。则 \(A\b x=\b b\) 的解 \(\b x\) 可以被唯一拆作 \(\s W\) 中的 \(\b s\) 和 \(\s W'\) 中的 \(\b y\) 之和。而因为 \(A\b y=\b0\),可知 \(A\b s=\b b\),且是唯一最小范数解。
最小范数解的本质,是求仿射空间到原点的最近点(以及该点的范数),和最小二乘法本质对偶。
仿射空间关于零空间滑动。因此找到与零空间正交的那个空间(表示出来就是 \(A^*\) 的列空间),则该正交空间与仿射空间的唯一交点即为最小范数解。
表示一个空间的方式有两种:列空间或零空间。再求一次正交补,则列空间的正交补是伴随矩阵的零空间;零空间的正交补是伴随矩阵的列空间。
VI.IV. Normal and Self-Adjoint Operators
引理:若 \(\s T\) 有特征向量,则 \(\s T^*\) 亦然。
令特征向量 \(\b v\) 对应特征值 \(\lambda\)。则对于一切 \(\b x\),有
\[0=\ip{\b 0}{\b x}=\ip{(\s T-\lambda\s I)(\b v)}{\b x} \\=\ip{\b v}{(\s T-\lambda\s I)^*(\b x)} \\=\ip{\b v}{(\s T^*-\bar\lambda\s I)(\b x)} \]因此,\(\b v\) 与 \(\s T^*-\bar\lambda\s I\) 的像空间正交,进而其非满秩、存在零空间。该零空间中的 \(\b u\) 即满足 \((\s T^*-\bar\lambda\s I)(\b u)=\b0\)。
Schur 定理:若 \(\s T\) 的特征多项式分裂(定义域上包含全体根),则存在单位正交基,在其上 \([\s T]_\beta\) 是上三角矩阵。
考虑归纳。因为 \(\s T\) 有特征值,所以 \(\s T^*\) 也有;令其是单位特征向量 \(\b z\) 和对应特征值 \(\lambda\)。取 \(\s W=\span\{\b z\}\),则声称 \(\s W^\perp\) 是 \(\s T\)-不变子空间。
取 \(\b y\in\s W^\perp\),\(c\b z\in\s W\),则
\[\ip{\s T(\b y)}{c\b z}=\ip{\b y}{\s T^*(c\b z)}=\ip{\b y}{c\lambda\b z}=0 \]因此 \(\s W^\perp\) 是 \(\s T\)-不变子空间。由归纳假设,\(\s W^\perp\) 存在单位正交基 \(\beta'\),则在 \(\beta'\) 后面补一个 \(\b z\) 即可。
若存在一组单位正交特征向量基 \(\beta\),则 \([\s T]_\beta\) 是对角矩阵,且 \([\s T^*]_\beta=[\s T]_\beta^*\) 亦是,则 \(\s T\) 与 \(\s T^*\) 交换。称满足 \(\s T\s T^*=\s T^*\s T\) 的线性变换(或矩阵)为 正规(normal)的。
定理:对于正规变换,满足以下性质:
- \(\|\s T(\b x)\|=\|\s T^*(\b x)\|\)。
- \(\s T-c\s I\) 必亦为正规。
- 若 \(\b x\) 是 \(\s T\) 对应 \(\lambda\) 的特征向量,则其亦是 \(\s T^*\) 对应 \(\bar\lambda\) 的特征向量。
- 不等特征值的特征向量彼此正交。
(1) 列出范数定义式即证。
(2) 由 \(\s T\)、\(\s T^*\)、\(\s I\)、\(c\) 所有东西之间都存在交换律可证。
(3) 考虑令 \(\s U=\s T-\lambda\s I\),则
\[0=\|\s U(\b v)\|=\|\s U^*(\b v)\|=\|\s U^*(\b v)-\bar\lambda\b v\| \](4) 有
\[\lambda_1\ip{\b x_1}{\b x_2}=\ip{\s T(\b x_1)}{\b x_2} =\ip{\b x_1}{\s T^*(\b x_2)} =\lambda_2\ip{\b x_1}{\b x_2} \]因为 \(\lambda_1\neq\lambda_2\) 所以只有可能二者正交。
定理:变换是正规的,当且仅当存在单位正交特征向量基。
存在单位正交基时,易知其正规。以下考虑正规的场合。
由代数基本定理,特征多项式在 \(\mathbb C\) 中分裂。因此由 Schur 定理,存在单位正交基 \(\b v_1,\dots,\b v_n\) 使得 \([\s T]_\beta\) 是上三角。
由上三角性,必有 \(\b v_1\) 是特征向量。考虑归纳。
有
\[\s T(\b v_k)=\sum_{i=1}^kA_{ik}\b v_i \]同时,对于 \(j<k\) 有
\[A_{jk}=\ip{\s T(\b v_k)}{\b v_j}=\ip{\b v_k}{\s T^*(\b v_j)}=\lambda_j\ip{\b v_k}{\b v_j}=0 \]于是仅有 \(A_{kk}\) 非零。
定义:线性变换/矩阵被称作 自伴(self-adjoint)/Hermitian 的,若其伴随等于自身。
定理:自伴线性变换的全体特征值都是实特征值;并且,如果 \(\s V\) 依托实数域定义,则特征多项式在实数域上分裂。
假设 \(\b v\) 是 \(\s T\) 的 \(\lambda\)-特征向量,则因为 \(\s T\) 是正规的,所以其亦是 \(\s T^*=\s T\) 的 \(\bar\lambda\)-特征向量,这意味着 \(\lambda=\bar\lambda\),即 \(\lambda\in\mathbb R\)。特征值全为实数,则特征多项式必是实多项式。
定理:有限维实内积空间上线性算子,其自伴当且仅当存在单位正交特征向量基。【也即,实内积空间下,自伴矩阵与正规矩阵等效】
首先,自伴变换必是正规变换。
其次,若存在单位正交特征向量基 \(\beta\),则 \([\s T]_\beta\) 会是实对角矩阵;则 \([\s T^*]_\beta=[\s T]_\beta^*\),后者因为实对角矩阵的伴随矩阵正是其自身,所以可知:有 \([\s T]_\beta=[\s T^*]_\beta\),也即 \(\s T=\s T^*\)。
VI.V. Unitary and Orthogonal Operators and Their Matrices
一些算子有着保范数的性质,也即其满足 \(\|\s T(\b x)\|=\|\b x\|\);在复内积空间上,被称作 单位算子/幺正算子/酉算子(unitary opeator);在实内积空间上即为 正交算子(orthogonal operator)。
定理:以下条件等价:
- \(\s T^*\s T=\s T\s T^*=\s I\)。
- \(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\b x}{\b y}\)。
- 单位正交基在变换后仍是一组(可以不一样的)单位正交基。
- 存在一组变换后仍正交归一的单位正交基。
- 是酉算子。
引理:所有自伴映射中,满足 \(\ip{\b x}{\s T(\b x)}=0\) 对全体 \(\b x\) 均成立的唯一映射是零映射。这是因为自伴映射必存在单位正交特征向量基;如果有至少一个特征向量对应非零特征值,则其违背条件,所以全体特征值均为零,进而为零映射。
\((1)\implies(2)\):\(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\s T^*\s T(\b x)}{\b y}=\ip{\b x}{\b y}\)。
\((2)\implies(3)\):因为保内积,所以必然保范数、保正交。
\((3)\implies(4)\):单位正交基必然存在。
\((4)\implies(5)\):因为单位正交基变到单位正交基,所以保范数。
\((5)\implies(1)\):\(\ip{\s T(\b x)}{\s T(\b x)}=\ip{\b x}{\b x}\),则 \(\ip{(\s T^*\s T-\s I)\b x}{\b x}=0\) 对全体 \(\b x\) 均成立,则由引理,\(\s T^*\s T=\s I\)。
推论:在实内积空间中,若线性算子存在正交单位特征向量基,其特征值绝对值全为 \(1\),当且仅当其既酉又自伴。
对于正规矩阵 \(A\),存在正交单位特征向量基,将其作为列向量组成 \(Q\) 后,有 \(D=Q^{-1}AQ\),其中 \(D\) 是对角矩阵;因为 \(Q\) 由正交单位列组成,所以 \(Q\) 是酉矩阵,此时称 \(A\) 酉等价(unitary equivalent)/正交等价(orthogonally equivalent)(前者适用于复内积空间,后者适用于实内积空间,此时正规矩阵等效于对称矩阵)于 \(D\)。酉等价的一般形式是 \(A=P^*BP\),其中 \(P\) 是酉矩阵,则有 \(P^*=P^{-1}\)。
定理:正规矩阵是酉等价于对角矩阵的矩阵。
首先,正规矩阵必酉等价于对角矩阵;反之,若存在 \(D=P^*AP\),则 \(D^*=P^*A^*P\),有 \(DD^*=D^*D\),于是 \(P^*AA^*P=P^*A^*AP\),因为 \(P\) 可逆所以 \(AA^*=A^*A\)。
因此,有 Schur 定理的矩阵等价形式:对于特征多项式分裂的矩阵,
- 若是实矩阵则正交等价于实上三角矩阵。
- 若是复矩阵则酉等价于复上三角矩阵。
一个映射(注意不需要是线性变换)\(f:\s V\to\s V\) 是 刚体运动(rigid motion),若其保长度。易知:酉映射是刚体运动。平移(translation)是一类特殊的刚体运动,它很简单,即为 \(\b x\mapsto\b x+\b v_0\)。
定理:实内积空间中的任何刚体运动都可以被拆分成一次正交变换 \(\s T\) 和一次平移 \(g\),即 \(f=g\circ\s T\)。
令 \(\s T(\b0)=f(\b x)-f(\b 0)\),下证 \(\s T\) 是酉变换。
\(\s T\) 的性质是 \(\|\s T(\b x)-\s T(\b y)\|=\|\b x-\b y\|\)。取 \(\b y=\b0\) 可知其保范数;两边平方可知 \(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\b x}{\b y}\)。剩下的只需再证明它的确是线性映射即可。
\(\s R^2\) 上的正规变换只有旋转和翻转两种。
VI.VI. Orthogonal Projections and the Spectral Theorem
对于 \(\s V=\s W_1\oplus\s W_2\) 的场合,线性算子 \(\s T\) 被称作 沿 \(\s W_2\) 向 \(\s W_1\) 的投影(projection on \(\s W_1\) along \(\s W_2\)),若对于 \(\b x\) 在 \(\s W_1,\s W_2\) 中分解为 \(\b x_1,\b x_2\),并令 \(\s T(\b x)=\b x_1\)。则有 \(\s R(\s T)=\s W_1,\s N(\s T)=\s W_2\)。
注意,\(\s T=\s W_1\oplus\s W_2=\s W_1\oplus\s W_3\) 不意味着 \(\s W_2=\s W_3\),这是因为 \(\s W_1,\s W_2\) 不一定要是正交关系。因此,投影函数不只由 \(\s W_1\) 决定。
称一个投影是 正交投影(orthogonal projection),若其零空间与像空间垂直。可知:正交投影由 \(\s W_1\) 或 \(\s W_2\) 中任一唯一确定:得知一个,即可取正交进而得知另一个。
定理:线性算子是投影,当且仅当 \(\s T^2=\s T\);是正交投影,当且仅当它额外满足自伴(其实正规就够了)的条件。
易验证投影确实满足 \(\s T^2=\s T\)。现考虑若满足 \(\s T^2=\s T\),则令 \(\s W_1=\s R(\s T),\s W_2=\s N(\s T)\),则因为 \(\s T^2=\s T\),对于全体 \(\b x\in\s W_1\) 均有 \(\s T(\b x)=\b x\);而有 \(\s W_1\oplus\s W_2=\s V\),因此 \(\s T\) 是投影。
如果是正交投影,则对于分解为 \(\b x_1+\b x_2\) 的 \(\b x\) 和分解为 \(\b y_1+\b y_2\) 的 \(\b y\)(均是前者 \(\in\s W_1\),后者 \(\in\s W_2\))有
\[\ip{\b x}{\s T(\b y)}=\ip{\b x_1+\b x_2}{\b y_1}=\ip{\b x_1}{\b y_1}=\ip{\b x_1}{\b y_1+\b y_2}=\ip{\s T(\b x)}{\b y} \]因此其自伴。
现在假设其自伴。对于 \(\s T(\b x)\in\s W_1\) 和满足 \(\s T(\b y)=\b0\) 的 \(\b y\in\s W_2\),有
\[\ip{\s T(\b x)}{\b y}=\ip{\b x}{\s T^*(\b y)}=\ip{\b x}{\s T(\b y)}=0 \]因此 \(\s W_1,\s W_2\) 正交。
- 为什么正规就够了?因为投影算子的全体特征值都为实数:\(\s R(\s T)\) 中的所有向量都是 \(1\)-特征向量,而 \(\s N(\s T)\) 中的所有向量都是 \(0\)-特征向量。特征值均为实数的正规算子自伴。
此时,取 \(\beta\) 为正交单位基,满足前 \(k\) 个基向量组成 \(\s W_1\) 的基,则
谱分解定理(The Spectral Theorem):对于正规算子 \(\s T\),令 \(\lambda\) 为其不等特征值构成序列,令 \(\s W_i\) 为与 \(\lambda_i\) 对应的特征空间,令 \(\s T_i\) 为至 \(\s W_i\) 的正交投影,则:
- \(\s V=\bigoplus\s W_i\)。
- \(\s W_i^\perp=\bigoplus\limits_{j\neq i}\s W_j\)。
- \(\s T_i\s T_j=\delta_{ij}\s T_i=\delta_{ij}\s T_j\)。
- \(\s I=\sum\s T_i\)。
- \(\s T=\sum\lambda_i\s T_i\)。
不等特征值全体称作线性变换的 谱(spectrum)。\(\s I=\sum\s T_i\) 的公式被称作 恒等算子的谱分解(resolution of the identity operator),而 \(\s T=\sum\lambda_i\s T_i\) 则称作 \(\s T\) 的 谱分解(spectrum decomposition)。
令 \(\beta\) 为 \(\s W_i\) 的单位特征基拼接而成的基,则有
特别地,
而因为 \(\s T_i\s T_j=\delta_{ij}\s T_i=\delta_{ij}\s T_j\),所以上式直接约化为
也即,对于多项式 \(g(x)\),有
于是有推论:复内积空间下,\(\s T\) 正规当且仅当存在多项式 \(g\) 使得 \(\s T^*=g(\s T)\)。
首先,若 \(\s T\) 正规,则
\[\s T=\sum\lambda_i\s T_i \\\s T^*=\sum\bar\lambda_i\s T_i^*=\sum\bar\lambda_i\s T_i \]后者是因为正交投影算子是自伴算子。通过 Lagrange 插值,我们必可以寻找到满足全体 \(g(\lambda_i)=\bar\lambda_i\) 的多项式 \(g\)。
反之,若 \(\s T^*=g(\s T)\),则因为 \(\s T\) 与 \(\s T\) 的多项式交换,所以 \(\s T\) 与 \(\s T^*\) 亦交换,则必正规。
另有推论:复内积空间下,酉当且仅当 \(\s T\) 正规,且全体特征值范数均为 \(1\)。
\[\s T^*\s T=\sum\bar \lambda_i\s T_i\sum\lambda_j\s T_j \\=\sum\bar \lambda_i\lambda_i\s T_i \\=\sum|\lambda_i|^2\s T_i \]若全体特征值范数均为 \(1\),该公式退化为恒等算子谱分解;同时因为恒等算子谱分解唯一,也可以推出全体特征值范数均为 \(1\)。
还有推论:复内积空间下,若正规,则自伴等效于所有特征根都是实特征根。
自伴则有 \(\lambda_i=\bar\lambda_i\)。
最后一个推论:所有 \(\s T_i\) 都可以被写成 \(\s T\) 的多项式。
若考虑 \(\s T_i\),则使用 Lagrange 让 \(g(\lambda_j)=\delta_{ij}\) 即可有 \(\s T_i=g(\s T)\)。
VI.VII. The Singular Value Decomposition and the Pseudoinverse
定理(SVD):对于秩为 \(r\) 的映射 \(\s T:\s V\to\s W\),存在 \(\s U,\s V\) 各自一组正交归一基 \(\{\b v_1,\dots,\b v_n\},\{\b u_1,\dots,\b u_m\}\) 和正标量 \(\sigma_1\geq\sigma_2\geq\dots\geq\sigma_r\),满足
同时,\(\b v_i\) 会是 \(\s T^*\s T\) 关于 \(\sigma_i^2\) 的特征向量。
证明只需要知道 \(\s T^*\s T\) 正定即可。
\(\sigma\) 被称作 奇异值(singular value)。
矩阵同理:\(A=U\Sigma V^*\)。
计算 \(A\) 的 SVD,只需计算 \(A^*A\) 的对角化 \(V\Lambda V^*\),然后对 \(\Lambda\) 开根得到 \(\Sigma\),使用 \(U=AV\Sigma^{-1}\) 得到 \(U\) 即可。
VI.VIII. Bilinear and Quadratic Forms
一个 双线性型(bilinear form)是一个双线性函数 \(H:\s V\times\s V\to F\) 满足 \(H(a\b x_1+\b x_2,\b y)=aH(\b x_1,\b y)+H(\b x_2,\b y),H(\b x,b\b y_1+\b y_2)=bH(\b x,\b y_1)+H(\b x,\b y_2)\)。全体双线性型集合被记作 \(\c B(\s V)\)。注意到,实线性空间下的内积是双线性型,但复线性空间则不然。
双线性型的和与标量积可以类似定义,且它们的和与标量积仍是双线性型。
双线性型满足一些性质:
- 对于某个固定的 \(\b x\),定义 \(\s L_\b x(\b y)=H(\b x,\b y),\s R_\b x(\b y)=H(\b y,\b x)\),则二者均为线性。
- \(H(\b0,\b x)=H(\b x,\b0)=0\)。
- 满足 \(J(\b y,\b x)=H(\b x,\b y)\) 的 \(J\) 仍是双线性型。
一个双线性型 \(H\) 相对于有序基 \(\beta\) 的 矩阵表示(matrix representation)是 \(\psi_\beta(H)\) 满足 \(\psi_\beta(H)_{ij}=H(\beta_i,\beta_j)\)。易证:\(\psi_\beta\) 是一个 \(\c B(\s V)\to\s M_{n\times n}(F)\) 的同构。
回忆起对于 \(n\) 维线性空间 \(\s V\) 上的向量 \(\b x\),\(\phi_\beta(\b x)\) 是一个 \(\s F^n\) 上的向量。使用这个记号,有:\(\psi_\beta(H)=A\),当且仅当对于一切 \(\b x,\b y\in\s V\),均有 \(H(\b x,\b y)=[\psi_\beta(\b x)]^tA[\psi_\beta(\b y)]\)。
两个方阵 \(A,B\) 被称作 相合/合同(congruent)如果存在可逆矩阵 \(Q\) 满足 \(B=Q^tAQ\)。
定理:双线性型相对于任意有序基的矩阵表示彼此相合。其一堆等价的逆定理也成立。
一个满足 \(H(x,y)=H(y,x)\) 的双线性型是 对称(symmetric)的。易知:\(H\) 对称当且仅当所有/某一个矩阵表示是对称的。由此得到推论:相合矩阵必然有相同的对称性。
一个存在对角矩阵表示的双线性型是 可对角化(diagonalizable)的。易知:可对角化的双线性型必然是对称双线性型。但是其逆命题不成立:存在不可对角化的对称双线性型。
但是,略施一点约束,其即成立:对于依托特征非 \(2\) 的域而定义的双线性型,其可对角化等价于对称。
引理:对于特征非 \(2\) 域上的非零对称双线性型,必然存在 \(H(\b x,\b x)\neq0\) 的 \(\b x\)。
- 因为非零,则可假设 \(H(\b x,\b y)\neq0\)。若 \(H(\b x,\b x)=H(\b y,\b y)=0\),则 \(H(\b x+\b y,\b x+\b y)=2H(\b x,\b y)\neq0\)。
以下,考虑归纳。首先零双线性型必然可对角化。非零对称双线性型由引理存在 \(H(\b x,\b x)\neq0\)。因此可以在 \(\s N(\s L_\b x)\) 的尺度下对角化 \(H'\),然后把 \(\b x\) 引入。
也因此,特征非 \(2\) 域上的对称矩阵都相合于对角矩阵。
如何将对称矩阵对角化?我们希望对 \(A\) 找到可逆矩阵 \(Q\) 和对角矩阵 \(D\) 满足 \(Q^tAQ=D\)。将 \(Q\) 拆成基础列变换矩阵 \(E\) 的积,则 \(E^tAE\) 等效于对 \(A\) 作列变换后再作对称的行变换(因为结合律,顺序不重要)。因为对称,所以只需依次消掉所有非对角线位置即可。
以上算法只能求出一组基,满足基下其为对角矩阵,优势是只需要一次消元而已;但劣势在于,完全无法求出单位正交基。注意到正交矩阵的逆等于转置,所以实对称矩阵手动用正交矩阵对角化即可满足其为对角矩阵。
一个函数 \(K:\s V\to F\) 是 二次型(quadratic form),假如存在双线性型 \(H\) 满足 \(K(\b x)=H(\b x,\b x)\)。在特征非 \(2\) 域上,二次型和对称双线性型存在一一映射,使用 \(H(x,y)=\dfrac12[K(x+y)-K(x)-K(y)]\) 来复原 \(H\)。
在实内积空间上,对称矩阵对应于自伴算子,因此必然可以被正交对角化。正交对角化使用的是正交算子(实内积空间上的酉算子),因此正交矩阵的转置与逆等价。于是,既然实对称矩阵 \(A\) 可以被正交矩阵 \(Q\) 通过 \(Q^{-1}AQ\) 对角化为 \(D\),\(Q\) 的所有列向量即把对应的 \(\psi_\beta(H)\) 对角化。
因此,二次型 \(K\) 必然存在单位正交基 \(\beta_i\) 和对应标量 \(\lambda_i\),满足若 \(\b x=\sum c_i\beta_i\),则 \(K(\b x)=\sum\lambda_ic_i^2\),其中 \(\beta_i\) 是任何对角化对应对称双线性型的单位正交基。
VII. Canonical Forms
VII.I. The Jordan Canonical Form I
因为某些特征空间的维数小于重数,一个算子可能无法对角化。此时,可以略微放宽要求,不要求对角化,而是对角化到由如下形式
的 Jordan 块(Jordan block)拼接而成的 Jordan 标准型(Jordan canonical form)
达成此效果的 \(\beta\) 被称作 Jordan 标准基(Jordan canonical basis)。
每个拥有分裂的特征多项式的线性算子都有关于 Jordan 块排列意义下唯一的 Jordan 标准型,这将在以下证明。
\(\lambda\) 的 广义特征向量(generalized eigenvector)是满足存在一个 \(p\) 使得 \((\s T-\lambda\s I)^p\b x=\b0\) 的非零 \(\b x\)。注意到,如果 \(p\) 是最小的满足该条件的正整数,那么 \((\s T-\lambda\s I)^{p-1}\) 会是 \(\lambda\) 的特征向量,因此拥有广义特征向量的 \(\lambda\) 必然是特征值。
同样地,既然特征空间是全体满足 \((\s T-\lambda\s I)\b x=\b0\) 的 \(\b x\) 构成的空间,那么 广义特征空间(generalized eigenspace)\(\s K_\lambda\) 就是全体满足 \((\s T-\lambda\s I)^p\b x=\b0\) 的 \(\b x\) 构成空间,即全体广义特征向量和零向量构成空间。
定理:\(\s K_\lambda\) 是包含 \(\s E_\lambda\) 的 \(\s T\)-不变子空间。
首先易证其是子空间。然后因为 \(\s T\) 和自身与 \(\s I\) 的交换性,有 \((\s T-\lambda\s I)^p\s T(\b x)=\s T(\s T-\lambda\s I)^p\b x\),所以其是 \(\s T\)-不变子空间;最后,其显然包含特征空间 \(\s E_\lambda\)。
定理:对于 \(\mu\neq\lambda\),将映射 \(\s T-\mu\s I\) 的定义域限制于 \(\s K_\lambda\) 后,其会是一对一映射。
等效于证明满足 \((\s T-\mu\s I)\b x=\b0\) 的 \(\b x\) 只有 \(\b0\) 一个,等效于证明广义特征向量不能同时再是另一个 \(\mu\) 的狭义特征向量,也即 \(\s K_\lambda\cap\s E_\mu=\{\b0\}\)。
如果 \(\s T(\b x)=\mu\b x\),则 \((\s T-\lambda\s I)^p\b x=(\mu-\lambda)^p\b x\),则如果 \(\mu\neq\lambda\) 显然任何 \(p\) 都不可能让其归零。
事实上,\(\s T-\mu\s I\) 会将 \(\s K_\lambda\) 映到自身:这是因为 \(\s K_\lambda\) 同时是 \(\s T\) 和 \(\mu\s I\) 下的不变空间;映到自身则其是双射。这同时进一步说明,\((\s T-\mu\s I)^q\) 作用于 \(\s K_\lambda\) 后仍是一对一映射,可知 \(\s K_\lambda\cap\s K_\mu=\{\b0\}\)。
这个定理的意义在于表明 \(\s K_\lambda\) 的唯一特征向量只有 \(\lambda\),并用于证明如下:
定理:对于特征多项式分裂的 \(\s T\),令 \(\lambda\) 有重数 \(m\),则有 \(\dim(\s K_\lambda)\leq m\),且 \(\s K_\lambda=\s N((\s T-\lambda\s I)^m)\)。
因为 \(\s K_\lambda\) 的唯一特征向量只有 \(\lambda\),所以 \(\s T\) 在其上的特征多项式是 \(x-\lambda\) 的幂次,这一幂次必定不超过 \(\s T\) 整体特征多项式包含 \(\lambda\) 的次数,即其重数。这直接得到 \(\s T\) 在 \(\s K_\lambda\) 上的特征多项式 \(h(x)=(-1)^d(x-\lambda)^d\),其中 \(d=\dim(\s K_\lambda)\leq m\)。
因此由 C-H 定理有 \((\s T-\lambda\s I)^d\b x=\b0\),所以对于 \(m\geq t\) 其也成立。
定理:\(\s V=\sum\s K_{\lambda_i}\)。
关于特征值数目 \(k\) 归纳。只有一个特征值时,该特征值的重数必然等于线性算子定义空间的维数,因此由 C-H 定理有 \(\s K_{\lambda_1}=\s V\)。
现在有特征多项式 \(f(x)=(x-\lambda_k)^mg(x)\),其中 \(g(x)\) 是自特征多项式中剔除 \(\lambda_k\) 相关得到的多项式。由前述结论,\((\s T-\lambda_k\s I)^m\) 将全体 \(i<k\) 的 \(\s K_{\lambda_i}\) 双射到自身。因此令 \(\s W=\s R((\s T-\lambda_k\s I)^m)\),则对于 \(i<k\),有 \(\lambda_i\) 是 \(\s T_{\s W}\) 的特征向量;并且,若存在 \(\b x\in\s W\) 使得 \(\s T(\b x)=\lambda_k\b x\),则存在 \(\b y\) 使得 \(\b x=(\s T-\lambda_k\s I)^m\b y\),于是 \((\s T-\lambda_k\s I)^{m+1}\b y=\b0\),进而 \(\b y\in\s K_{\lambda_k}\),因此 \(\b x=(\s T-\lambda_k\s I)^m\b y=\b0\),因此 \(\lambda_k\) 并非 \(\s T_\s W\) 的特征向量。
现在对于 \(\b x\),有 \((\s T-\lambda_k\s I)^m\b x\in\s W\),进而对 \(\s T_\s W\) 使用归纳假设可得 \((\s T-\lambda_k\s I)^m\b x=\sum_{i=1}^{k-1}\b v_i\),其中 \(\b v_i\in\s K'_{\lambda_i}\)。必然有 \(\s K'_{\lambda_i}\sube\s K_{\lambda_i}\)。因此可以找到 \(\b w_i\in\s K_{\lambda_i}\) 使得 \((\s T-\lambda_k\s I)^m\b w_i=\b v_i\),因此有 \((\s T-\lambda_k\s I)^m\b x=\sum_{i=1}^{k-1}(\s T-\lambda_k\s I)^m\b w_i\),则 \(\b x-\sum_{i=1}^{k-1}\b w_i\in\s K_{\lambda_k}\),则 \(\b x=\sum_{i=1}^k\b v_k\)。
总结思想:
- 证明 \(\s T_\s W\) 不含 \(\lambda_k\) 作为特征向量。
- 证明 \((\s T-\lambda_k\s I)^m\) 将 \(\s K_{\lambda_i}\) 映到自身,将 \(\s K_{\lambda_k}\) 映到零。
定理:\(\s V=\bigoplus\s K_{\lambda_i}\)。
这个定理等价形式包括:取全体 \(\s K_{\lambda_i}\) 的一组基,拼接即得 \(\s V\) 的基;全体 \(\s K_{\lambda_i}\) 的维数等于 \(m_i\) 等。
首先由 \(\b x=\sum_{i=1}^k\b v_k\) 知 \(\beta_i\) 的拼接得到 \(\s V\) 的生成集,且因为 \(\dim(\s K_\lambda)\leq m,\sum\dim(\s K_\lambda)\leq n=\dim(\s V)\) 知其必为基,且维数等于 \(m_i\) 等。
推论:可对角化当且仅当全体 \(\s E_{\lambda_i}=\s K_{\lambda_i}\)。
令 \(\b x\) 是对应于 \(\lambda\) 的广义特征向量,且 \(p\) 为最小的满足 \((\s T-\lambda\s I)^p\b x=\b0\) 的正整数,则有序集 \(\{(\s T-\lambda\s I)^{p-1}\b x,(\s T-\lambda\s I)^{p-2}\b x,\dots,\b x\}\) 被称为 \(\s T\) 关于 \(\lambda\) 的一个 广义特征向量环(cycle of generalized eigenvectors),其中 \((\s T-\lambda\s I)^{p-1}\b x\) 和 \(\b x\) 分别被称为环的 起始向量(initial vector)和 终止向量(end vector)。这个环的 环长(length)是 \(p\)。
定理:令 \(\beta\) 是一组由若干不交广义特征向量环组成的基,则满足:
- \(\beta\) 中的每个极大广义特征向量环 \(\gamma\) 张成线性空间 \(\s W\) 是 \(\s T\)-不变的,且 \([\s T_\s W]_\gamma\) 恰为一个 Jordan 块。【注意:Jordan 块仅仅描述一种格式,不一定非得是其在 \(\s K_{\lambda_i}\) 某个基下的表示】
- 因此,\(\beta\) 是 Jordan 标准基。
令 \(\gamma\) 是相对 \(\lambda\) 的基,且 \(\gamma=\{\b v_1,\dots,\b v_p\}\),\(\b v_{i-1}=(\s T-\lambda\s I)\b v_i\),\((\s T-\lambda\s I)\b v_1=\b0\)。因此,\(\s T(\b v_i)=\lambda\b v_i+\b v_{i-1}\),\(\s W\) 确实是 \(\s T\)-不变的,且易知其在 \(\gamma\) 下成 Jordan 块。
这仅仅证明,如果存在这么一组 \(\beta\),那么其是 Jordan 标准基,无法说明这组 \(\beta\) 必然存在。
定理:令特征值 \(\lambda\) 对应了若干广义特征向量环 \(\gamma_1,\dots,\gamma_q\),它们的起始向量线性无关,则全体 \(\gamma_i\) 线性无关。
首先,如果起始向量 \((\s T-\lambda\s I)^{p_i-1}\b x_i\) 两两无关,易知全体 \(\gamma_i\) 必然无交。
考虑归纳。令 \(\gamma\) 包含 \(n\) 个向量。令 \(\s W\) 为其张成子空间,则 \(\s W\) 是 \((\s T-\lambda\s I)\)-不变。令 \(\s U\) 为 \(\s T-\lambda\s I\) 限制在 \(\s W\) 下的映射。
令 \(\gamma_i'\) 为自 \(\gamma_i\) 删去终止向量得到的新广义特征向量环,令 \(\gamma'=\bigcup \gamma'_i\),则必有 \(\gamma'\) 生成 \(\s R(\s U)\),且由归纳假设,\(\gamma'\) 线性无关,则其是 \(\s R(\s U)\) 的基,有 \(\dim(\s R(\s U))=n-q\)。而显然,\(\gamma_i\) 的全体起始向量全部属于 \(\s N(\s U)\),则因其线性无关所以有 \(\dim(\s N(\s U))\geq q\),而又有 \(\dim(\s W)\leq n\),因此必有 \(\dim(\s W)=n\),则 \(\gamma\) 线性无关。
推论:广义特征向量环必然线性无关。
定理:\(\s K_\lambda\) 必然存在不交广义特征向量环作为基。
对 \(\dim(\s K_\lambda)=n\) 归纳。令 \(\s U\) 是 \(\s T-\lambda\s I\) 把定义域限制在 \(\s K_\lambda\) 后的结果,则 \(\s R(\s U)\) 是 \(\s K_\lambda\) 的严格子空间(至少存在一批狭义特征向量会被映到零)。因此由归纳假设,\(\s T\) 在定义域限制为 \(\s R(\s U)\) 时,必然存在不交广义特征向量环基 \(\gamma_1,\dots,\gamma_q\)。其中,每个环的终止向量都会是某个 \(\b v_i\) 关于 \(\s U\) 的像,所以可以将其扩张;而因为起始向量线性无关,所以扩张后的环必然线性无关。并且,起始向量可以被进一步扩充为 \(\s E_\lambda\) 的一组基,于是扩张后的全体广义特征向量环,再加上单独成环的 \(\s E_\lambda\) 基底中新增元素,即为 \(\s K_\lambda\) 的基。
推论:特征多项式分裂的线性变换存在 Jordan 标准型。
同理可以定义矩阵的 Jordan 标准型。
VII.II. The Jordan Canonical Form II
首先认为每一个 \(\lambda_i\) 的全体广义特征向量环 \(\beta_1,\dots,\beta_{n_i}\) 按照大小递减排序,此时 \(\s T\) 的 Jordan 标准型就只与特征值顺序有关了。
课本上此时讲了一个很合理但有点蠢的转化:把每个环从起始向量到终止向量从上到下用一堆点表示,然后从左往右放置每个环,得到一个如下图一般的 点阵(dot diagram)。
其中每一列表示一个特征环。
定理:特征环的前 \(r\) 行所有元素是 \(\s N((\s T-\lambda\s I)^r)\) 的基。
显然。
因此点阵唯一,则 Jordan 块的形状也唯一。
怎么求广义特征向量环呢?从一个充分大的 \(r\) 开始。假设已经求出第 \(r+1\) 行的一组向量,则它们各自关于 \(\s T-\lambda\s I\) 迭代一步得到第 \(r\) 行的向量的一部分,然后将其扩充为 \(\s N((\s T-\lambda\s I)^r)\) 的一组基,
定理:两矩阵相似当且仅当它们拥有相同的 Jordan 标准型。
一个矩阵只能相似于唯一的 Jordan 标准型。
Ex. Extra Notions
Ex.I. Extra Notions from 'Linear Algebra and Its Applications'
行阶梯型矩阵(echelon form)仅需满足:
- 所有非零行在零行上方。
- 首个非零项位于前一行的首个非零项右侧。
- 首个非零项正下方不再有非零项。
主元位(pivot position)是简化阶梯型矩阵中,每行的首个 \(1\) 所在的位置;其所在行即为 主元列(pivot column)。
主元列对应的变量被称作 基变量(basic variable);其余变量被称作 自由变量(free variable);自由变量一旦全部固定,则基变量的值随即固定。因此 通解(general solution) 可以被如下模式表示:
- 特解 \(\b s_0\) 使用约化阶梯型矩阵最右侧的向量为基变量赋值。
- 一个自由变量对基变量的影响,是为基变量整体增加自由变量对应的列向量的值。
Ex.II. LU Decomposition
我们要解线性方程 \(A\b x=\b b\);现在,如果存在一种将 \(A\) 分解为下三角矩阵 \(L\) 和上三角矩阵 \(U\) 的成绩,即 \(A=LU\) 的方式,则解方程 \(LU\b x=\b b\) 可以被拆成两步:
- 解方程 \(L\b y=\b b\)。
- 解方程 \(U\b x=\b y\)。
其中,因为 \(L,U\) 都是三角矩阵,所以可以采用直接依次回代的方式解方程组。
LU 分解的意义在于,如果要解多个 \(A\) 相同但 \(\b b\) 不同的方程组时,直接消则需要针对多个增广矩阵消多次(虽然其实如果 \(A\) 可逆可以直接通过求逆矩阵的方式解决)。
方法如下:
-
对于 \(A\),进行基础行变换消成阶梯型矩阵 \(U\)。效果是 \(EA=U\),其中 \(E\) 是基础行变换矩阵的复合。
-
那么,即有 \(A=E^{-1}U\)。我们希望 \(L=E^{-1}\) 是下三角矩阵。这可以做到吗?
-
这相当于,对同一组基础行变换集合,它会把 \(A\) 消成 \(U\)、把 \(L\) 消成 \(I\)。
-
于是,在不需要进行交换操作,唯一的操作只有倍加操作时,假设现在要用 \(a_{ii}\) 消掉全体 \(a_{ji}\),那么这一列的格式就会是
\[\bmat{1&\dots\\a_{(i+1)i}/a_{ii}&\dots\\a_{(i+2)i}/a_{ii}&\dots\\\vdots&\vdots} \]这样,即可保证相同的操作将 \(A\) 消成 \(U\)、将 \(L\) 消成 \(I\)。
但是,如果出现交换操作怎么办?
如果需要交换,即可把交换操作提前,把式子变成 \(PA=LU\) 的形式,其中 \(P\) 由交换操作构成。这被称作 PLU 分解。
LU 分解只对不需要交换操作的矩阵存在,而 PLU 分解对全体矩阵都存在。
Ex.III. Partitioned Matrices
矩阵可以写成 分块矩阵(partitioned matrix)的形式。具有相同分块的矩阵可以直接相乘。分块矩阵有时是描述一个复杂矩阵的好方式。
Ex.IV. Simultaneously Diagonalization
同步对角化(simultaneously diagonalization)指两个线性算子被同一组特征向量对角化。在矩阵语言上,两个矩阵 \(A,B\) 可以同步对角化,如果存在同一个可逆矩阵 \(P\) 使得 \(P^{-1}AP\) 与 \(P^{-1}BP\) 都是对角阵。
算子或矩阵可同步对角化的充要条件,是二者交换。
交换显然可同步对角化。反之,选择 \(\s T\) 的一个特征空间 \(\s E_\lambda\),则 \(\s E_\lambda\) 同时是 \(\s T\) 和 \(\s U\) 的不变子空间(后者由交换推知)。证明 \(\s U_{\s E_\lambda}\) 可对角化,然后找到其一组 \(\s U\)-特征向量基后,把全体 \(\s E_\lambda\) 的 \(\s U\)-特征向量基拼在一起即得同步对角化基。
如果一个集合中的所有算子两两交换,那么它们可以一同同步对角化。
如果所有算子都只有一个特征值,那么它们显然可同步对角化。否则关于某个有至少两个特征值的算子拆开来归纳即可。
自伴矩阵或正规矩阵同步对角化的充要条件仍是交换。不同的是,这里限制同步对角化必须使用酉阵。但是证明还是和之前没啥差别,每个 \(\s E_\lambda\) 找到 \(\s U\)-单位正交特征向量基,然后拼一块即可。
Ex.V. Positive [Semi]Definite
一个自伴线性算子是 正定(positive definite)的,如果其满足全体 \(\ip{\s T(\b x)}{\b x}>0\);是 半正定(positive semidefinite)的,如果是大于等于号。矩阵则要求其对应的左乘变换具有相应性质。
正定等效于全体特征值都为正,半正定则非负。
半正定当且仅当可以写成 \(B^*B\) 的形式,其中 \(B\) 是任意矩阵。

浙公网安备 33010602011771号