【线性代数】 05 - 线性变换

　　之前的概念只是线性代数中最基本的工具，而线性代数最核心的内容在这里才刚刚开始。我们知道，代数的对象是结构，而代数的核心则是变换。结构间的变换不光揭露了它们之间的本质关系，它还是了解结构本身深层属性的有力工具。变换本身没有什么，我们更关注的其实是变中的不变，不变量则又是变换的核心。

1. 线性映射

1.1 定义和基本性质

　　在抽象代数中，同态映射是深入理解代数结构的重要方法，它可以对其进行纵向分解，从更宏观的角度解析代数结构。之前我们把矩阵定义成一种映射，可见想要深入了解矩阵，就必须回到它的根源上去。线性空间首先是一个交换群，同态映射的定义可以照搬过来。另一方面，线性空间还有数乘运算，而且这才是它的核心所在，故同态映射还需保持数乘的形式不变。为此定义线性空间\(V,V'\)之间的映射如下，并称\(\mathscr{A}\)为从\(V\)到\(V'\)的线性映射。

\[\mathscr{A}(\alpha+\beta)=\mathscr{A}(\alpha)+\mathscr{A}(\beta),\quad\mathscr{A}(k\alpha)=k\mathscr{A}(\alpha)\tag{1}\]

　　当映射为双射的时候，它显然是个同构映射，也就是个可逆运算。而一般的线性映射，每个像的原像可能不止一个，顺着这个关系，我们依次要讨论的是：像的结构是怎样的？每个像的原像是什么？像和原像有什么关系？使用定义比较容易验证，线性映射的像\(\mathscr{A}(V)\)是一个线性空间，且有公式（2）成立。

\[\mathscr{A}(0)=0,\quad\mathscr{A}(-\alpha)=-\mathscr{A}(\alpha),\quad\mathscr{A}(k_1\alpha_1+\cdots+k_n\alpha_n)=k_1\mathscr{A}(\alpha_1)+\cdots+k_n\mathscr{A}(\alpha_n)\tag{2}\]

　　设所有从\(V\)到\(V'\)的线性映射组成集合\(\text{Hom}(V,V')\)，容易验证它在式（3）的运算下是一个线性空间。另外显然，复合线性映射\(V\overset{\mathscr{B}}{\mapsto} V'\overset{\mathscr{A}}{\mapsto} V''\)也是线性映射，且满足公式（4）。还可以证明，复合运算和加法运算满足分配率（5），但由于乘法不封闭，故不一定是环。

\[(\mathscr{A}+\mathscr{B})(\alpha)=\mathscr{A}(\alpha)+\mathscr{B}(\alpha),\quad(k\mathscr{A})(\alpha)=k(\mathscr{A}(\alpha))\tag{3}\]

\[k(\mathscr{AB})=(k\mathscr{A})\mathscr{B}=\mathscr{A}(k\mathscr{B})\tag{4}\]

\[(\mathscr{A}+\mathscr{B})\mathscr{C}=\mathscr{AC}+\mathscr{BC},\quad\mathscr{C}(\mathscr{A}+\mathscr{B})=\mathscr{CA}+\mathscr{CB}\tag{5}\]

1.2 核和商空间

　　仿照抽象代数，定义\(0\)的原像集合\(W\)为\(\mathscr{A}\)的核，记作\(\text{Ker}\,\mathscr{A}\)，容易验证它是\(V\)的子空间。继续考察任意像\(\alpha'\)的原像，设\(\mathscr{A}(\alpha)=\alpha'\)，易知\(\mathscr{A}(\alpha_0)=\alpha'\)的充要条件是\(\alpha-\alpha_0\in W\)，即\(\alpha_0\)在陪集\(\alpha+W\)中。这就在像和陪集之间建立了一一对应的关系，它可用如下映射表示。

\[\sigma:\:\alpha+W\mapsto\alpha',\quad\mathscr{A}(\alpha)=\alpha'\tag{6}\]

　　如果在陪集上定义如下运算（式（7）），可以证明该运算是良性的，且陪集集合形成一个线性空间，它叫商空间，记作\(V/W\)。容易验证\(\sigma\)是一个线性变换，故商空间和像同构（公式（8）），这样我们就彻底弄清了像与原像的关系。其实对任意一个子群\(W\)，都可以定义映射\(\alpha\mapsto(\alpha+W)\)，容易证明它就是以\(W\)为核的线性映射，这个映射也叫自然映射。以上正反的推导说明，线性空间\(V\)上的线性映射和它的子空间是等价的。

\[(\alpha+W)+(\beta+W)=(\alpha+\beta)+W,\quad k(\alpha+W)=k\alpha+W\tag{7}\]

\[V/W\cong \mathscr{A}(V),\quad W=\text{Ker}\,\mathscr{A}\tag{8}\]

　　下面继续讨论有限维空间中，核空间和商空间的关系。首先根据抽象代数的结论，空间元素的个数满足\(|V|=|W|·|V/W|\)，从而它们的维度满足公式（9）。设空间\(V\)的维度是\(n\)，核\(W\)的维度是\(r\)，且\(\alpha_1,\cdots,\alpha_r\)是它的一组基。现在来寻找\(V/W\)的一组基\(\beta_1+W,\cdots,\beta_{n-r}+W\)，首先\(\beta_1,\cdots,\beta_{n-r}\)当然是线性无关的，又由于它们都不在\(W\)中，故\(\alpha_1,\cdots,\alpha_r,\beta_1,\cdots,\beta_{n-r}\)正好组成\(V\)的一组基。

\[\dim{V}=\dim{W}+\dim(V/W)\tag{9}\]

　　商空间在三维空间中有较直观的形象，比如空间中的一维子空间就是任意过原点的直线\(l\)，它的陪集就是所有与\(l\)平行的直线，商空间自然就是这些平行线组成的线性空间。为了更直观地理解这个商空间，观察任意一个过原点且不与\(l\)平行的平面\(\pi\)，所有的平行线与\(\pi\)的唯一交点正好组成\(\pi\)，故二维空间\(\pi\)可以看做这个商空间的同构空间。再比如，当我们取某个过零点平面\(\pi\)作为子空间时，商空间就是所有与之平行的平面，与这个商空间同构的一维空间是任意一条过零点且不与\(\pi\)平行的直线\(l\)。

1.3 映射的矩阵

　　根据公式（2）的第3式可知，有限维线性空间的线性映射可以由\(V\)的一组基完全确定。具体来讲，选择\(V\)的一组基\(\alpha_1,\cdots,\alpha_n\)，再选择\(V'\)的一组基\(\beta_1,\cdots,\beta_m\)，线性映射可以表示成如下表达式。故每个线性映射在选定的基下都确定一个矩阵\(A\)，且反之对任意\(n\times m\)阶矩阵，式子（10）也定义了一个线性变换。所以在有限维空间中，可以把线性映射和矩阵等价看待。这与我们在矩阵乘法中的视角相一致，但要注意\(\mathscr{AB}\)的矩阵是\(BA\)（自行验证）。

\[\mathscr{A}(\alpha_1,\cdots,\alpha_n)=A_{n\times m}(\beta_1,\cdots,\beta_m)\tag{10}\]

　　对于同一个线性映射，选择\(V,V'\)的不同基，得到的矩阵也是不同的。设\((\alpha'_1,\cdots,\alpha'_n)=P(\alpha_1,\cdots,\alpha_n)\)和\((\beta'_1,\cdots,\beta'_m)=Q(\beta_1,\cdots,\beta_m)\)是另一组基，则有式（11）成立，即线性映射的矩阵变为\(PAQ^{-1}\)。反之对任意\(n,m\)阶的可逆方阵\(P,Q\)，\(B=PAQ^{-1}\)都是同一个线性映射在某组基下的矩阵。满足以上条件的\(A,B\)称为是相抵矩阵，显然相抵矩阵是一个等价类，每一个类对应\(\text{Hom}(V,V')\)中的一个元素。

\[\mathscr{A}(\alpha'_1,\cdots,\alpha'_n)=P\mathscr{A}(\alpha_1,\cdots,\alpha_n)=PA(\beta_1,\cdots,\beta_m)=PAQ^{-1}(\beta'_1,\cdots,\beta'_m)\tag{11}\]

　　由上一篇的结论知，总存在可逆方阵\(P,Q\)，使得\(PAQ^{-1}=\begin{bmatrix}I_r&0\\0&0\end{bmatrix}\)。在对应基下，线性映射有了最简单的形式，它也是最本质的形式，同构意义下\(n\)维到\(m\)维空间的线性映射仅有\(\min(n,m)\)个。另外，显然\(A\)的秩\(r\)正是\(\mathscr{A}(V)\)的维度，故\(r\)也称为\(\mathscr{A}\)的秩，同样记作\(\text{rank}\,\mathscr{A}\)。

　　如果把相抵看成是一种变换，我们更关注其中不变的量，比如矩阵的秩，并称之为变换的不变量。不变量是变换或等价类的重要属性，它也是考察变换的主要工具。反之，一旦矩阵的阶和秩确定，它们所属的相抵等价类也就确定了，这样的量可以唯一刻画变换，它被称为变换的全系不变量。关于不变量的讨论将贯穿今后的内容，因为这才是线性代数最精华的部分，全系不变量不仅可以给出变换的简单标准式，还可以对变换进行彻底地分类。

2. 线性变换

2.1 线性变换和相似矩阵

　　线性空间\(V\)到自身的线性映射也叫线性变换，它们组成的集合简记为\(\text{Hom}(V)\)，由于乘法在其中是封闭的，故它是一个环。恒等变换\(\mathscr{I}\)将每个元素变换到自身，显然它是环的单位元，故\(\text{Hom}(V)\)还是含幺环。像这种定义了乘法的线性空间，且乘法满足公式（4）（5）和存在单位元，我们一般称之为域\(K\)上的代数。代数是很常见的结构，比如一般的数域、\(n\)维方阵、一元多项式等等。

　　一一映射的线性变换是可逆映射，它的逆一般也记作\(\mathscr{A}^{-1}\)。又由于线性变换在乘法上的封闭性，可以很自然地定义它的幂运算（12），且它符合一般幂运算的性质，不再赘述。

\[\mathscr{A}^0=\mathscr{I},\quad \mathscr{A}^m=\mathscr{A}\mathscr{A}^{m-1},\quad \mathscr{A}^{-m}=(\mathscr{A}^{-1})^m\tag{12}\]

　　对\(n\)维空间\(V\)，线性变换\(\mathscr{A}\)同样可以对应到\(n\)阶方阵\(A\)，且变换可逆与矩阵可逆等价。前面已经看到，线性映射是矩阵的直观表示，我们同样可以用线性变换来研究方阵的性质。比如考察序列\(\mathscr{A},\mathscr{A}^2,\mathscr{A}^3,\cdots\)，显然有\(\mathscr{A}(V)\supseteq\mathscr{A}^2(V)\supseteq\cdots\)，由于秩不可能无限递减，故存在\(\mathscr{A}^k(V)=\mathscr{A}^{k+1}(V)\)。一旦出现这种情况，等式会一直成立下去，从而必定有式（13）成立。

\[\mathscr{A}^n(V)=\mathscr{A}^{n+1}(V)=\cdots,\quad \text{rank}\,A^n=\text{rank}\,A^{n+1}=\cdots\tag{13}\]

　　既然像和原像在同一空间，对它们选择相同一组基\(\alpha_1,\cdots,\alpha_n\)会比较方便，这也是线性变换不同于一般线性映射的根本原因。当取另一组基\((\alpha'_1,\cdots,\alpha'_n)=P(\alpha_1,\cdots,\alpha_n)\)时，易知线性变换的矩阵变为\(PAP^{-1}\)。更一般地，如果矩阵\(A,B\)满足式（14），则称\(A,B\)是相似矩阵，记作\(A\sim B\)。同样地，相似矩阵的等价类与\(\text{Hom}(V)\)的元素一一对应。

\[B=PAP^{-1},\quad |P|\ne 0\tag{14}\]

　　下一篇的主要任务将是研究相似矩阵的不变量和全系不变量，以得到相似标准型及相似矩阵的完全分类，这里先做一些准备工作。

2.2 不变子空间

　　由于线性变换的像和原像在同一空间，它们总是纠缠在一起，不能像线性映射那样变得简单。但我们还是希望将变换尽量分割开来，具体讲就是，将\(V\)分解为尽量小的子空间\(V_1\oplus V_2\oplus\cdots\oplus V_s\)，且线性变换的像\(\mathscr{A}(V_i)\)还在\(V_i\)中。这样在对应的基下，变换的矩阵是一个分块对角矩阵。进一步地，如果这样的分割唯一，我们还能对矩阵或变换进行分类。

　　为此我们先简单讨论一下这样的子空间\(W\)，如果它满足\(\mathscr{A}(W)\subseteq W\)，则称之为\(\mathscr{A}\)的不变子空间。显然\(V\)本身、变换的核\(\text{Ker}\,\mathscr{A}\)、变换的像\(\mathscr{A}(V)\)都是不变子空间。根据定义还可以证明，不变子空间的和、交都是不变子空间。另外，如果选取\(W\)的一组基并将其扩展成\(V\)的基，则显然变换的矩阵是如下分块下三角矩阵，其中\(r\)是\(W\)的维度。

\[\begin{bmatrix}X_{r\times r}&0\\Z&Y_{(n-r)\times(n-r)}\end{bmatrix}\tag{15}\]

　　如果在商空间\(V/W\)中定义映射\(\alpha+W\mapsto\mathscr{A}\alpha+W\)，首先由于\(W\)是不变子空间，易知这是一个良定义。再通过简单的验证可知这个映射是线性变换，它也被称为\(\mathscr{A}\)在\(V/W\)上的诱导变换。设\(W\)的基为\(\alpha_1,\cdots,\alpha_r\)，扩展为\(V\)的基为\(\alpha_1,\cdots,\alpha_n\)，则可以证明，诱导变换在基\(\alpha_{r+1}+W,\cdots,\alpha_n+W\)下的矩阵正好就是公式（15）中的\(Y\)。

　　其实\(\mathscr{A}(V),\text{Ker}\,\mathscr{A}\)为不变子空间这一结论是可以进行扩展的，这里介绍一个十分有用的结论。设线性变换\(\mathscr{B}\)满足\(\mathscr{AB}=\mathscr{BA}\)，\(V'\)是\(\mathscr{A}\)的不变子空间，容易验证\(\mathscr{B}^{-1}(V')\)和\(\mathscr{B}(V')\)都是\(\mathscr{A}\)的不变子空间。特别地，如果取\(\mathscr{B}\)为多项式\(f(\mathscr{A})\)，并分别取\(V'\)为\(V\)和\(0\)，则有\(f(\mathscr{A})(V)\)和\(\text{Ker}\,f(\mathscr{A})\)都是\(\mathscr{A}\)的不变子空间。

2.3 循环子空间

　　有一种不变子空间比较容易想到，那就是从某个向量\(\alpha\)开始“生成”的不变子空间。要使得它是不变子空间，则要求\(\alpha,\mathscr{A}(\alpha),\mathscr{A}^2(\alpha),\cdots\)都属于这个空间。在有限空间中，这个序列迟早会变得线性相关，设在\(\mathscr{A}^m(\alpha)\)处第一次出现线性相关，则它可以由\(\alpha,\cdots,\mathscr{A}^{m-1}(\alpha)\)线性表出（式（16）），而且显然后面所有的向量都可以由这前\(m\)个向量线性表出。

\[\mathscr{A}^m(\alpha)=a_{m-1}\mathscr{A}^{m-1}(\alpha)+\cdots+a_1\mathscr{A}(\alpha)+a_0\alpha\tag{16}\]

　　这\(m\)个向量的生成子空间被称为由\(\alpha\)生成的循环子空间，记做\(C_{\alpha}\)（公式（17））。显然\(C_{\alpha}\)的维数是\(m\)，且容易证明，它是包含\(\alpha\)的最小不变子空间。取这\(m\)个向量作为\(C_{\alpha}\)的基，容易验证\(\mathscr{A}|_{C_{\alpha}}\)在这组基下的矩阵为式（18）。

\[C_{\alpha}=\left<\alpha,\,\mathscr{A}(\alpha),\,\cdots,\,\mathscr{A}^{m-1}(\alpha)\right>\tag{17}\]

\[\begin{bmatrix}0&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&0\\a_0&a_1&\cdots&a_{m-1}\end{bmatrix}\tag{18}\]

2.4 特征值和特征向量

　　最简单的循环子空间当然就是\(\alpha\)的生成子空间\(\left<\alpha\right>\)，这时有公式（19）左边的关系。将满足条件的\(\alpha\)称为\(\mathscr{A}\)的特征向量，对应的\(\lambda\)称为特征值。这个关系等价于（19）的右式，要使非零的\(\alpha\)存在，特征矩阵\(\lambda I-A\)的行列式必须为\(0\)。容易证明它的行列式有式（20）的格式，多项式\(\varphi(\lambda)\)称为\(A\)的特征多项式。

\[\mathscr{A}(\alpha)=\lambda\alpha\quad\Leftrightarrow\quad (\lambda\mathscr{I}-\mathscr{A})\alpha=0\tag{19}\]

\[|\lambda I-A|=\varphi(\lambda)=\lambda^n-(a_{11}+\cdots+a_{nn})\lambda^{n-1}+\cdots+(-1)^n|A|\tag{20}\]

　　• \(A,B\)为复方阵，求证\(AB,BA\)的特征多项式相同。

　　显然\(A\)的所有特征值就是\(\varphi(\lambda)=0\)的所有根，根\(\lambda_i\)的重数称为特征值的代数重数。另外容易证明，任意特征值\(\lambda_i\)的所有特征向量组成一个线性空间，称为特征子空间，记作\(V_{\lambda_i}\)，这个线性空间的维数称为特征值的几何重数。当\(\lambda_i\ne\lambda_j\)时，考虑\(0\)在\(V_{\lambda_i}+V_{\lambda_j}\)上的分解（式（21）左），设\(0=\alpha_i+\alpha_j\)，将\(\mathscr{A}\)作用于两边得式（21）右，联立两个等式知\(\alpha_i=\alpha_j=0\)。从而\(V_{\lambda_i}\cap V_{\lambda_j}=0\)，从而可知任意两个特征子空间都不相交。

\[0=\alpha_i+\alpha_j;\quad 0=\lambda_i\alpha_i+\lambda_j\alpha_j\tag{21}\]

　　这样就可以选取各特征子空间的基并将其扩展为空间的集，线性变换在这组基下的矩阵具有以下形式，其中\(n_1,\cdots,n_s\)为特征值的几何重数。通过这个式子可以看到几何重数不大于代数重数，当所有几何重数等于代数重数时，矩阵就成为对角矩阵，这样的矩阵也称为可对角化的。反之也显然，可对角化矩阵的几何重数与代数重数都相等，它们是等价的。

\[\begin{bmatrix}\lambda_1 I_{n_1}&\cdots&0&0\\0&\ddots&0&0\\0&\cdots&\lambda_s I_{n_s}&0\\B_1&\cdots&B_{s-1}&B_s\end{bmatrix}\tag{22}\]

　　你可能注意到，特征值、特征向量、特征多项式在某个线性变换下都是确定的，故它们是矩阵相似变换下的不变量。但它们并不一定是全系不变量。因为即使有了特征值，矩阵（22）还是不确定的。当然矩阵可对角化时，特征值完全确定了矩阵，这时特征值就是矩阵在相似变换下的全系不变量。另外要注意，特征值的个数与域\(K\)的选取有关，我们不妨先在代数闭域（对应数域中的复数域）中进行讨论，因为在代数闭域中所有多项式都能分解为一次多项式之积\((\lambda-\lambda_1^{m_1})\cdots(\lambda-\lambda_s^{m_s})\)。

　　在这种假设下，首先由公式（18）知道所有特征值（包括重根）的积为\((-1)^n|A|\)，而它们的和则为\(a_{11}+\cdots+a_{nn}\)，由于特征值是不变量，所以对角线之和也是不变量。另外，任何矩阵都有特征值和特征向量，随便选取一对便得到相似矩阵\(\begin{bmatrix}\lambda_1&0\\C&B\end{bmatrix}\)。继续对\(B\)进行类似的处理，就可以得到一个下三角相似矩阵，而对角线上正是所有特征值，且每个特征值的个数与其代数重数相同。

posted on 2015-11-17 23:18 卞爱华阅读(3595) 评论(0) 收藏举报

刷新页面返回顶部

万物皆数