【高等代数】05 - 线性变换

　　线性变换是线性代数的核心概念，包含的内容和结论十分丰富。之前的讨论其实已经比较完备了，但这里我还是想把它的主要脉络再梳理一遍，然后再补充一些重要的问题和结论。

1. 线性变换和不变子空间

1.1 线性变换

　　线性变换\(\mathscr{A}\alpha\)（或线性映射）的概念自无需多说，它是线性空间\(V\)之间的一种映射关系。而映射最重要的概念就是象和原象，尤其是变换的象\(\mathscr{A}V\)与核\(\text{Ker}\mathscr{A}\)，通过关系式（1）搭建起了变换\(\mathscr{A}\)的基本机构。它直观地描述了线性变换在维度上的意义，你可以轻松说出\(V,\,\text{Ker}\mathscr{A},\,\mathscr{A}V\)三者之间的关系。更甚地，可以把\(V\)表示成某个直交和\(\text{Ker}\mathscr{A}\oplus U\)，而这里\(U\)必定与\(\mathscr{A}V\)同构。这个简单的关系很容易被忽略，但它在复合变换的论证中起到了核心的作用，比如关于复合变换的秩（象的维数）的估算，再比如后面关于幂零变换的归纳法证明。

\[V/\text{Ker}\mathscr{A}\cong\mathscr{A}V\tag{1}\]

　　式（1）说明，变换使得\(V\)的维数减少了\(\text{dim}(\text{Ker}\mathscr{A})\)，这个角度非常便于讨论复合变换的秩。对于复合变换\(\mathscr{AB}\)，它的秩显然有上界\(\max\{\text{rank}\mathscr{A},\text{rank}\mathscr{B}\}\)。从维度减少的角度，不难有式（2）的上界式，从而轻松得到复合变换秩的下界式（3）。使用这个角度，你可以尝试一下下面的两个问题。

\[\text{dim}(\text{Ker}\mathscr{AB})\leqslant\text{dim}(\text{Ker}\mathscr{A})+\text{dim}(\text{Ker}\mathscr{B})\tag{2}\]

\[\text{rank}(\mathscr{AB})\geqslant\text{rank}{\mathscr{A}}+\text{rank}{\mathscr{B}}-\text{dim}(V)\tag{3}\]

　　• 如果\(\text{rank}(\mathscr{AB})=\text{rank}(\mathscr{B})\)，则对任意变换\(\mathscr{C}\)都有\(\text{rank}(\mathscr{ABC})=\text{rank}(\mathscr{BC})\)。

　　• Frobenius不等式：\(\text{rank}(\mathscr{ABC})\geqslant\text{rank}(\mathscr{AB})+\text{rank}(\mathscr{BC})-\text{rank}(\mathscr{B})\)。

　　我们知道，任何一个线性变换\(\mathscr{A}\in\text{Hom}(V,V)\)，都可以由某组基\(\{\alpha_i\}\)以及它们的象完全确定，并由此得到了这组基下的变换矩阵\(A\)。为了让矩阵运算和变换运算的格式保持一致，把\(a_{ij}\)定义成\(\mathscr{A}\alpha_j\)在\(\alpha_i\)上的坐标。如果再把所有向量\(\alpha\)映射成坐标列向量\(a\)，\(\mathscr{A}\alpha\)的象就是\(Aa\)，而变换\(\mathscr{AB}\)的矩阵也正好是\(AB\)，这样使用起来就方便多了（后面将不加区分地写成\(A\)）。值得提醒的是，变换矩阵是线性变换的一种表示形式，可以更方便地讨论变换的性质；但其并不能完全替代后者，有时反而会让叙述变得繁琐（比如矩阵秩的讨论）。

1.2 不变子空间和最小多项式

　　线性变换没有线性映射那样简单的标准式（基于式（1）），因为它的原象和象纠缠在一起（在一个空间）。我们能做的就是找到合适的基，让它们的象和原象划分到尽量多的子空间中，这就是不变子空间的概念（简称\(A\)-子空间）。为了能将\(V\)划分成多个不变子空间，需要用到两个关键的结论。第一个是如果有\(AB=BA\)，那么\(BV,\text{Ker}\,B\)都是\(A\)-子空间。特别地，任何多项式\(f(A)\in F[A]\)都与\(A\)可交换，因此\(\text{Ker}\,f(A)\)都是\(A\)-子空间。如果有式（4）左的互质分解，根据多项式的欧几里得定理，不难有式（4）右的分割。

\[f(x)=g(x)h(x),\,(g,h)=1\;\Rightarrow\;\text{Ker}\,f(A)=\text{Ker}\,g(A)\oplus\text{Ker}\,h(A)\tag{4}\]

　　第二个是Hamilton-Caylay定理，\(A\)的特征多项式\(\varphi(\lambda)\)满足\(\varphi(A)=0\)，即它是一个零化多项式。零化多项式的存在，使得式（4）右的分割可以从整个线性空间\(V\)开始。也就是说，如果零化多项式有互质分解\(\prod g_i(x)\)，那么\(V\)可以拆分为线性无关的子空间和\(\oplus\text{Ker}\,g_i(A)\)。为了让问题更简单，我们一般用次数最小的首1零化多项式，即最小多项式\(m(x)\)。根据多项式理论不难证明，\(m(x)\)能整除所有零化多项式。

　　另外，零化（最小）多项式的概念也可以定义在单个向量、向量集或子空间上，而且显然\(V\)的零化多项式一定是它（们）的零化多项式。特别地，特征值\(\lambda_i\)的特征子空间\(V_i\)以\((\lambda-\lambda_i)\)为其最小多项式\(m_i(x)\)，而\(m(x)\)是\(V_i\)的零化多项式，故而\(m_i(x)|m(x)\)，这说明\(m(x)\)含有（复数域上）所有特征项\((\lambda-\lambda_i)\)因子。得到零化多项式最直接的方法，当然是求解以多项式系数为未知数的线性方程组。这个方法没有多大实际意义，但却可以间接说明，一定存在\(V\)的域\(F\)上的解（如果有复数解），从而扩张域\(F\)并不会带来新的最小多项式。

　　假设\(m(x)\)有式（5）左的互质分解，则线性空间可以有右式的直和分解，\(V\)的任何向量\(\alpha\)都可以分解为其在\(\text{Ker}\,p_i(x)\)中的投影\(P_i(\alpha)\)的直和。但要注意对一个子空间\(U\)而言，却不能说可以分解为\(P_i(U)\)的直和，直和包含但往往大于\(U\)。当\(U\)是\(A\)-子空间时，利用多项式的互质化1性质，不难构造出\(P_i\)是\(A\)的一个多项式。这时\(U\)也是\(P_i\)的不变子空间，\(P_i(U)\)的直和又包含于\(U\)，故而两者是相等的。另外不难看出\(P_i(U)\)就是\(U\cap W_i\)，故而不变子空间都有式（6）的直和分解，这就得到结论：\(W_i\)不变子空间的直和构成了全部\(A\)-子空间。

　　特别地，如果最小多项式\(m(x)=\prod(\lambda-\lambda_i)\)都是一阶一次的，由核分解法（5）知\(V\)可以被分解为特征空间之和，从而\(A\)可对角化。反之亦成立，故有\(A\)可对角化等价于\(m(x)\)由一次一阶因式组成，这是个极其有效的判断可对角化工具。另外，结合式（6）的结论可知：可对角化变换\(A\)的任意特征向量的直和，构成了全部\(A\)-子空间。

\[m(x)=p_1(x)\cdots p_r(x)\;\Rightarrow \;V=\text{Ker}\,p_1(x)\oplus\cdots\oplus \text{Ker}\,p_r(x)\tag{5}\]

\[U=(U\cap W_1)\oplus\cdots\oplus(U\cap W_r),\;\;W_i=\text{Ker}\,p_i(x)\tag{6}\]

　　在得到更深入的结论之前，我们先来开个脑洞。假设变换\(A\)的最小多项式\(p(\lambda)\)是\(r\)阶不可约的，根据多项式的理论，\(F[A]\)是一个以\(p(A)\)为0元的域。而回顾线性空间的定义，它可以建立在任何域上（不限定是数域），如果把\(f(A)\alpha\)视为域\(F(A)\)上的纯量乘法，则\(V\)也可以看成域\(F(A)\)上的线性空间！只是要注意，\(F[A]\)在原始域上的维度是\(r\)，所以\(V\)在域\(F[A]\)上是\(\dfrac{n}{r}\)维的。这个神奇的角度可以让变换\(f(A)\)如纯量一样自由使用，带来许多意想不到的效果，以下先举一例，本篇的最后会再次用到。

　　任何子空间都有补空间，但任何\(A\)-子空间却不一定有\(A\)-补空间。比如幂次为\(r>1\)的幂零变换\(A\)，它有非平凡的\(A\)-子空间\(U=\text{Ker}(A^{r-1})\)，任何子空间的象都是探索到\(U\)里。所以\(U\)的\(A\)-补空间\(W\ne 0\)必须满足\(AW=0\)，故\(W\subseteq U\)，导致矛盾。这个结论能扩展到更一般都情况，对于满足\(g^r(A)=0,(r>1)\)的变换，非平凡\(A\)-子空间\(g(A)V\)没有\(A\)-补空间。如果要求所有\(A\)-子空间都有\(A\)-不空间（称为半单变换），则最小多项式所有项的幂次必须为1（否则可以构造出如上的\(g(\lambda)\)）。

　　反之，对于\(m(\lambda)=\prod p_i(\lambda)\)的变换（\(p_i(\lambda)\)互质不可约），先将\(V\)分解为\(W_i=\text{Ker}\,p_i(A)\)的直和，并记\(A_i=A\mid W_i\)。根据式（6）有任意\(A\)-子空间\(U\)都由\(U_i=U\cap W_i\)直交而成，为了找到\(U_i\)在\(W_i\)上的\(A\)-补空间，把\(W_i\)看成域\(F[A_i]\)上的线性空间。由于\(W_i,U\)都是\(f(A)\in F[A]\)的不变子空间，故\(U_i\)也是\(W_i\)在域\(F[A_i]\)上的子空间，取它的补空间\(G_i\)，它显然是个\(A\)-子空间。所以在原始域上，\(U_i\)总有\(A\)-补空间\(G_i\)，这时\(G=\oplus G_i\)就是\(U\)的\(A\)-补空间。总结便有：半单变换的充要条件是最小多项式的不可约项都是1次的。

2. 线性空间的分解

2.1 复数域上的分解

　　复数域上的特征多项式都可以分解为一阶多项式幂\((\lambda-\lambda_i)^{l_i}\)的乘积（\(l_i\)叫\(\lambda_i\)的代数重数），从而\(V\)可以先被分解为若干\(A\)-子空间\(W_i=\text{Ker}\,(A-\lambda_iI)^{l_i}\)的直和。为了方便深入讨论（分解）这样的\(A\)-子空间，记\(A-\lambda_iI\)在\(W_i\)上的变换为\(A_0\)。显然\(A_0\)-子空间也是\(A\)-子空间，而且\(A_0\)是幂零变换（\(A_0^s=0,s\leqslant l_i\)）(取最小的\(s\)叫做\(\lambda_i\)的几何重数）），下面只需集中讨论\(W_i\)在\(A_0\)上的分解。

　　对于任何\(\alpha\in W_i\)，都存在\(A_0^t\alpha=0,(t\leqslant s)\)，由此生成强循环子空间\(\langle\alpha,\cdots,A_0^{t-1}\alpha\rangle\)。显然，它的特征多项式和最小多项式都是\(\lambda^t\)，而且不能再分割为两个不变子空间。幂零变换下的不可再分割的不变子空间，想必都是这样的强循环子空间，而\(W_i\)应当可以被分解为若干强循环子空间。但简单尝试后发现，从局部开始分割出这些链条是不太可能的（无法解决链条缠绕问题）。另外注意到，每个链条的最后一环\(A_0^{t-1}\alpha\)都是\(0\)特征向量，它们组成了核空间\(K_0=\text{Ker}\,A_0\)。接下来可以在\(K_0\)上使用式（1）降维处理，并通过递归论证找到分解的方法，以下具体讨论。

　　考察\(A_0\)在\(W_i/K_0\)上的诱导变换\(A_1\)，它也是一个幂等变换\(A_1^{s-1}=0\)，但幂次少1，且\(\text{Ker}\,A_1\)（的代表元）都是强循环链条的倒数第二环。以此类推，构造出不同维度的变换\(A_0,\cdots,A_{s-1}=0\)，以及它们的核空间\(K_0,\cdots,K_{s-1}\)。这时，强循环链条的每一环（从\(A_0^{t-1}\alpha\)到\(\alpha\)），依次是\(W_i/K_0,\cdots\)的代表元。另外根据诱导变换的结论，这些核空间的代表元（都是\(W_i\)的子空间）是互不相关的，且它们的正交和就是\(W_i\)。

　　现在根据这个结构，分解出独立的链条。先从\(K_{s-1}\)的代表元中选出一组基\(\{\alpha_j\}\)，它们都能生成最长的强循环链条。由于\(\{\alpha_j\}\)与\(K_{s-2}\)的代表元不相关，通过反证法可以有\(\{A\alpha_j\in K_{s-2}\}\)也不相关，递归可知这些链条的所有元素都是不相关的。接下来再在\(\{\alpha_j\}\)于\(K_{s-2}\)上的补集就行类似的讨论，最终递归构造出互相独立的链条，而链条的所有元素便是\(W_i\)的一组基。需要注意的是，不管基如何选取，不同长度链条（不同维度的强循环子空间）的个数都是确定的。

　　回顾整个构造过程，并结合式（1）可知，\(A_{i+1}\)的原象与\(A_i\)的象同构，递推得到\(A_i\)的象同构于\(A_0^{i+1}\)，即有\(\text{rank}(A_i)=\text{rank}(A_0^{i+1})\)。重新记\(A_0\)的原象\(W_i\)的维度为\(n\)，它就是所有链条的长度和，而\(A_i\)原象的维度则是所有链条截断后\(i\)节后的长度和。首先不难看出链条的个数就是\(K_0\)的维数\(n-\text{rank}(A_0)\)，然后记长度为\(r\)的链条的个数是\(n_r\)，不难有关系式（7），解此方程组便能得到每个链条的长度。从变换矩阵的角度看，\(A_0\)以链条为基的变换矩阵是一个分块对角矩阵\(D\)。每一个分块对应一个链条，是一个次对角矩阵，且分块的个数和大小也跟链条一致。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\text{rank}(A_0^k),\;(k=0,1,\cdots,s-1)\tag{7}\]

　　现在回到\(W_i\)上的变换\(A=A_0+\lambda_iI\)，它还是可以按上述链条分割为若干不变子空间，以链条为基的变换矩阵是\(D+\lambda_iI\)。最终不难推导，空间\(V\)上的变换\(A\)也能这样分割，以及有对应的变换矩阵。形如式（8）的矩阵称为Jordan块，由若干Jordan块组成的变换矩阵称为Jordan标准型。以上论证则说明了：任何特征多项式可以分解为一阶因式的线性变换\(A\)（不一定是复数域），都有唯一的Jordan标准型。反过来，也可以用Jordan标准型直观地理解链条分解的论述。

\[J_n(\lambda)=\begin{bmatrix}\lambda&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&\lambda\end{bmatrix}_{n\times n}\tag{8}\]

　　Jordan标准型将线性变换“正交分解”，使得问题的讨论可以分化到更小更简单的不变子空间（链条）上，是极其有效的分析工具。比如通过式（9）可知，有Jordan标准型的变换，与其转置变换相似。如果要具体构造标准型，首先从特征多项式得到特征值和重数，然后把式（7）稍作修改，得到每个特征值下的Jordan块。后一步要基于这样的事实：从标准型可以看出，\(A-\lambda_iI\)在其它特征值的链条下都是满秩的。

\[CJ_n(\lambda)C=\begin{bmatrix}\lambda&&&\\1&\ddots&&\\&\ddots&\ddots&\\&&1&\lambda\end{bmatrix};\;C=\begin{bmatrix}&&1\\&{\mathinner{\mkern2mu\raise1pt\hbox{.}\mkern2mu\raise4pt\hbox{.}\mkern2mu\raise7pt\hbox{.}\mkern1mu}}&\\1&&&\end{bmatrix},\;C^2=I\tag{9}\]

2.2 一般域上的分解

　　复数域上递归分解的方法可以套用到一般数域，基本思想还是降维递归、提取不相关的循环链条，下面就照着再说一遍。假定\(A\)是\(n\)维线性空间\(V\)上的线性变换，它有最小多项式\(\prod p_i^{s_i}(\lambda)\)，其中\(p_i^{s_i}(\lambda)\)是互不相同的不可约因式。先将\(A\)分解为若干\(A\)-子空间\(W_i=\text{Ker}\,p_i^{s_i}(A)\)的直和，然后在每个子空间上继续分解。不失一般性，记这个空间为\(W\)，维度为\(n\)，\(A\)在其上的变换为\(A_0\)，最小多项式\(p^s(\lambda)\)的次数为\(r\)。下面对\(s\)使用第二归纳法递归论证。

　　当\(s=1\)时，对所有元素都有\(p(A_0)\alpha=0\)。先构造出循环子空间\(U=\langle\alpha,\cdots,A_0^{r-1}\alpha\rangle\)，然后对\(A_0\)在\(W/U\)上的诱导变换进行归纳递归的构造。最终便能得到\(W\)的一组基，它由\(n/r\)个循环链条组成，这就是我们要的最终分解。注意这里的一个链条只相当于复数域场景的一个元素，这就是一般域上的不同之处，也是造成复杂的主要原因。

　　当\(s>1\)时，类似地构造出\(K_0=\text{Ker}\,(p(A_0))\)，以及\(A_0\)在\(W/K_0\)上的诱导变换\(A_1\)。\(A_1\)的最小多项式是\(p^{s-1}(\lambda)\)，按归纳法它可以分解为若干无关的链条，取其一\(\langle\alpha+K_0,\cdots,A_0^{t-1}\alpha+K_0\rangle\)。记\(\alpha+K_0\)的最小多项式为\(q(\lambda)=p^e(\lambda)\)，则有\(\beta=q(A_0)\alpha\in K_0\)，取其循环链条\(\langle\beta,\cdots,A_0^{r-1}\beta\rangle\)。不难证明\(\beta\)链条与\(\alpha+K_0\)链条的代表元互不相关，且合并后等价于\(\alpha\)链条\(\langle\alpha,\cdots,A_0^{sr-1}\alpha\rangle\)，每个这样的\(\alpha+K_0\)链条都能找到对应的\(\beta\)链条，并扩展为更长的\(\alpha\)链条。

　　根据所有\(\alpha\)链条的不相关性，用反证法可知它们的\(\beta\)链条也是不相关的。这相当于所有的\(\beta\)链条将\(K_0\)进行了局部分割，而剩下的部分也不难分割为若干长度为\(r\)的\(\alpha\)链条。所有\(\alpha\)的元素互不相关，正好构成了\(W\)的一组基，这就是我们要找的最终分解。每个链条下的变换矩阵有形式（10），它称为Frobinus矩阵，也叫有理块，而有理块组成的变换矩阵叫有理标准型。每个有理块的特征多项式和最小多项式都是\(p^e(\lambda)\)，其中\(er=t\)，\(a_i\)是\(p^e(\lambda)\)中\(\lambda^i\)的系数。另外如果构造过程中不展开链条，每个分块将是式（11）右的形式（\(H_r\)只有右上角为1），它也被称为广义Jordan块，对应也有广义Jordan标准型。

\[C(p(\lambda))=\begin{bmatrix}0&0&\cdots&-a_0\\1&0&\cdots&-a_1\\\vdots&\vdots&\ddots&\vdots\\0&\cdots&1&-a_{t-1}\end{bmatrix}_{t\times t}\tag{10}\]

\[C(p^r(\lambda))\;\sim\;\begin{bmatrix}C(p(\lambda))&&&\\H_r&\ddots&&\\&\ddots&\ddots&\\&&H_r&C(p(\lambda))\end{bmatrix}\tag{11}\]

　　最后根据构造链条的过程易知，链条的个数为\(\dfrac{1}{r}\text{dim}\,K_0=\dfrac{1}{r}(n-\text{rank}[p(A_0)])\)。若记长度为\(ir\)的链条的个数为\(n_i\)，还有式（12）方程组，求解便得到每种链条的个数，从而得到有理标准型。放到一般的变换\(A\)和空间\(V\)中，由于\(p(\lambda)\)与其它\(p_j(\lambda)\)互质，利用多项式化一理论可知，\(p^k(A)\)在其它\(W_j\)上是满秩的，故而\(\text{rank}[p^k(A_0)]=\text{rank}[p^k(A)]\)。也就是说，可以直接用\(\text{rank}[p_i^k(A)]\)计算\(W_i\)上每种链条的数量。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\dfrac{1}{r}\text{rank}[p^k(A_0)],\;(k=0,1,\cdots,s-1)\tag{12}\]

2.3 \(\lambda\)矩阵

　　标准型是特殊的相似矩阵，它保留了线性变换的核心元素（全系不变量），并以更简单的形式方便了理论推导。但从讨论中看出，具体计算、构造这些全系不变量并不轻松，我们需要一个更好的获取它们的方法。但鉴于这个方法和矩阵相似的跨度实在太大，我一直苦于寻找到一个过渡更顺滑的讲法，但不知从何说起。勉强来说，是要从相似矩阵\(A\sim B\)的特征矩阵矩阵\(\lambda I-A,\lambda I-B\)中寻找共同点，一是因为特征矩阵原生地保留了变换的所有信息，二是这种表达在HC定理中有一个不容忽视的性质。

　　首先把元素为\(\lambda\)多项式的矩阵称为\(\lambda\)矩阵，如果允许使用矩阵的数乘运算，每个\(\lambda\)矩阵可以表示为式（13）。式（13）把\(\lambda\)矩阵看成了矩阵系数的\(\lambda\)多项式，而这里的\(\lambda\)仅限定在空间的域上。刚才提到的重要性质是指，如果\(F(\lambda)\)能表示成式（14）左，那么把\(\lambda\)换成矩阵\(A\)时仍然成立。这个性质依赖一个很简单的道理：要想这种替换成立，只需\(\lambda,A\)可交换，故而取\(\lambda=A\)一定成立。当然，\(\lambda\)可以替换为任何与\(A\)可交换的矩阵。

\[F(\lambda)=\lambda^sA_s+\cdots+\lambda A_1+A_0\tag{13}\]

\[F(\lambda)=(\lambda I-A)(\lambda^{s-1}B_{s-1}+\cdots+B_0)\;\Rightarrow\;F(A)=0\tag{14}\]

　　然后在\(\lambda\)矩阵上扩展初等变换和相抵的概念，但要限定初等变换也是\(\lambda\)矩阵且可逆，故必须是格式\(P(i,j),P(i,j(f(\lambda))),P(i(k))\)之一。在这样的定义下，显然\(\lambda I-A,\lambda I-B\)是相抵的，反之如果有\(P(\lambda)(\lambda I-A)=(\lambda I-B)Q(\lambda)\)，由式（14）也能得到\(A\sim B\)。这就是说矩阵相似与特征矩阵相抵是等价的，而相抵的每一步初等变换都可逆，故可以探索特征矩阵的相抵矩阵而不惧丢失信息。

　　初等变换开始出现于行列式当中，那么来考虑\(A(\lambda)\)的所有\(k\)阶子式的行列式，它们是一个多项式集合。初等变换对它们施加的无非是交换、倍数差、纯量乘，由多项式的理论，这些并不改变多项式集的首1最大公因式\(D_k(\lambda)\)。它也被称为\(A(\lambda)\)的\(k\)阶行列式因子，它们是相抵意义下的不变量。为了更快地解析出行列式因子，可以先找到\(d_1(\lambda)=D_1(\lambda)\)放在1行1列，并将1行1列其它元素零化，然后递推得到相抵对角矩阵（15）。其中\(d_i(\lambda)=D_i(\lambda)/D_{i-1}(\lambda)\)，这保证了\(d_i(\lambda)\)的唯一性，它称为\(M(\lambda)\)的不变因子，这样的相抵\(\lambda\)矩阵也叫\(M(\lambda)\)的Smith标准型。

\[F(\lambda)=P(\lambda)\begin{bmatrix}d_1(\lambda)&&\\&\ddots&\\&&d_n(\lambda)\end{bmatrix}Q(\lambda),\;\;d_i(\lambda)=\dfrac{D_i(\lambda)}{D_{i-1}(\lambda)}\tag{15}\]

　　\(\lambda\)矩阵相抵只涉及到多项式的运算，不管在计算还是理论推导上，都有其独有的优势。比如解析过程中发现，Smith标准型并不受数域的影响，所以\(\lambda\)矩阵的相抵关系不因数域而改变，进而证明矩阵相似也不因数域而改变。再比如转置特征矩阵的行列式因子不变，再次证明总有\(A\sim A'\)。另外由于递归中\(d_i(\lambda)\)总是选的公因式，因此还有性质\(d_i(\lambda)\mid d_{i+1}(\lambda)\)（最后几个可能为0）。

　　\(d_i(\lambda)\)的不可分解因式\(m^r(\lambda)\)被称为\(\lambda\)矩阵的初等因子，它和不变因子都是\(\lambda\)矩阵的不变量。如果给定非平凡的初等因子或不变因子，以及矩阵的秩（必需），便能很容易地恢复出它的Smith标准型。有趣的是，只要能找到一个对角型的相抵矩阵，对角元的所有不可分解因式便是所有的初等因子，只需简单调整位置便得到了Smith标准型。原因在于，如果只改变（交换）某个因式的位置，行列式因子不变，从而改变后仍与原矩阵相抵。这就说明，分块对角矩阵的初等因子，就是所有分块的初等因子之合。

　　现在回到特征矩阵\(\lambda I-A\)，它的不变因子（行列式因子、初等因子）也被称为\(A\)的不变因子（行列式因子、初等因子）。由于特征矩阵总是满秩的，加上相抵和相似的等价性，则有不变因子和初等因子都是矩阵相似的全系不变量。容易验证有理块\(C(p^r(\lambda))\)的初等因子只有\(p^r(\lambda)\)，从而有理标准型的有理块和初等因子一一对应，这就能更方便地得到有理标准型。特别地，Jordan块\(J_{n}(\lambda_0)\)也与初等因子\((\lambda-\lambda_0)^n\)一一对应，而且在Jordan标准型中容易看出，不变因子\(d_n(\lambda)\)其实就是最小多项式，故而再次证明：最小多项式不因数域而变化。

3. 可交换矩阵

　　最后，我们借助一个课题综合运用本章的知识点。记域\(F\)上\(n\)维线性空间\(V\)的线性变换\(A\)，现在考虑所有与\(A\)可交换的变换组成的集合\(C[A]=\{X|XA=AX\}\)，我们希望能得知\(C[A]\)更多的信息。首先我们知道，\(A\)的多项式\(f(A)\)都与\(A\)可交换，从而多项式域\(F[A]\)是\(C[A]\)的一个下界。假设\(A\)的最小多项式\(m(\lambda)\)是\(s\)阶的，易知\(I,A,\cdots,A^{s-1}\)线性无关且是\(F[A]\)的一组基，即\(F[A]\)是\(s\)维线性空间。

　　• 记\(P_i\)为分解\(V=\oplus U_i\)下在\(U_i\)上的投影，证明\(P_i\in C[A]\)的充要条件是：\(P_i\)为\(A\)-不变子空间。

　　以上一直在讨论线性变换的不变子空间分割，这可以将问题分化到维度更小的独立子空间中分析。在可交换问题上，不变子空间分割表现为（分块）对角矩阵，直接利用矩阵乘法的性质能方便问题的讨论。为简单起见，设\(A\)可对角化为\(\begin{bmatrix}A_1&\\&A_2\end{bmatrix}\)，同时也将\(X\)按对应子空间分割为\(\begin{bmatrix}X_{11}&X_{12}\\X_{21}&X_{22}\end{bmatrix}\)，由\(AX=XA\)得到式（16）。这个等式的对角线就是在不变子空间的讨论，而非对角线又引出了新问题\(A_iX=XA_j\)。

\[\begin{bmatrix}A_1X_{11}&A_1X_{12}\\A_2X_{21}&A_2X_{22}\end{bmatrix}=\begin{bmatrix}X_{11}A_1&X_{12}A_2\\X_{21}A_1&X_{22}A_2\end{bmatrix}\tag{16}\]

　　对于特殊的变换，继续推导下去比较容易。比如假设\(A\)可对角化为\(\text{diag}\{\lambda_1I_{n_1},\cdots,\lambda_sI_{n_s}\}\)，对比式（16）可知：\(X\)的对角分块为任意矩阵，而其它分块皆为\(0\)。也就是说\(C[A]\)的维度是\(\Sigma n_s^2\)，它一般大于\(F[A]\)。更特殊地，如果\(A\)的特征值互不相同，则\(n_i=1\)，这时\(C[A]=F[A]\)。

　　对于一般的情况，我们先把注意力放在\(A_iX=XA_j\)上，其中\(A_i,A_j\)分别是\(n_i,n_j\)维方阵，\(X\)是\(n_i,n_j\)的矩阵。设\(X\)的秩为\(r\)，则它可以表示为\(P\begin{bmatrix}I_r&\\&0\end{bmatrix}Q\)。带入等式并整理对比后可知，\(P^{-1}A_iP\)和\(QA_jQ^{-1}\)左上角\(r\)阶子矩阵相同，从而\(A_i,A_j\)在复数域有\(r\)个（算重数）相同的特征值。反之如果\(A_i,A_j\)有\(r\)个（算重数）相同的特征值，分别取对应\(r\)个线性无关的特征值组成列矩阵\(R_i\)和行矩阵\(R_j'\)，验证\(X=R_iR_j'\)可知，它是方程\(A_iX=XA_j\)秩为\(r\)的一个解。综合以上便有结论：方程\(A_iX=XA_j\)有秩为\(r\)的解的充要条件是，\(A_i,A_j\)在复数域有\(r\)个（算重数）相同的特征值。

　　以上结论能推推演至\(r\)成立的最大值，特别地，当\(r=0\)时方程只有零解，这时\(A_i,A_j\)在复数域没有相同的特征值。由多项式的结论知，\(A_i,A_j\)的特征多项式互质（在任何数域）。这时既有，\(A_iX=XA_j\)只有零解的充要条件是，\(A_i,A_j\)的特征多项式互质。所以如果按式（5）分割不变子空间，方程总是只有零解，可交换问题就只需在不变子空间\(W_i\)中讨论。但要注意\(W_i\)中可能有多个有理块或Jordan块，此时\(C[A_i]\)还没有一般性的结论，我们只能讨论一些特殊情况。简单起见，以下还是记\(W_i\)为\(V\)，记\(A|W_i\)为\(A\)。

　　首先假定\(W_i\)中只有一个有理块（或Jordan块），也就是说标准型的每个有理块是互素的，这时就能单独讨论有理块了。记有理块的基是\(\xi,A\xi,\cdots,A^{r-1}\xi\)，并设\(B\in C[W_i]\)满足\(B\xi=\sum a_iA^i\xi\)。对任意向量\(\alpha\)，将其展开并根据\(A,B\)的可交换性，容易证得\(B\alpha=\sum a_iA^i\alpha\)。从而有\(B=\sum a_iA^i\in F[A]\)，再次得到\(C[A]=F[A]\)。

　　再看\(W_i\)的最小多项式是\(p(\lambda)\)是\(r\)阶一次的情形。我们把\(V\)看成是域\(F(A)\)上的线性空间，并定义这个空间上的线性变换集\(H[A]=\text{Hom}_{F[A]}(V,V)\)，这个神奇的角度可以让\(f(A)\)如纯量一样自由穿梭，从而带来所需的“交换”效果。比如对任何\(B\in H[A]\)，总有\(B(A\alpha)=A(B\alpha)\)，从而\(B\in C[A]\)或\(H[A]\subseteq C[A]\)。反之对任何\(B\in C[A]\)，总有\(B(f(A)\alpha)=f(A)(B\alpha)\)，所以\(B\)可以看成域\(F[A]\)上线性变换，即有\(B\in H[A]\)或\(C[A]\subseteq H[A]\)。综合便得到\(C[A]=H[A]\)，进一步还可以计算\(H[A]\)的维度：\(H[A]\)在域\(F[A]\)上是\(\dfrac{n^2}{r^2}\)维、在原始域上是\(\dfrac{n^2}{r}\)维的。

　　更一般的\(W_i\)就不太好分析\(C[W_i]\)了，但还有一个漂亮的性质值得介绍一下。这里先定义符号\(C^2[A]=C[C[A]]\)，它表示与\(C[A]\)所有元素都可交换的变换集，首先因为\(A\in C[A]\)，故有\(C^2[A]\subseteq C[A]\)。如果\(C[A]\)没有达到下限\(F[A]\)，更多的元素其实会对\(C^2[A]\)造成较大的限制，很有可能会有\(C^2[A]=F[A]\)。即对任意\(B=\in C^2[A]\)，我们希望构造出\(B=g(A)\in F[A]\)。为此先将\(V\)分解成有理块（或Jordan块）\(\oplus U_i\)，记循环子空间\(U_i\)的生成元为\(\xi_i\)，以及最小多项式为\(p_i(\lambda)=p^{s_i}(\lambda)\)，其中\(s_i\leqslant s\)。

　　因为\(BA=AB\)，所以\(U_i\)也是\(B\)-子空间，这里记变换\(B_i=B|U_i\)，前面已经证明了存在\(B_i=g_i(A_i)\)。那么希望构造的\(g(A)\)必须满足\(g(A_i)-g_i(A_i)=0\)，即\(m_i(\lambda)\mid g(\lambda)-g_i(\lambda)\)。不难看出，如果方程有特解，必然是阶数最高的\(g_i(\lambda)\)，记对应的生成元为\(\xi\)。再记\(\alpha=p^{s-s_i}(A)\xi\)，要使等式对每个\(i\)成立，等价于要求\(g(A)\alpha=g_i(A)\alpha\)。为了出现\(g_i(A)\)，只需把\(\alpha\)看成\(\xi_i\)在某个变换下的象，而这个变换要与\(B\)可交换。对任意\(q(A)\xi_i\)，构造变换\(H_i(q(A)\xi_i)=q(A)\alpha\)，而在\(U_j\ne U_i\)上是单位映射。易证这个映射是良性定义的（如果\(q_1(A)\xi_i=q_2(A)\xi_i\)则象也相同），且有\(H_i\in C[A]\)，则它满足刚才的条件。构造成功后，逆推整个过程便有式（17）成立。

\[C^2[A]=C[C[A]]=F[A]\tag{17}\]

　　最后来看可交换变换的一个性质。假设复数域上有\(AB=BA\)，先取\(A\)的一个特征子空间\(V(\lambda)\)，那么它也是\(B\)的不变子空间。现在在\(V(\lambda)\)中取\(B\)的特征向量\(\alpha_1\)，它是\(A,B\)的共同特征向量。易知\(A,B\)在\(\alpha_1\)生成空间下的诱导变换仍然可交换，继续这样的讨论，便能得到一组基\(\{\alpha_i\}\)，其中\(A\alpha_i,B\alpha_i\)都可由\(\alpha_1,\cdots,\alpha_{i-1}\)表示。从变换矩阵的角度，就是存在\(P\)使得\(P^{-1}AP\)和\(P^{-1}BP\)都是上三角矩阵，且对角线都是特征值。这个结论能扩展到任意多可交换变换。特别地，如果\(\{A_i\}\)都可以对角化、且互相可交换。先选择基将\(A_1\)对角化。从本段开始的讨论可知，这时其它变换的矩阵都是对角分块矩阵，利用可对角化的条件（最小多项式），可递推地将所有矩阵都对角化。也就是说，存在\(P\)使得\(P^{-1}A_iP\)都是对角矩阵，而刚才的结论就是该结论的扩展。

posted on 2021-02-22 12:33 卞爱华阅读(3780) 评论(3) 收藏举报

刷新页面返回顶部