失乐园

Adversity makes the man!

导航

Cayley-Hamilton 定理

Posted on 2017-11-08 16:28  Regenwald  阅读(1976)  评论(0编辑  收藏  举报

reference:https://ccjou.wordpress.com/2009/08/26/cayley-hamilton-%E5%AE%9A%E7%90%86/

本文的閱讀等級:初級

1858年,英國數學家凱萊 (Arthur Cayley) 在其大作〈矩陣理論備忘錄〉(A Memoir on the Theory of Matrices) 中熱切地寫道[1]:

我得到這個傑出的定理,不論任何矩陣都滿足與它次數相同的一個代數方程,其中最高次冪的係數是 1……且最後一項的係數正是行列式。

凱萊所指的傑出定理今日稱為 Cayley-Hamilton 定理。本文介紹這個優美簡潔的定理並提供一個基於矩陣三角化的證明。

 

 
Cayley-Hamilton 定理:令 A 為一個 n\times n 階矩陣且 p(\lambda) 為 A 的特徵多項式。將矩陣 A替換 \lambda 得到的矩陣多項式滿足 p(A)=0

直白地說,一個矩陣被它自己的特徵多項式消滅。例如,A=\begin{bmatrix}  1&2\\  3&4  \end{bmatrix} 的特徵多項式定義為

p(\lambda)\overset{\underset{\mathrm{def}}{}}{=}\det(A-\lambda I)=\begin{vmatrix} 1-\lambda&2\\  3&4-\lambda  \end{vmatrix}=\lambda^2-5\lambda-2

讀者可自行計算驗證 Cayley-Hamilton 定理:

p(A)=A^2-5A-2I=0

 
Cayley-Hamilton 定理的涵義是甚麼?給定 n\times n 階矩陣 A,存在一個次數不大於 n^2 的消滅多項式 f,使得 f(A)=0 (見“矩陣多項式”)。證明於下:所有的 n\times n 階矩陣形成一個向量空間,其維數等於 n^2。因此,\{I,A,A^2,\ldots,A^{n^2}\} 必定是一線性相關集,換句話說,存在不全為零的數組 a_0,a_1,\ldots,a_{n^2} 使得

\displaystyle  a_{n^2}A^{n^2}+\cdots+a_1A+a_0I=0

令 f(t)=a_{n^2}t^{n^2}+\cdots+a_1t+a_0 即得證。沿用相同的概念,對於任一向量 \mathbf{v}\in\mathbb{C}^n\{\mathbf{v},A\mathbf{v},\ldots,A^n\mathbf{v}\} 必定是一個線性相關集,也就是說存在一個 n 次多項式 f 使得 f(A)\mathbf{v}=\mathbf{0}。不過,這個 n 次多項式 f 隨著向量 \mathbf{v} 改變。Cayley-Hamilton 定理宣稱矩陣 A的特徵多項式 p 使得 p(A)=0,即每一個向量 \mathbf{v} 皆使 p(A)\mathbf{v}=\mathbf{0}

 
下面利用矩陣三角化來證明 Cayley-Hamilton 定理。矩陣 A 的特徵多項式 p(\lambda) 的根是 A 的特徵值 \lambda_1,\lambda_2,\cdots,\lambda_n。根據代數基本定理,特徵多項式 p(\lambda) 可表示成 (設領先係數為 1)

p(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)\cdots(\lambda-\lambda_n)

對應的矩陣多項式為

p(A)=(A-\lambda_1I)(A-\lambda_2I)\cdots(A-\lambda_nI)

Schur 定理說任一矩陣 A 可三角化為 A=UTU^{-1},其中 T 是一個上三角矩陣其主對角元為 A 的特徵值 \lambda_1,\cdots,\lambda_nU 是一個么正矩陣 (unitary matrix),U^{-1}=U^\ast,其中 U^\ast=\overline{U}^T(見“矩陣三角化的 Schur 定理”)。如果 U 是實矩陣,則 U^{-1}=U^T,稱為正交矩陣 (orthogonal matrix)。接下來,使用三角化表達式分解 p(A),將 A=UTU^{-1} 代入矩陣多項式,可得

\begin{aligned} p(A)&=p(UTU^{-1})\\ &=\left(UTU^{-1}-\lambda_1I\right)\left(UTU^{-1}-\lambda_2I\right)\cdots\left(UTU^{-1}-\lambda_nI\right)\\ &=\left[U(T-\lambda_1I)U^{-1}\right]\left[U(T-\lambda_2I)U^{-1}\right]\cdots\left[U(T-\lambda_nI)U^{-1}\right]\\ &=U\left[(T-\lambda_1I)(T-\lambda_2I)\cdots(T-\lambda_nI)\right]U^{-1}\\ &=U\, p(T)\, U^{-1}.\end{aligned}

上式表明 p(A)=0 等價於 p(T)=0

 
最後我們證明 p(T)=(T-\lambda_1I)\cdots(T-\lambda_nI)=0。為清楚顯示過程,底下僅考慮 3\times 3 階矩陣 (嚴格證明見[2]):

T=\begin{bmatrix} \lambda_1&\ast&\ast\\  0&\lambda_2&\ast\\  0&0&\lambda_3  \end{bmatrix}

其中 \ast 代表任意數。直接計算矩陣乘法,

\begin{aligned} p(T)&=(T-\lambda_1I)(T-\lambda_2I)(T-\lambda_3I)\\ &=\begin{bmatrix} 0&\ast&\ast\\ 0&\ast&\ast\\ 0&0&\ast \end{bmatrix}\begin{bmatrix} \ast&\ast&\ast\\ 0&0&\ast\\ 0&0&\ast \end{bmatrix}\begin{bmatrix} \ast&\ast&\ast\\ 0&\ast&\ast\\ 0&0&0 \end{bmatrix}\\ &=\begin{bmatrix} 0&0&\vline&\ast\\ 0&0&\vline&\ast\\\hline 0&0&\vline&\ast \end{bmatrix}\begin{bmatrix} \ast&\ast&\vline&\ast\\ 0&\ast&\vline&\ast\\\hline 0&0&\vline&0 \end{bmatrix}=\begin{bmatrix} 0&0&0\\ 0&0&0\\ 0&0&0 \end{bmatrix}.\end{aligned}

這個例子提示我們使用歸納法很容易推得一般 n\times n 階上三角矩陣 T 滿足 (T-\lambda_1I)\cdots(T-\lambda_nI)=0

 
Cayley-Hamilton 定理還有其他證明方法,請見“Cayley-Hamilton 定理的一個代數證明方法”,“利用連續論證法證明 Cayley-Hamilton 定理”,“利用循環子空間證明 Cayley-Hamilton 定理”。運用 Cayley-Hamilton 定理可簡化冪矩陣 A^k 的計算,請見“每週問題 August 3,2009”,或計算矩陣函數,見“利用 Cayley-Hamilton 定理計算矩陣函數”。

 
註解
[1] 原文是 “I obtain the remarkable theorem that any matrix whatever satisfies an algebraic equation of its own order, the coefficient of the highest power being unity… and the last coefficient being in fact the determinant.”
[2] 我們用向量空間分析來證明 (T-\lambda_1I)\cdots(T-\lambda_nI)=0。設子空間 \mathcal{W}_0=\{\mathbf{0}\},且 \mathcal{W}_j=\hbox{span}\{\mathbf{e}_1,\ldots,\mathbf{e}_j\}1\le j\le n,其中 \mathbf{e}_j 表示 \mathbb{C}^n 的第 j 個標準單位向量。因為 T 是上三角矩陣,不難驗證 T(\mathcal{W}_j)=\{T\mathbf{x}\vert\mathbf{x}\in\mathcal{W}_j\}\subseteq\mathcal{W}_j,而且 (T-\lambda_jI)(\mathcal{W}_j)\subseteq\mathcal{W}_{j-1} (這是因為 T-\lambda_jI 的 (j,j) 元等於零)。所以,(T-\lambda_nI)(\mathcal{W}_n)\subseteq\mathcal{W}_{n-1},且

(T-\lambda_{n-1}I)(T-\lambda_nI)(\mathcal{W}_n)\subseteq(T-\lambda_{n-1}I)(\mathcal{W}_{n-1})\subseteq \mathcal{W}_{n-2}

重複上述步驟,可得

\displaystyle (T-\lambda_1I)\cdots(T-\lambda_nI)(\mathcal{W}_n)\subseteq\mathcal{W}_0=\{\mathbf{0}\}

但 \mathcal{W}_n=\mathbb{C}^n,也就是說,每一 \mathbf{x}\in\mathbb{C}^n 使得 (T-\lambda_1I)\cdots(T-\lambda_nI)\mathbf{x}=\mathbf{0},證明 (T-\lambda_1I)\cdots(T-\lambda_nI)=0