矩阵
矩阵的加法与数乘
对于两个大小相同的矩阵,我们定义加法:由对应元素相加得到的一个新矩阵。对于一个矩阵,我们定义数乘:每个元素都乘上一个常数\(c\)得到的一个新矩阵。容易验证矩阵的加法和数乘满足下列运算性质:
- \(A+B=B+A\) (加法交换律)
- \(c(A+B)=cA+cB\)(数乘分配律)
- \(A+(B+C)=(A+B)+C\)(加法结合律)
这些性质本质上都是实数运算的性质,因为我们注意到矩阵的加法与数乘对于矩阵每个位置上的数都是独立的,没有涉及各个元素之间的关系。
矩阵的乘法
定义
对于一个\(m \times n\)的矩阵\(A\)和一个\(n \times p\)的矩阵\(B\),定义乘法:
\(AB(i,j)=\sum\limits_{k \in [n]}A(i,k)B(k,j)\)
“矩阵的乘法”代数上都可以回归到\(AB(i,j)=\sum\limits_{k \in [n]}A(i,k)B(k,j)\)这个定义上,但对它的理解却是多样的。最初来看,让矩阵在相乘时呈现这样一种复杂的运算方式仅仅是一种“定义”,但当我们认识到这样的运算方式所能够含有的各种深刻意义之后,反过来就能够意识到这种定义的合理与必然了。而且从历史发展来看,尽管我们现在学到的概念各自被安放在了体系中的合理位置,但它们最初出现的时候想必也是具有模糊性的,不是时间上逻辑上一脉相承的。我们暂且把这种定义看作神奇的力量,它给了我们一种统一性,当我们在用其他方式理解矩阵乘法时,不妨时不时检查一下那种理解方式是否符合这种统一的定义,以便确信它背后的深刻含义。
运算性质
矩阵乘法的运算性质,本质上都可以通过这个定义来证明的。对它们的理解没有任何困难,因为这只是代数运算的必然结果。总结起来,矩阵的运算满足:
- \(A(B+C)=AB+AC\)(左乘矩阵的分配律)
- \((A+B)C=AC+BC\)(右乘矩阵的分配律)
- \(A(BC)=(AB)C\)(矩阵乘法的结合律)
特别需要强调的是,矩阵乘法不满足交换律——\(AB\)不一定等于\(BA\)。从矩阵大小上就可以否定这个命题,\(A_{mn}B_{np}\)可以相乘,而当\(m \neq p\)时\(B_{np}A_{mn}\)一定不能相乘。而即便\(m=p\),得到的结果也不一定相同。
一个特殊的矩阵\(I_{nn}\)称为单位矩阵,它在主对角线上全为1,其余全为0。用定义可以证明\(A_{mn}I_{nn}=A_{mn},I_{mm}A_{mn}=A_{mn}\)。
转置
矩阵\(A\)的转置就是一个把行列颠倒过来的矩阵,记作\(A^\top\)。严格来说,即\(A(i,j)=A^\top(j,i)\)对一切\(i,j\)成立。\(m \times n\)的矩阵的转置是一个\(n \times m\)的矩阵。
可以验证如下性质:
- \((A+B)^\top=A^\top+B^\top\)
- \((AB)^\top=B^\top A^\top\)
- \((A^{-1})^\top=(A^\top)^{-1}\)
分块矩阵
纯粹从代数出发,我们验证矩阵乘法有这样一个美妙的性质:如果把矩阵划分成若干块,在乘法时可以把每一个块当作整体来运算。(此时数的加法和乘法变成矩阵的加法和乘法)
例如,一个矩阵\(B\)可以被拆成一系列列向量,也就是\(B=\begin{bmatrix} b_1 & b_2 & \cdots & b_p \end{bmatrix}\)。因此根据分块矩阵的运算得到\(AB=\begin{bmatrix} Ab_1 & Ab_2 & \cdots & Ab_p \end{bmatrix}\),这告诉我们研究矩阵乘矩阵可以从研究矩阵乘向量出发。
理解矩阵乘向量的两种角度
观察矩阵乘向量的情形,即\(A_{mn}x_{n1}=b_{m1}\)。根据定义的矩阵乘法的运算方式,我们实际上得到了一个\(n\)元线性方程组。而矩阵\(A\)中的数字其实表示着这个方程组的各项系数。在这个意义上,矩阵是对线性方程组的一种简化表达方式。从代数的角度来看这个问题,我们可以用高斯消元的方法求出各个变量可能的取值;从几何的角度,我们可以看作若干个几何图形在空间中相交——二元的方程组表示直线在平面内的交点,三元的方程组表示平面在三维空间中的交点。
我们还可以用另一种方式来理解它。根据定义的运算方式,对于\(Ax=b\),我们发现,\(Ax\)可以看作\(A\)的列向量的线性组合,每一列对应的系数就恰好可以对应\(x\)的对应的坐标:\(\begin{bmatrix}a_{11} &a_{12}\\a_{21} & a_{22}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}a_{11}x_1+a_{12}x_2\\a_{21}x_1+a_{22}x_2\end{bmatrix}=\begin{bmatrix}a_{11}x_1\\a_{21}x_1\end{bmatrix}+\begin{bmatrix}a_{12}x_2\\a_{22}x_2\end{bmatrix}=x_1\begin{bmatrix}a_{11}\\a_{21}\end{bmatrix}+x_2\begin{bmatrix}a_{12}\\a_{22}\end{bmatrix}\)于是,这里的“乘法”就可以被理解为是“用\(x\)的方式对\(A\)的列向量做线性组合得到的结果”。我们可以从向量空间的角度理解:如果\(b\)落在\(A\)的列空间中,那么\(A\)的列向量存在至少一种线性组合来表示\(b\),方程组有解;如果\(b\)不在\(A\)的列空间中,则无解。
上面两种理解方式都涉及“空间”或者“几何”。有意思的是,当我们用“平面相交”的方式来理解时,我们是以\(A\)的“行”为单位来看的;当我们用“向量张成的空间”来理解时,我们时以\(A\)的“列”为单位来看的。这暗示着我们,矩阵的“行”和“列”很有可能具有某种统一性。