矩阵分解与矩阵求导
矩阵分解
矩阵的满秩分解
- 对于 \(A\in \mathbb{C}^{n\times m}_r\),使用\(\textcolor{blue}{初等行变换}\)将矩阵 \(A\) 分解为列满秩矩阵 \(F\in \mathbb{C}^{n\times r}_r\) 和行满秩矩阵 \(G\in \mathbb{C}^{r\times m}_r\) 的乘积,即 \(A=FG\)
- 满秩分解一定存在但不唯一,因为 \(A=(FD)(D^{-1}G)\),其中 \(D\in \mathbb{C}^{r\times r}_r\)
- 相抵标准型:取 \(P=\left( F,F' \right)\in \mathbb{C}^{n\times n}_n, Q=\begin{pmatrix}G\\G'\end{pmatrix}\in \mathbb{C}^{m\times m}_m\),则 \(A=P\begin{pmatrix}I_r&\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0}\end{pmatrix}Q\)
- 算法:经初等行变换化 \(A\) 为(简化)行阶梯型矩阵
- 应用:计算广义逆,解线性方程组
矩阵的三角分解
- LU(Doolittle)分解:对于 \(A\in \mathbb{C}^{n\times m}_r\),使用\(\textcolor{blue}{初等行变换}\)将矩阵 \(A\) 分解为单位下三角型矩阵 \(L\in \mathbb{C}^{n\times n}_n\) 和上三角型矩阵 \(U\in\mathbb{C}^{n\times m}_r\) 的乘积,即 \(A=LU\)
- 设 \(A\in \mathbb{C}^{n\times m}_r\),则存在行置换阵 \(P\in \mathbb{C}^{n\times n}_n\)(左)和列置换阵 \(Q\in \mathbb{C}^{m\times m}_m\)(右)使得 \(PAQ=LU=\begin{pmatrix} L_r&\boldsymbol{0}\\ C_3&L_4\end{pmatrix}\begin{pmatrix} U_r&U_rB\\ \boldsymbol{0}&\boldsymbol{0} \end{pmatrix}=\begin{pmatrix} L_r\\ C_3\end{pmatrix}\begin{pmatrix} U_r&U_rB\end{pmatrix}\)
- 设 \(A\in \mathbb{C}^{n\times m}_r\),如果矩阵 \(A\) 的前 \(r\) 阶顺序主子式 \(d_k\neq 0, k=1,2,\cdots,r\),那么存在 LU 分解 \(A=LU=\begin{pmatrix} L_r&\boldsymbol{0}\\ C_3&L_4\end{pmatrix}\begin{pmatrix} U_r&U_rB\\ \boldsymbol{0}&\boldsymbol{0} \end{pmatrix}=\begin{pmatrix} L_r\\ C_3\end{pmatrix}\begin{pmatrix} U_r&U_rB\end{pmatrix}\)(不一定唯一)
- 设 \(A\in \mathbb{C}^{n\times n}\),那么 \(A\) 的 LU 分解存在且唯一 \(\iff\) 其前 \(n-1\) 阶顺序主子式 \(d_k\neq 0, k=1,2,\cdots,n-1\)
- 设 \(A\in \mathbb{C}^{n\times n}_n\),则存在行置换阵 \(P\in \mathbb{C}^{n\times n}_n\),使得 \(PA=LU\)
- 算法:Gauss 消去法(经初等行变换化 \(A\) 为行阶梯型矩阵),(选主元)直接递推法
- LDU* 分解:将上三角型矩阵 \(U\) 分解为对角矩阵 \(D\in \mathbb{C}^{n\times n}_r\) 和单位上三角型矩阵 \(U^*\in \mathbb{C}^{n\times m}_r\) 的乘积,即 \(A=LU=LDU^*\)
- 块 LDU 分解:
\[\begin{align*} \begin{pmatrix}A&B\\C&D\end{pmatrix}&=\begin{pmatrix}I&\boldsymbol{0}\\CA^{-1}&I\end{pmatrix}\begin{pmatrix}A&\boldsymbol{0}\\\boldsymbol{0}&D-CA^{-1}B\end{pmatrix}\begin{pmatrix}I&A^{-1}B\\\boldsymbol{0}&I\end{pmatrix} \end{align*} \] - L*U*(Crout)分解:记 \(L^*=LD\),有分解 \(A=LDU^*=L^*U^*\)
- Cholesky 分解(Hermite 三角分解):对于 \(A\in \mathcal{H}^n_{++}\),有唯一的 LDU* 分解 \(A=LDU^*\),由于 \(A^\mathrm{H}=(LDU^*)^\mathrm{H}=(U^*)^\mathrm{H}DL^\mathrm{H}=A=LDU^*\) ,有 \(U^*=L^\mathrm{H}\),进而有 \(A=LDL^\mathrm{H}=LD^{1/2}D^{1/2}L^\mathrm{H}:= TT^\mathrm{H}\),其中 \(T=LD^{1/2}\) 为下三角型矩阵
- 设 \(A\in \mathcal{H}^n_{++}\),如果规定下三角型矩阵的对角元素均取正,那么 Cholesky 分解存在且唯一
- 设 \(A\in \mathcal{H}^n_{+}\),如果允许下三角型矩阵的对角元素取零,那么 Cholesky 分解存在
- 算法:直接递推算法,顺序 Cholesky 分解算法(平方根分解算法)
- 应用:行列式计算,回代法解线性方程组
矩阵的酉三角分解
- QR 分解:对于 \(A\in \mathbb{C}^{n\times m}_r\),使用\(\textcolor{blue}{酉变换}\)将矩阵 \(A\) 分解为酉矩阵 \(Q\in \mathcal{U}_n\) 和上三角型矩阵 \(R\in \mathbb{C}^{n\times m}_r\) 的乘积,即 \(A=QR\)
- 设 \(A\in \mathbb{C}^{n\times m}_r\),则存在列置换阵 \(P\in \mathbb{C}^{n\times n}_n\) 使得 \(AP=QR=\begin{pmatrix} Q_r&Q_2\\ Q_3&Q_4\end{pmatrix}\begin{pmatrix} R_r&R_rB\\ \boldsymbol{0}&\boldsymbol{0}\end{pmatrix}==\begin{pmatrix} Q_r\\ Q_3\end{pmatrix}\begin{pmatrix}R_r&R_rB\end{pmatrix}\)
- 设 \(A\in \mathbb{C}^{n\times m}_m\)(\(m\leqslant n\)),则 \(A\) 可以分解为 \(A=QR\),其中 \(Q\in\mathbb{C}^{n\times m}\) 标准列正交(即 \(Q^\mathrm{H}Q=I_m\)),\(R\) 为 \(m\) 阶上三角型矩阵;如果规定 \(R\) 的对角元素取正,那么分解式唯一
- 算法:Householder 变换法,Givens 变换法,Gram-Schmidt 正交化方法,修正的 Gram-Schmidt 正交化算法(MGS 算法)
- 应用:行列式计算,回代法解线性方程
基于特征值(奇异值)的分解
- Schur 分解:对于 \(A\in \mathbb{C}^{n\times n}_r\),使用\(\textcolor{blue}{酉相似变换}\)将矩阵 \(A\) 分解为酉矩阵 \(U\in \mathcal{U}_n\)、Schur 标准型 \(R\in\mathbb{C}^{n\times n}_r\) 和 \(U^\mathrm{H}\) 的乘积,即 \(A=URU^\mathrm{H}\),其中 \(R\) 是以 \(A\) 的特征值为对角元的上三角型矩阵
- \(A\in \mathbb{C}^{n\times n}_r\) 可酉相似对角化(即 \(R\) 为对角矩阵)\(\iff A\) 为正规矩阵(\(AA^\mathrm{H}=A^\mathrm{H}A\))\(\iff\forall\boldsymbol{x}\in\mathbb{C}^n: \|A\boldsymbol{x}\|_2=\|A^\mathrm{H}\boldsymbol{x}\|_2\)
- 酉相似变换保持正规性,正规上三角矩阵必为对角矩阵
- \(R\) 为实对角矩阵 \(\iff A\) 为 Hermite 矩阵(\(A^\mathrm{H}=A\))\(\iff A\) 正规且 \(\boldsymbol{\lambda}(A)\subseteq \mathbb{R}\)
- \(R\) 为纯虚对角矩阵 \(\iff A\) 为反 Hermite 矩阵(\(A^\mathrm{H}=-A\))
- \(R\) 对角元模为 \(1\iff A\) 为酉矩阵(\(A^\mathrm{H}A=AA^\mathrm{H}=I_n\))\(\iff A\) 正规且 \(|\lambda(A)|=1\)
- Gerschgorin 圆盘第一定理:\(\displaystyle\forall \lambda\in\boldsymbol{\lambda}(A):\lambda\in\cup_i G_i\)
- \(\displaystyle G_i=\{z\in\mathbb{C}\mid | z-a_{ii}|\leqslant R_i=\sum_{j=1,j\neq i}^n |a_{ij}|\}\)
- Gerschgorin 圆盘第二定理:由 \(k\) 个盖尔圆构成的连通部分恰好包含 \(k\) 个特征值(记重数)
- \(A\in \mathbb{C}^{n\times n}_r\) 可酉相似对角化(即 \(R\) 为对角矩阵)\(\iff A\) 为正规矩阵(\(AA^\mathrm{H}=A^\mathrm{H}A\))\(\iff\forall\boldsymbol{x}\in\mathbb{C}^n: \|A\boldsymbol{x}\|_2=\|A^\mathrm{H}\boldsymbol{x}\|_2\)
- Jordan 分解:对于 \(A\in \mathbb{C}^{n\times n}_r\),使用\(\textcolor{blue}{相似变换}\)将矩阵 \(A\) 分解为非奇异矩阵 \(P\in \mathbb{C}^{n\times n}_n\)、Jordan 标准型 \(J\in\mathbb{C}^{n\times n}_r\) 和 \(P^{-1}\) 的乘积,即 \(A=PJP^{-1}\),其中 \(J=\operatorname{diag}\Big( J_{r_1}(\lambda_1), \cdots, J_{r_k}(\lambda_k)\Big)\),\(J_{s}(\lambda)=\begin{pmatrix}\lambda&1&&&\\&\lambda&1&&\\&&\ddots&\ddots&\\&&&\ddots&1\\&&&&\lambda\end{pmatrix}_{s\times s}\)
- \(A\) 可分解为两个对称阵的乘积:\(A=PJP^{-1}=PS_{1}S_{2}P^{-1}=(PS_{1}P^{\top})\Big((P^{-1})^{\top}S_{2}P^{-1}\Big)\),其中 \(J=S_1S_2,S_1^\top=S_1,S_2^\top=S_2\)
- \(J_{s}(\lambda)=\Big( J_{s}(\lambda)K_s \Big)K_s\),其中 \(K_s=K_s^\top=K_s^{-1}\) 为反序矩阵
- \(J_{s}(\lambda)^\top=K_sJ_{s}(\lambda)K_s^{-1}\)
- Jordan-Chevalley 分解存在且唯一:\(A=B+C\),其中 \(B\) 单纯,\(C\) 幂零,\(BC=CB\)
- \(B,C\) 均可表示为 \(A\) 的多项式
- \(A_1,\cdots,A_k\in\mathbb{R}^{n\times n}\) 两两可交换 \(\implies\operatorname{det}(\sum_{i=1}^kA_i^2)\geqslant 0\)
- 准素分解:设 \(\sigma\in\mathcal{L}(V),\operatorname{dim}V=n,\tau=\sigma-\lambda_i \operatorname{id}\),且特征多项式 \(f_\sigma(t)=(t-\lambda_1)^{n_1}\cdots(t-\lambda_s)^{n_s}\)(\(s\) 个相异特征值),那么 \(V=\mathcal{N}\Big(f_\sigma(\sigma)\Big)=\overset{s}{\underset{i=1}{\oplus}}\mathcal{N}\Big((\sigma-\lambda_i \operatorname{id})^{n_i}\Big)=\overset{s}{\underset{i=1}{\oplus}}\mathcal{N}(\tau_i^{n_i})\)
- \(\mathcal{L}(V)\):\(V\to V\) 的线性变换全体
- \(\tau\) 的不变子空间 \(E\):\(\forall \boldsymbol{x}\in E: \tau\boldsymbol{x}\in E\)
- \(\mathcal{R}(\sigma)=\{\sigma\boldsymbol{x}|\boldsymbol{x}\in V\}\)
- \(\mathcal{N}(\tau)=\{\boldsymbol{x}\in V|\tau\boldsymbol{x}=\boldsymbol{0}\}\)
- 广义特征子空间(根子空间):\(R_{\lambda_i}:=V_i^{m_i}\)
- 特征子空间:\(V_{\lambda_i}:=V_i^{1}\)
- \(V_i^k:=\mathcal{N}(\tau_i^k),d_{ik}:=\operatorname{dim}V_i^k\)
- \(\{\boldsymbol{0}\}=V_i^0\subsetneq V_i^1\subsetneq\cdots\subsetneq V_i^{m_i}=\cdots=V_i^{n_i}\)
- \(0=d_{i0}<d_{i1}<d_{i2}<\cdots<d_{im_i}=\cdots=d_{in_i}=n_i\)
- \(f_\sigma(t)=f_1(t)\cdots f_s(t)\) 且 \(f_1(t),\cdots, f_s(t)\) 两两互素\(\implies \operatorname{dim}\mathcal{N}(f_i(\sigma))=\operatorname{deg}f_i(t)\)
- 设 \(V=\overset{k}{\underset{i=1}{\oplus}}V_i, V_i\) 为 \(\sigma\) 的不变子空间,那么存在基使得 \(\sigma\) 在该基下表示矩阵为分块对角阵 \(\operatorname{diag}(A_1,\cdots,A_k)\),其中 \(A_i\) 为 \(\sigma|_{V_i}\) 的表示矩阵
- \(\mu_{i(k+1)}:=d_{i(k+1)}-d_{i(k)}=\operatorname{dim}\Big(\mathcal{R}(\tau_i^k)\cap V_{\lambda_i}\Big)\) 单调不增
- \(\displaystyle n_i=\sum_{k=1}^{m_i}\mu_{ik},\ \boldsymbol{d}\) 与 \(\boldsymbol{\mu}\) 相互唯一确定
- \((\mu_{i1},\cdots,\mu_{im_i})\) 的 Young 图(\(m_{i}\times\mu_{i1}\))中填入的 \(n_i\) 个向量线性无关,从而构成 \(R_{\lambda_i}\) 的一组基
- \(\mathcal{R}(\tau_i^{m_i-1})\cap V_{\lambda_i}\subset\cdots\subset\mathcal{R}(\tau_i^1)\cap V_{\lambda_i}\subset\mathcal{R}(\tau_i^0)\cap V_{\lambda_i}= V_{\lambda_i}\)
- 第 \(1\) 行填入一组由上述包含子空间的基逐步扩充而成的特征子空间 \(V_{\lambda_i}\) 的基:\((\tau_i^{m_i-1}\boldsymbol{\eta}_{i1},\cdots,\boldsymbol{\eta}_{i\mu_{i1}})\)
- 第 \(k\) 列填入 \(\boldsymbol{\eta}_{ik}\) 生成的关于 \(\lambda_i\) 的广义特征向量链,生成一个 \(\sigma\) 的不变子空间 \(W_{ik}\)
- \(W_{ik}=\operatorname{span}(\tau_i^{\operatorname{dim}W_{ik}-1}\boldsymbol{\eta}_{ik},\cdots,\boldsymbol{\eta}_{ik})\) 为关于 \(\tau_i\) 的循环子空间
- \(\sharp\{1\leqslant k\leqslant\mu_{i1}:\operatorname{dim}W_{ik}=r_{ij}\}=\mu_{ij}-\mu_{i(j+1)}\)
- 准素循环分解:\(V=\overset{s}{\underset{i=1}{\oplus}}R_{\lambda_i}=\overset{s}{\underset{i=1}{\oplus}}\left( \overset{\mu_{i1}}{\underset{k=1}{\oplus}}W_{ik} \right)\)
- \(\sigma|_{R_{\lambda_i}}\) 在 Young 图对应基下的表示矩阵为 \(\operatorname{diag}\Big(J_{m_i}(\lambda_i), \cdots, J_{\operatorname{dim}W_{i\mu_{i1}}}(\lambda_i)\Big)\)
- \(\mu_{i(k+1)}:=d_{i(k+1)}-d_{i(k)}=\operatorname{dim}\Big(\mathcal{R}(\tau_i^k)\cap V_{\lambda_i}\Big)\) 单调不增
- 设 \(\sigma\) 在一组基下对应矩阵为 \(A\),那么 \(d_{ik}=\operatorname{dim}\mathcal{N}\Big((A-\lambda_i I_n)^k\Big)\)
- \(f_\sigma(t)=|A-tI_n|=(t-\lambda_1)^{n_1}\cdots(t-\lambda_s)^{n_s}\)
- Hamilton-Caylay 定理:\(f_\sigma(A)=\boldsymbol{0}\)
- \(\lambda_i\) 的几何重数 \(g_{\lambda_i}:=d_{i1}=\mu_{i1}=\) Young 图列数 \(=\lambda_i\) 对应 Jordan 块的个数
- \(\lambda_i\) 的代数重数 \(a_{\lambda_i}:=n_i=\lambda_i\) 对应 Jordan 块的阶数和
- 极小多项式 \(m(t)=(t-\lambda_1)^{m_1}\cdots(t-\lambda_s)^{m_s}\)
- 以 \(A\) 为根的次数最小的非零首一多项式(唯一)
- \(m_i=\) Young 图行数 \(=\lambda_i\) 对应 Jordan 块的最大阶数
- \(g(A)=\boldsymbol{0}\implies g(\lambda_i)=0\)
- \(m(t)|g(t), \ m(t)|f_\sigma(t)\)
- 分块对角阵的极小多项式等于各对角块极小多项式的最小公倍式
- \(A\sim B\iff \lambda\) 矩阵 \(\lambda I_n-A\cong\lambda I_n-B\iff\) 行列式因子相同 \(\iff\) 不变因子相同 \(\iff\) 初等因子相同
- \(A(\lambda)\) 的相抵/Smith 标准型:\(\operatorname{diag}\Big(d_1(\lambda),\cdots,d_r(\lambda), 0,\cdots,0\Big)\),其中 \(d_i(\lambda)\) 非零首一且 \(d_i(\lambda)|d_{i+1}(\lambda)\)
- \(A(\lambda)\) 可逆 \(\iff\) 行列式为非零常数 \(\iff\) 可表示为有限个初等 \(\lambda\) 矩阵之积 \(\implies r=n\)
- \(\lambda I_n-A\) 的相抵标准型:\(\operatorname{diag}\Big(1,\cdots,1,d_1(\lambda),\cdots,d_m(\lambda)\Big)\),其中 \(d_i(\lambda)\) 非零首一且 \(d_i(\lambda)|d_{i+1}(\lambda)\)
- \(|\lambda I_n-A|=d_1(\lambda)\cdots d_m(\lambda)\)
- 极小多项式 \(m(\lambda)=d_m(\lambda)\)
- \(i\) 阶行列式因子 \(D_i(\lambda)\): \(A(\lambda)\) 的所有 \(i\) 阶子式的首一最大公因式
- \(D_i(\lambda)|D_{i+1}(\lambda)\)
- \(i\) 阶不变因子 \(g_i(\lambda):=D_i(\lambda)/D_{i-1}(\lambda),g_1(\lambda)=D_1(\lambda)\)
- 相抵标准型不变因子:\(d_1(\lambda),\cdots,d_r(\lambda)\)
- \(A\) 的有理标准型(Frobenius 标准型):\(F=\operatorname{diag}(F_1,\cdots,F_m)\)
- \(\lambda I_n-A\) 的不变因子:\(1,\cdots,1,d_1(\lambda),\cdots,d_m(\lambda)\)
- \(d_i(\lambda)=\lambda^{t_i}+a_{i1}\lambda^{t_i-1}+\cdots+a_{it_i}\) 对应 \(F_i=\begin{pmatrix}\boldsymbol{0}&I_{t_i-1} \\ -a_{it_i}&-\boldsymbol{a}\end{pmatrix},\boldsymbol{a}=(a_{i(t_i-1)},a_{i(t_i-2)},\cdots,a_{i1})\)
- \(F_i\) 的行列式因子和不变因子为 \(1,\cdots,1,d_i(\lambda)\)
- \(F_i\) 的极小多项式为 \(d_i(\lambda)\)
- \(A\) 在数域 \(\mathbb{F}\) 上的初等因子:对非常数不变因子在数域 \(\mathbb{F}\) 上进行不可约因式分解
- \(A\) 的 Jordan 标准型:\(J=\operatorname{diag}(J_1,\cdots,J_k)\)
- \(\mathbb{C}\) 上初等因子 \((\lambda-\lambda_1)^{r_1},\cdots,(\lambda-\lambda_k)^{r_k}\) 分别对应 Jordan 块 \(J_1,\cdots,J_k\)
- \(J_i\) 的初等因子为 \((\lambda-\lambda_i)^{r_i}\)
- \(A\) 的 Jordan 标准型:\(J=\operatorname{diag}(J_1,\cdots,J_k)\)
- 数域 \(\mathbb{F}\subset\mathbb{K}:A\overset{\mathbb{F}}\sim B\iff A\overset{\mathbb{K}}\sim B\)
- 矩阵相似关系在基域扩张下不变
- \(A(\lambda)\) 的相抵/Smith 标准型:\(\operatorname{diag}\Big(d_1(\lambda),\cdots,d_r(\lambda), 0,\cdots,0\Big)\),其中 \(d_i(\lambda)\) 非零首一且 \(d_i(\lambda)|d_{i+1}(\lambda)\)
- \(A\in \mathbb{C}^{n\times n}_r\) 可相似对角化(单纯矩阵)\(\iff \mathbb{C}^n=\overset{k}{\underset{i=1}{\oplus}}V_{\lambda_i}\iff A\) 有 \(n\) 个线性无关的特征向量 \(\iff g_{\lambda_i}=a_{\lambda_i}\iff\) 极小多项式无重根 \(\iff\) 初等因子次数均为 \(1\)
- 应用:矩阵函数定义及计算,如计算矩阵高次幂(秩一吸收,Jordan-Chevalley 分解二项展开)
- \(A\) 可分解为两个对称阵的乘积:\(A=PJP^{-1}=PS_{1}S_{2}P^{-1}=(PS_{1}P^{\top})\Big((P^{-1})^{\top}S_{2}P^{-1}\Big)\),其中 \(J=S_1S_2,S_1^\top=S_1,S_2^\top=S_2\)
- 特征值分解:对于可相似对角化矩阵 \(A\in \mathbb{C}^{n\times n}_r\),使用\(\textcolor{blue}{相似变换}\)将矩阵 \(A\) 分解为非奇异矩阵 \(P\in \mathbb{C}^{n\times n}_n\)、对角矩阵 \(\boldsymbol{\Lambda} \in\mathbb{C}^{n\times n}_r\) 和 \(P^{-1}\) 的乘积,即 \(A=P\boldsymbol{\Lambda} P^{-1}\),其中 \(P=( \boldsymbol{u}_1,\cdots, \boldsymbol{u}_n)\),\(\boldsymbol{u}_i\) 为特征值 \(\lambda_i\) 对应的特征向量
- 设正规矩阵 \(A\in \mathbb{C}^{n\times n}_r\) 有 \(s\) 个相异特征值,那么谱分解 \(\displaystyle A=\sum_{i=1}^s \lambda_i E_i\) 存在且唯一,其中谱族 \(E_1,\cdots,E_s\) 满足 \(\sum_{i=1}^s E_i=I_n,E_iE_j=\delta_{ij}E_i\)
- \(E_i=P_{V_{\lambda_i}}\)
- \(AE_i=E_iA=\lambda_i E_i\)
- 对于正规矩阵的酉相似特征值分解 \(A=U\boldsymbol{\Lambda} U^\mathrm{H}\),如果规定 \(\boldsymbol{\Lambda}\) 中特征值按顺序排列,那么分解式的不唯一性来自于各特征值对应的特征向量取法,对于 \(n_i\) 重特征值 \(\lambda_i\),其特征向量集 \(\mathcal{U}_i\) 可取为 \((\boldsymbol{u}^i_{1},\cdots,\boldsymbol{u}^i_{n_{i}})Q_{n_i}\),其中 \(Q_{n_i}\in \mathcal{U}_{n_i}\)
- \(A\in \mathbb{R}^{n\times n}_r\) 可正交相似对角化\(\iff A\) 为实对称矩阵
- 可相似对角化的同阶方阵 \(A, B\) 可同时相似对角化\(\iff AB=BA\)
- 实对称矩阵 \(A, B\) 可同时正交相似对角化\(\iff AB=BA\)
- 算法:Jacobi 算法,循环 Jacobi 算法,变限值循环 Jacobi 算法(过关 Jacobi 算法),QR 算法
- 设正规矩阵 \(A\in \mathbb{C}^{n\times n}_r\) 有 \(s\) 个相异特征值,那么谱分解 \(\displaystyle A=\sum_{i=1}^s \lambda_i E_i\) 存在且唯一,其中谱族 \(E_1,\cdots,E_s\) 满足 \(\sum_{i=1}^s E_i=I_n,E_iE_j=\delta_{ij}E_i\)
- 奇异值分解:对于 \(A\in \mathbb{C}^{n\times m}_r\),使用\(\textcolor{blue}{酉变换}\)将矩阵 \(A\) 分解为酉矩阵 \(U\in \mathcal{U}_n\)、对角矩阵 \(\Sigma \in\mathbb{C}^{n\times n}_r\) 和酉矩阵 \(V\in \mathcal{U}_n\) 的乘积,即 \(\displaystyle A=U\Sigma V^\mathrm{H}=\sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^\mathrm{H}\),其中 \(\boldsymbol{u}_i, \boldsymbol{v}_i\) 为奇异值 \(\sigma_i:=\sqrt{\lambda_i(AA^\mathrm{H})}=\sqrt{\lambda_i(A^\mathrm{H}A)}\) 对应的左、右奇异向量(矩阵 \(AA^\mathrm{H}, A^\mathrm{H}A\) 的特征向量)
- 如果规定 \(\Sigma\) 中奇异值按顺序排列,那么分解式的不唯一性来自于各奇异值对应的左右奇异向量取法,即 \(\displaystyle A=\sum_{i=1}^s \sigma_i U_i Q_{n_i} (V_i Q_{n_i})^\mathrm{H}\),其中 \(s\) 为相异奇异值的个数,\(Q_{n_i}\in \mathcal{U}_{n_i}\)
- 设 \(A^HA=P=\begin{pmatrix}U_1, U_2\end{pmatrix}\begin{pmatrix}\Sigma_r&\boldsymbol{0}\\\boldsymbol{0}&\boldsymbol{0}_{n-r}\end{pmatrix} \begin{pmatrix}U_1^H\\U_2^H\end{pmatrix} \in \mathcal{H}^{n}_{+}\),其中 \(A\in \mathbb{C}^{p\times n}\),那么存在标准列正交矩阵 \(Q\in \mathbb{C}^{p\times r}\)(\(Q^HQ=I_r\))使得 \(A=Q\Sigma_r^{1/2} U_1^H\);特别地,\(A^HA=B^HB\iff B_{q\times n}=Q_{q\times p}A_{p\times n}\)
- 证明:令 \(D=\operatorname{diag}\left(\Sigma_r^{1/2}, I_{n-r}\right), X=AUD^{-1}:= \left(Q, Z\right)\),则 \(X^HX=D^{-1}U^HA^HAUD^{-1}=D^{-1}U^HU\Sigma U^HUD^{-1}=\operatorname{diag}\left(I_r, \boldsymbol{0}_{n-r}\right)\),对应地,有 \(Q^HQ=I_r, Z^HZ=\boldsymbol{0}_{n-r}\),进而有 \(A=XDU^H=\left(Q, \boldsymbol{0}\right)\begin{pmatrix}\Sigma_r^{1/2}&\boldsymbol{0}\\\boldsymbol{0}&I_{n-r}\end{pmatrix}\begin{pmatrix}U_1^H\\U_2^H\end{pmatrix}=Q\Sigma_r^{1/2} U_1^H\)
- 极分解:设 \(A\in \mathbb{C}^{n\times n}_r\),则存在 \(S\in\mathcal{U}_n\) 和唯一的半正定矩阵 \(P=\sqrt{AA^\mathrm{H}}\in\mathcal{H}^{n}_{+}\) 使得 \(A=PS\)
- \(r=n\iff S\) 唯一
- \(A=U\Sigma V^\mathrm{H}=\left( U\Sigma U^{\mathrm{H}} \right)\left( UV^\mathrm{H} \right)\)
- \(z=a+b\mathrm{i}=re^{\mathrm{i}\theta}=\sqrt{a^2+b^2}\left( \cos\theta+\mathrm{i}\sin\theta \right)\in\mathbb{C}\)
- 推广:\(A\in \mathbb{C}^{n\times m}_r\)
- \(n<m:A=PS,P=\sqrt{AA^\mathrm{H}}\in\mathcal{H}^{n}_{+},S\) 标准行正交
- \(n>m:A=SP,P=\sqrt{A^\mathrm{H}A}\in\mathcal{H}^{m}_{+},S\) 标准列正交
- 算法:特征值分解法,经 Householder 变换化 \(A\) 为双对角型后进行奇异值分解
- 应用:计算广义逆(解线性方程组),主成分分析
矩阵求导
- 符号约定:\(\frac{\partial \boxdot}{\partial \boxdot}\) 表示 \(\boxdot\) 相对于另一 \(\boxdot\) 逐分量求偏导后填充在原分量对应位置
- 各函数分量对各变元分量偏导数的不同组织方式(\(\boldsymbol{f}(\boldsymbol{x}):\mathbb{R}^n\to\mathbb{R}^m\))
- 梯度矩阵:\(\nabla_{\boldsymbol{x}}\boldsymbol{f}:=\frac{\partial \boldsymbol{f}^\top}{\partial \boldsymbol{x}}=[\frac{\partial f_1}{\partial\boldsymbol{x}},\cdots, \frac{\partial f_m}{\partial\boldsymbol{x}}]\in\mathbb{R}^{n\times m}\)
- 分母布局:标量函数梯度形状与分母形状保持一致
- 内左外右:链式法则从内到外依次相乘
- \(\frac{\partial\left( \boldsymbol{f}\circ \boldsymbol{g} \right)^\top}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{g}^\top}{\partial \boldsymbol{x}}\frac{\partial\left( \boldsymbol{f}\circ \boldsymbol{g} \right)^\top}{\partial \boldsymbol{g}}\)
- Jacobian 矩阵:\(D_{\boldsymbol{x}}\boldsymbol{f}:=\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}^\top}=[\frac{\partial \boldsymbol{f}}{\partial x_1},\cdots, \frac{\partial \boldsymbol{f}}{\partial x_n}]\in\mathbb{R}^{m\times n}\)
- 梯度矩阵:\(\nabla_{\boldsymbol{x}}\boldsymbol{f}:=\frac{\partial \boldsymbol{f}^\top}{\partial \boldsymbol{x}}=[\frac{\partial f_1}{\partial\boldsymbol{x}},\cdots, \frac{\partial f_m}{\partial\boldsymbol{x}}]\in\mathbb{R}^{n\times m}\)
- 所有变量均转化为列向量处理
- 标量 \(x\in\mathbb{R}:n=1\)
- 矩阵 \(X\in\mathbb{R}^{m\times n}:\operatorname{vec}X\)
- \(\textcolor{blue}{\nabla_{X}F(X):=\frac{\partial\operatorname{vec}^\top F(X)}{\partial\operatorname{vec}X}}=\left( \frac{\partial\operatorname{vec} F(X)}{\partial\operatorname{vec}^\top X} \right)^\top=\left( D_{X}F(X) \right)^\top\)
- 常规方法:逐分量求偏导法
- 微分法
- 辨识规则
- 矩阵函数 \(F(X):\mathbb{R}^{m\times n}\to\mathbb{R}^{p\times q}\)
- \(\textcolor{blue}{\mathrm{d}\left( \operatorname{vec}F(X) \right)= A\mathrm{d}\left( \operatorname{vec}X \right)+B\mathrm{d}\left( \operatorname{vec}X^\top \right)\iff\nabla_{X}F(X)=A^\top+K_{nm}B^\top}\)
- \(\mathrm{d}\left( F(X) \right)= A\left( \mathrm{d}X \right)B+C\left( \mathrm{d}X^\top \right)D\iff\nabla_{X}F(X)=\left( B\otimes A^\top \right)+K_{nm}\left( D\otimes C^\top \right)\)
- 标量函数 \(f(X)\in\mathbb{R}\)
- \(\mathrm{d}\left( f(X) \right)= \operatorname{vec}(A^\top)^\top\mathrm{d}\left( \operatorname{vec}X \right)=\operatorname{tr}(A\mathrm{d}X)\iff\textcolor{red}{\nabla_{X}f(X)=A^\top}\)
- Hessian 矩阵:\(\textcolor{blue}{H[f(X)]:=\frac{\partial^2 f(X)}{\partial\operatorname{vec}X\partial\left( \operatorname{vec}X \right)^\top}}=\nabla_{X}\left( D_{X}f(X) \right)\) 对称
- \(\textcolor{blue}{\mathrm{d}^2f(X)=\mathrm{d}(\operatorname{vec}X)^\top B\mathrm{d}(\operatorname{vec}X)\iff H[f(X)]=\left( B^\top+B \right)/2}\)
- \(\mathrm{d}^2f(X)=\operatorname{tr}(V\left( \mathrm{d}X \right)U\left( \mathrm{d}X \right)^\top)\iff H[f(X)]=\left( U^\top\otimes V+U\otimes V^\top \right)/2\)
- \(\mathrm{d}^2f(X)=\operatorname{tr}(B\left( \mathrm{d}X \right)C\left( \mathrm{d}X \right))\iff H[f(X)]=K_{nm}\left( C^\top\otimes B+B^\top\otimes C \right)/2\)
- 矩阵函数 \(F(X):\mathbb{R}^{m\times n}\to\mathbb{R}^{p\times q}\)
- 微分性质
- \(\mathrm{d}A=\boldsymbol{0}, \mathrm{d}\left( \alpha A \right)=\alpha \mathrm{d}\left( A \right), \mathrm{d}\left( X^\top \right)=\left( \mathrm{d}X \right)^\top\)
- \(\mathrm{d}\left( U(X)\plusmn V(X) \right)=\mathrm{d}U(X)\plusmn \mathrm{d}V(X)\)
- \(\mathrm{d}\left( U(X)\star V(X) \right)=\mathrm{d}U(X) \star V(X)+U(X)\star \mathrm{d}V(X)\)
- \(\star\) 可取乘积、Hadamard 积、KKronecker 积
- \(\mathrm{d}\left( \operatorname{tr}(F(X) \right)=\operatorname{tr}(\mathrm{d}F(X))\)
- \(\mathrm{d}|F(X)|=|F(X)|\operatorname{tr}(F(X)^{-1}\mathrm{d}\left( F(X) \right))\)
- \(\mathrm{d}\left( \operatorname{vec}(F(X) \right)=\operatorname{vec}(\mathrm{d}F(X))\)
- \(\mathrm{d}\left( X^{-1} \right)=-X^{-1}(\mathrm{d}X)X^{-1}\)
- \(\mathrm{d}\left( X^\dag \right)=-X^\dag(\mathrm{d}X)X^\dag+X^\dag(X^\dag)^\top\left( \mathrm{d}X^\top \right)(I_m-XX^\dag)+(I_n-X^\dag X)\left( \mathrm{d}X^\top \right)(X^\dag)^\top X^\dag\)
- \(\mathrm{d}\left( X^\dag X \right)=X^\dag\left( \mathrm{d}X \right)\left( I_n-X^\dag X \right)+\left( X^\dag\left( \mathrm{d}X \right)\left( I_n-X^\dag X \right) \right)^\top\)
- \(\mathrm{d}\left( XX^\dag \right)=\left( I_m-XX^\dag \right)\left( \mathrm{d}X \right)X^\dag+\left( \left( I_m-XX^\dag \right)\left( \mathrm{d}X \right)X^\dag \right)^\top\)
- 利用恒等式求微分
- 设 \(X\in\mathcal{S}^n_{++},S=X^{1/2}\),则 \(S^2=X\)。微分得 \(S\,\mathrm{d}S+\mathrm{d}S\,S=\mathrm{d}X\);左乘 \(S^{-1}\):\(\mathrm{d}S+S^{-1}\mathrm{d}S\,S=S^{-1}\mathrm{d}X\);取迹:\(\operatorname{tr}(\mathrm{d}S)+\operatorname{tr}(S^{-1}\mathrm{d}S\,S)=\operatorname{tr}(S^{-1}\mathrm{d}X)\);由循环性 \(\operatorname{tr}(S^{-1}\mathrm{d}S\,S)=\operatorname{tr}(\mathrm{d}S)\),得 \(2\operatorname{tr}(\mathrm{d}S)=\operatorname{tr}(S^{-1}\mathrm{d}X)\);故 \(\mathrm{d}\!\left(\operatorname{tr}(X^{1/2})\right)=\frac12\operatorname{tr}(X^{-1/2}\mathrm{d}X)\)
- 辨识规则

浙公网安备 33010602011771号