矩阵不等式-Fan's and Von Neumann不等式

Preface

​ 之所以会写这篇博客,第一是因为在读Amir Beck的《First Order Methods in Optimization》时,第七章谱函数中为了引入Ky-Fan k-norms需要用到Fan’s inequality与von Neumann's trace inequality,而教材中只是引了论文,因此花了一点时间来看[1],在读的时候,发现恰好与之前高中学过的排序不等式以及线性代数中的一些结果(Lemma3)联立了起来,所以想着把一些中间结果先推导,完善一些细节(可能是显然的),那么定理的证明就显而易见了;第二是补完PCA主成分分析背后的数学原理(一般情形)中的Lemma1的证明。

记号说明

  1. 若 $ y_1, \dots , y_n $ 是 $ n $ 个给定的实数,则 $ \bar{y}_1, \dots ,\bar{y}_n $ 表示前面 \(n\) 个数按照从大到小的顺序进行排列得到的序列,即为

    \[\bar{y}_1 \geq \bar{y}_2 \geq \dots \bar{y}_n . \]

  2. $ (z_1,z_2,\dots,z_n) \prec (y_1,y_2,\dots,y_n) $ 表示这两个序列 $z_1,z_2,\dots,z_n $ , $ y_1,y_2,\dots,y_n $满足以下关系:

\[ \bar{z}_1 + \bar{z}_2 + \dots + \bar{z}_n \begin{cases} \leq \bar{y}_1 + \cdots + \bar{y}_k & (1 \leq k < n) \\ = \bar{y}_1 + \cdots + \bar{y}_k & (k = n) \end{cases}.\]

一些引理

\(\quad\) 为了证明下面的两个不等式,我们需要引入下面两个引理:引理1是一个与排序不等式相关的不等式,对于定理1的证明起到了至关重要的作用;引理2与引理3是线性代数的结果,引理2其给出了Hermitian矩阵 \(M\) 主对角线元素\({m_{ii}}\)与其特征值\(\lambda_i\)之间的关系;而引理3给出了由一个复矩阵生成的Hermitian矩阵的特征值的结构:恰好就是原来构成矩阵的奇异值矩阵构成的分块矩阵。


(Lemma1)[1] 假设 \(x_1 \geq x_2 \geq \dots x_n\) , \(y_1 \geq y_2 \geq \dots y_n\),以及$ (z_1,z_2,\dots,z_n) \prec (y_1,y_2,\dots,y_n) $ ,那么下面不等式成立:

\[\sum_{r=1}^{n} x_r y_{n-r+1} \leq \sum_{r=1}^{n} x_r z_{r} \leq \sum_{r=1}^{n} x_r y_{r}. \]


证明: 为了证明上面不等式关系,我们引入以下记号:
对于任意的 $1 \leq r\leq n $ , \(Y_r = y_1 + y_2+ \dots + y_r\),
\(Y^{'}_r = y_{n-r+1} + y_{n-r+2}+ \dots + y_n\), \(Z_r = \bar{z}_1 + \bar{z}_2+ \dots + \bar{z}_r\), \(Z^{'}_r = \bar{z}_{n-r+1} + \bar{z}_{n-r+2}+ \dots + \bar{z}_n\) .然后,由Lemma1的假设,我们很明显地可以看到 \(Z_r \leq Y_r\),\(Z^{'}_r \geq Y^{'}_r\). 然后,利用
排序不等式(乱序和<= 顺序和),得到

\[\begin{aligned} \sum_{r=1}^n x_r z_r &\leq \sum_{r=1}^n x_r \bar{z}_r = x_1 Z_1 + \sum_{r=2}^n x_r (Z_r - Z_{r-1}) \\ &= \sum_{r=1}^{n-1} (x_r - x_{r+1}) Z_r + x_n Z_n \leq \sum_{r=1}^{n-1} (x_r - x_{r+1}) Y_r + x_n Y_n \\ &= \sum_{r=1}^n x_r y_r, \end{aligned} \]

其中上面第一个不等式用到了排序不等式,$ \sum \limits_{r=1}^n x_r z_r$ ,\(\sum\limits_{r=1}^n x_r \bar{z}_r\)分别表示序列 \((x_1,x_2,\dots,x_n),(z_1,z_2,\dots,z_n)\) 的乱序和、顺序和,其余不等式利用刚开始提出的关系 $Z_r \leq Y_r $ 即可得出。
\(\quad\) 为了证明另一半,再次利用排序不等式(乱序和>=倒序和),得到

\[\begin{aligned} \sum_{r=1}^n x_r z_r &\geq \sum_{r=1}^n x_r \bar{z}_{n-r+1} = x_1 Z_1' + \sum_{r=2}^n x_r (Z_r' - Z_{r-1}') \\ &= \sum_{r=1}^{n-1} (x_r - x_{r+1}) Z_r' + x_n Z_n' \geq \sum_{r=1}^{n-1} (x_r - x_{r+1}) Y_r' + x_n Y_n' \\ &= \sum_{r=1}^n x_r y_{n-r+1}. \end{aligned} \]

其中上面第一个不等式用到了排序不等式,$ \sum \limits_{r=1}^n x_r z_r$ ,\(\sum \limits_{r=1}^n x_r \bar{z}_{n-r+1}\)分别表示序列 \((x_1,x_2,\dots,x_n),(z_1,z_2,\dots,z_n)\) 的乱序和、倒序和,其余不等式利用刚开始提出的关系 $Z^{'}_r \geq Y^{'}_r $ 即可得出。


(Lemma2)[2,Thm1] 假设 $H \in \mathbb{C}^{n\times n} $,且 \(H\) 是一个Hermitian矩阵,其特征值为 \(\lambda_1,\lambda_2,\dots,\lambda_n\),且满足关系: $ \lambda_1\geq\lambda_2\geq\dots\geq\lambda_n$. 那么对于任何一个正整数 \(q \leq n\), \(\sum\limits_{i=1}^{q}\lambda_i\) 是 $ \sum\limits_{j=1}^q(Hx_j,x_j)$ 的最大值,其中 \(j\)为 空间中 \(q\) 个互异标准正交的向量 \(x_j\)($1 \leq j \leq q $).


证明: 不妨令 \(\phi_i (1 \leq i \leq n)\)是矩阵 \(H\)\(n\) 个对应于特征值 \(\lambda_i\) 的互不相同的标准特征向量,即满足: \(H\phi_i = \lambda_i\phi_i\). 由于\(H\)是Hermitian矩阵,那么\(\phi_i(1 \leq i \leq n)\)是互相正交的,那么 \(\{\phi_1,\phi_2,\dots,\phi_n \}\)\(\mathbb{C}^{n}\)空间的一组标准正交基。于是,对于\(\mathbb{C}^{n}\)中的另一组互异的标准正交向量\(\{ x_1,x_2,\dots,x_q\}\), 固定 \(1\leq j \leq q\), 那么 \(x_j = \sum\limits_{i = 1}^n(\phi_i,x_j)\phi_i\). 又由 \(\Vert x_j \Vert_2 = 1\),那么有 \(\sum\limits_{i = 1}^n|(\phi_i,x_j)|^2 = 1\).再由\(\{\phi_i\}\)之间的正交性,得

\[\begin{aligned} (Hx_j,x_j) &= (\sum\limits_{i = 1}^n(\phi_i,x_j)H\phi_i,\sum\limits_{i = 1}^n(\phi_i,x_j)\phi_i) \\ &=\sum\limits_{i = 1}^n|(\phi_i,x_j)|^2\lambda_i \\ &=\lambda_q\sum\limits_{i = 1}^n|(\phi_i,x_j)|^2 +\sum\limits_{i = 1}^n|(\phi_i,x_j)|^2(\lambda_i - \lambda_q) \\ &=\lambda_q + \sum\limits_{i = 1}^{q}|(\phi_i,x_j)|^2(\lambda_i - \lambda_q)+\sum\limits_{i = q+1}^{n}|(\phi_i,x_j)|^2(\lambda_i - \lambda_q)\\ &\leq \lambda_q + \sum\limits_{i = 1}^{q}|(\phi_i,x_j)|^2(\lambda_i - \lambda_q). \end{aligned} \]

第四个等号是因为 \(\Vert x_j \Vert_2 = \sum\limits_{i = 1}^n|(\phi_i,x_j)|^2 = 1\) ;最后一个不等式是因为一开始假定了 \(\lambda_1\geq\lambda_2\geq\dots\geq\lambda_n\),于是当 \(q+1 \leq i \leq q\)时, \(\lambda_i \leq \lambda_q\),从而 \(\sum\limits_{i = q+1}^{n}|(\phi_i,x_j)|^2(\lambda_i - \lambda_q) \leq 0\).
接着再对上面不等式关于\(j\)求和,即如下所示:

\[\begin{aligned} \sum_{j=1}^q(Hx_j,x_j)&\leq \sum_{j=1}^q\lambda_q + \sum_{j=1}^q\sum_{i=1}^q (\lambda_i - \lambda_q)|(x_j,\phi_i)|^2 \\ &= \sum_{i=1}^q\lambda_q + \sum_{j=1}^q\sum_{i=1}^q (\lambda_i - \lambda_q)|(x_j,\phi_i)|^2 \\ &= \sum_{i=1}^q\lambda_i +\sum_{i=1}^q (\lambda_q-\lambda_i) + \sum_{j=1}^q\sum_{i=1}^q (\lambda_i - \lambda_q)|(x_j,\phi_i)|^2 \\ &= \sum_{i=1}^q\lambda_i + \sum_{i=1}^q (\lambda_i - \lambda_q)[\sum_{i=1}^q |(x_j,\phi_i)|^2-1] .\\ \end{aligned} \]

接着再移项,得:

\[\sum\limits_{i=1}^q\lambda_i - \sum\limits_{j=1}^q(Hx_j,x_j) \geq \sum_{i=1}^q (\lambda_i - \lambda_q)[1-\sum_{i=1}^q |(x_j,\phi_i)|^2] \geq 0, \]

这是因为 \(\Vert x_j \Vert_2 = \sum\limits_{i = 1}^n|(\phi_i,x_j)|^2 = 1\),故而 \(1-\sum_{i=1}^q |(x_j,\phi_i)|^2 \geq 0\). 因此,\(\sum\limits_{i=1}^q\lambda_i \geq \sum\limits_{j=1}^q(Hx_j,x_j)\),对任意 \(x_j\) 都成立,而取等号只需要令 \(x_j = \phi_j\) 即可。


(Lemma3)[2] 假设 $ A \in \mathbb{C}^{n\times n}$,其存在一个SVD分解 \(A = U \Sigma V^*\)​,那么下面Hermitian矩阵

\[\begin{pmatrix} O & A \\ A^* & O \end{pmatrix} \]

存在一个特征根分解,且其特征值全体恰好为 $ \Sigma ,-\Sigma$.


证明: 由于 \(A = U \Sigma V^*\),且 \(U,V\) 是酉矩阵,那么有以下关系成立:

\[\begin{cases} AV = U \Sigma, \\ A^*U = V\Sigma. \end{cases} \]

因此,\(\begin{pmatrix}O & A \\A^* & O\end{pmatrix}\) \(\begin{pmatrix}U\\V\end{pmatrix}\)=\(\begin{pmatrix} U\Sigma \\ V\Sigma\end{pmatrix}\) ,\(\begin{pmatrix}O & A \\A^* & O\end{pmatrix}\) \(\begin{pmatrix}U\\-V\end{pmatrix}\)=\(\begin{pmatrix} -U\Sigma \\ V\Sigma\end{pmatrix}\).

那么将上面矩阵方程进行结合,得到 \(\begin{pmatrix}O & A \\A^* & O\end{pmatrix}\) \(\begin{pmatrix}U& U\\V & -V\end{pmatrix}\) = \(\begin{pmatrix} U\Sigma & -U\Sigma \\ V\Sigma & V\Sigma\end{pmatrix}\) = \(\begin{pmatrix}U& U\\V & -V\end{pmatrix}\) \(\begin{pmatrix}\Sigma& 0 \\ 0 & -\Sigma \end{pmatrix}\).

又由\(U,V\)是酉矩阵,那么 \(\begin{pmatrix}U& U\\V & -V\end{pmatrix}^*\) \(\begin{pmatrix}U& U\\V & -V\end{pmatrix}\)=\(2\begin{pmatrix}I& 0 \\ 0 & I \end{pmatrix}\),从而\(\begin{pmatrix}U& U\\V & -V\end{pmatrix}\)​ 是可逆的,故而

\[\begin{pmatrix}O & A \\A^* & O\end{pmatrix} =\begin{pmatrix}U& U\\V & -V\end{pmatrix}\begin{pmatrix}\Sigma& 0 \\ 0 & -\Sigma \end{pmatrix}\begin{pmatrix}U& U\\V & -V\end{pmatrix}^{-1}. \]

因此,\(\begin{pmatrix} O & A \\ A^* & O \end{pmatrix}\)的特征根恰好为$ \Sigma ,-\Sigma$.

主要结论

Fan's inequality及其证明


Theorem1 (Fan's inequality)[1] 如果$ K,L\in \mathbb{C}^{n\times n} $,且它们都是Hermitian的,并且其各自的特征值按照从大到小的顺序排列为

\[x_1 \geq x_2 \geq \dots \geq x_n;\lambda_1 \geq \lambda_2 \dots \lambda_n, \]

那么,

\[\sum\limits_{r=1}^n x_r \lambda_{n-r+1} \leq tr(KL) \leq \sum\limits_{r=1}^n x_r\lambda_r. \]


注: 从上面定理结果可以看到,两个Hermitian矩阵的乘积的迹满足与排序不等式类似的结果,即各种的特征值的顺序和大等于迹大等于逆序和。

证明: 由于 \(K\) 是一个Hermitian矩阵,那么存在一个酉矩阵 \(U\),使得 $ U^*KU = diag(x_1,x_2,\dots,x_n)$. 对 $ L $也同样用 \(U\)进行作用,并记 \(U^*LU = M = (m_{kj})\).那么,\(tr(KL) = tr(U^*KU U^*LU) = \sum\limits_{r=1}^n x_rm_{rr}\) .利用Lemma2,取互异的标准正交向量为单位向量,即可知道矩阵 \(M\) 的主对角元与\(L\)的特征值有以下关系:

\[(m_{11},m_{22},\dots,m_{nn}) \prec (\lambda_1 , \lambda_2 ,\dots \lambda_n). \]

再结合序列$ (x_1,x_2,\dots,x_n)$与Lemma1,即可得到该定理。

von Neumann's trace inequality及其证明


Theorem2(von Neumann's trace inequality)[1] 如果 $A,B \in \mathbb{C}^{n\times n} $,且各自奇异值满足以下关系:

\[\rho_1 \geq \rho_2 \geq \dots \geq \rho_n;\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_n, \]

那么

\[\mathop{max}\limits_{U,V} |tr(UAVB)| = \sum_{r=1}^n \rho_r\sigma_r, \]

其中最大值是对所有的酉矩阵 \(U,V\)取的。


证明:构造矩阵 \(A_1 = \begin{pmatrix} O & A \\ A^* & O \end{pmatrix}\),\(B_1 = \begin{pmatrix} O & B^* \\ B & O \end{pmatrix}\).那么,\(A_1B_1 = \begin{pmatrix} AB & O \\ O & A^*B^* \end{pmatrix}\).因此,对 \(A_1B_1\) 取迹,得 \(tr(A_1B_1) = 2Re\,tr(AB)\).再由Lemma3可知,矩阵 \(A_1\),\(B_1\) 的特征值满足以下关系:

\[\rho_1 \geq \rho_2 \geq \dots \geq \rho_n\geq-\rho_n \geq \dots \geq -\rho_1 \]

以及

\[\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_n \geq-\sigma_n \geq \dots \geq -\sigma_1. \]

因此,由Theorem1可知,\(tr(A_1B_1)\leq 2\sum\limits_{r=1}^n\rho_r\sigma_r\).结合 \(tr(A_1B_1) = 2Re\,tr(AB)\),知 \(Re\,tr(AB)\leq \sum\limits_{r=1}^n\rho_r\sigma_r\).再取 \(\theta\) 为任意满足 \(|\theta| = 1\)的复数,由于 \(\theta A\)的奇异值不发生变化,那么 \(Re\,\theta\,tr(AB)=Re\,tr(\theta AB)\leq \sum\limits_{r=1}^n\rho_r\sigma_r\),由于复数的表示可知,\(tr(AB) = |tr(AB)|e^{i\theta_1}\),那么当取 \(\theta = -e^{\theta_1}\)时,\(Re\,\theta\,tr(AB)\) 取得最大值 \(|tr(AB)|\),而不等式仍然成立,故

\[|tr(AB)|\leq \sum\limits_{r=1}^n\rho_r\sigma_r. \]

接下来,令\(U,V\)是任意的酉矩阵,由于酉矩阵乘以矩阵不改变其奇异值,所以\(UA\)\(VB\) 的奇异值与 \(U\),\(V\)一致,因此,

\[|tr(UAVB)| \leq \sum\limits_{r=1}^n\rho_r\sigma_r.\dots\dots\dots(*) \]

最后,由于\(A,B\) 可以进行奇异值分解,那么存在酉矩阵 $ U_1,U_2,V_1,V_2 $,使得

\[U_1AU_2 = diag(\rho_1,\rho_2,\dots,\rho_n),V_1BV_2 = diag(\sigma_1,\sigma_2,\dots,\sigma_n). \]

因此,\(tr(V_2U_1AU_2V_1B) = tr(U_1AU_2V_1BV_2)= \sum\limits_{r=1}^n\rho_r\sigma_r\). 又酉矩阵与酉矩阵相乘仍然是酉矩阵,则令\(U'= V_2U_1\),\(V'=U_2V_1\),使得(*)式取得等号。

参考文献

[1] Mirsky L. On the trace of matrix products[J]. Mathematische Nachrichten, 1959, 20(3‐6): 171-174.

[2] Fan K. On a theorem of Weyl concerning eigenvalues of linear transformations I[J]. Proceedings of the National Academy of Sciences, 1949, 35(11): 652-655.

[3] Trefethen L N, Bau D. Numerical linear algebra[M]. Society for Industrial and Applied Mathematics, 2022.

posted @ 2025-03-21 11:43  Amuse123  阅读(556)  评论(0)    收藏  举报