Cayley transform

[1] Gallier J. Remarks on the Cayley Representation of Orthogonal Matrices and on Perturbing the Diagonal of a Matrix to Make it Invertible. 2014.

[2] Mondal S., Sivakumar K.C. and Tsatsomeros M. The Cayley transform of prevalent matrix classes. 2023.

[3] Wikipedia-Cayley-transform.

定义

注: 这里只介绍一些简单的实数域上的概念, 复数域的结果是一样的, 只是转置 \(T\) 需要变成 \(H\).

  • \(|\cdot|\), 行列式

  • Cayley transform: 对于 n 维方阵 \(A \in \mathbf{M}_n(\mathbb{R})\), 假设其满足 \((I + A)\) 是可逆的, 则它的 Cayley transform 定义为:

    \[\mathcal{C}(A) = (I + A)^{-1} (I - A). \]

注: 有些定义中 (如 [1]) \((I + A)^{-1}\)\((I - A)\) 的顺序交换了次序, 都是可以的.

性质

  • \(I + \mathcal{C}(A) = 2(I + A)^{-1}\):

    \[\begin{array}{ll} I + \mathcal{C}(A) &= (I + A)^{-1} (I + A) (I + \mathcal{C}(A)) \\ &= (I + A)^{-1} ((I + A) + (I + A)\mathcal{C}(A)) \\ &= (I + A)^{-1} ((I + A) + (I - A)) \\ &= 2(I + A)^{-1}. \end{array} \]

  • 可逆性: \(I + \mathcal{C}(A)\) 可逆

    \[\begin{array}{ll} |I + \mathcal{C}(A)| &= |2(I + A)^{-1}| \not = 0. \end{array} \]

  • 自反性: \(\mathcal{C} \circ \mathcal{C} (A) = A\)

    \[\begin{array}{ll} \mathcal{C} \circ \mathcal{C} (A) &= \bigg(I + \mathcal{C} (A)\bigg)^{-1} \bigg(I - \mathcal{C} (A)\bigg) \\ &= \bigg(I + (I + A)^{-1} (I - A) \bigg)^{-1} \bigg(I - \mathcal{C} (A)\bigg) \\ &= \bigg(I + (I + A)^{-1} (I - A) \bigg)^{-1} (I+A)^{-1} (I + A) \bigg(I - \mathcal{C} (A)\bigg) \\ &= \bigg((I+A) + (I - A) \bigg)^{-1} (I + A) \bigg(I - \mathcal{C} (A)\bigg) \\ &= \frac{1}{2} (I + A) \bigg(I - \mathcal{C} (A)\bigg) \\ &= \frac{1}{2} (I + A) \bigg(I - (I+A)^{-1} (I - A)\bigg) \\ &= \frac{1}{2} \bigg((I + A) - (I - A)\bigg) \\ &= \frac{1}{2} \cdot 2A = A. \end{array} \]

  • \(I - \mathcal{C}(A) = 2 ( I + A^{-1})^{-1}\) 如果 \(A\) 可逆:

    \[\begin{array}{ll} I - \mathcal{C} (A) &= (I + A^{-1})^{-1} (I + A^{-1}) (I - \mathcal{C}(A)) \\ &= (I + A^{-1})^{-1} \big( (I + A^{-1}) - (I + A^{-1}) \mathcal{C}(A) \big) \\ &= (I + A^{-1})^{-1} \big( (I + A^{-1}) - (A^{-1} - I)\big) \\ &= 2 (I + A^{-1})^{-1}. \end{array} \]

  • 正交性: 如果 \(A \in \mathbf{M}_n(\mathbb{R})\) 满足 \((I + A)\) 可逆, 则 \(A\) 是反对称矩阵 (即 \(A = -A^T\)) 当且仅当 \(\mathcal{C}(A)\) 是正交矩阵.

    • 充分性:

      \[\begin{array}{ll} \mathcal{C}^T(A) \mathcal{C}(A) &= \big(I + \mathcal{C}(A) \big)^T \mathcal{C}(A) - \mathcal{C}(A) \\ &= [2(I + A)^{-1}]^T \mathcal{C}(A) - \mathcal{C}(A) \\ &= 2(I + A^T)^{-1} (I + A)^{-1} (I - A) - \mathcal{C}(A) \\ &= 2(I - A)^{-1} (I + A)^{-1} (I - A) - \mathcal{C}(A) \\ &= 2(I + A)^{-1} (I - A)^{-1} (I - A) - \mathcal{C}(A) \\ &= 2(I + A)^{-1} - (I + A)^{-1} (I - A) \\ &= (I + A)^{-1} \big(2 I - (I - A) \big) \\ &= (I + A)^{-1} (I + A) = I. \end{array} \]

    • 必要性:

      \[\begin{array}{ll} A &= -2(I + [\mathcal{C}(A)]^{-1})^{-1} + I \\ &= -2(I + [\mathcal{C}(A)]^{T})^{-1} + I \\ &= -\big[2(I + \mathcal{C}(A))^{-1}\big]^T + I \\ &= -\big[I + \mathcal{C} \circ \mathcal{C}(A) \big]^T + I \\ &= -\big[I + A \big]^T + I \\ &= -A^T. \end{array} \]

  • \(\mathcal{C}(A)\)是旋转矩阵, 若 \(A\) 是反对称矩阵:

    • 一个旋转矩阵是行列式为 1 的正交矩阵:

      \[|\mathcal{C}(A)| = \frac{|I - A|}{|I + A|}, \\ |\mathcal{C}^T(A)| = \frac{|I - A^T|}{|I + A^T|} = \frac{|I + A|}{|I - A|}, \\ |\mathcal{C}(A)| = |\mathcal{C}^T(A)| \Rightarrow \frac{|I - A|}{|I + A|} =\frac{|I + A|}{|I - A|} \Rightarrow |I - A| = |I + A| \Rightarrow |\mathcal{C}(A)| = 1. \]

  • 缺失性:\(A \in \mathbf{M}_n(\mathbb{R})\) 是反对称矩阵的时候, 虽然 \(\mathcal{C}(A)\) 是旋转矩阵, 但不能通过这种方式涵盖所有的旋转矩阵, 因为 \(\mathcal{C}(A)\) 不能有 \(-1\) 特征值 (既然 \(I + \mathcal{C}(A)\) 是可逆的).

旋转矩阵的一般重参数化:

  • ([2], Proposition 1.2) 每个旋转矩阵 \(R \in \mathbf{SO}(n)\), 存在唯一的反对称矩阵 \(S\) 使得

    \[R = \bigg( \mathcal{C}(A) \bigg)^2. \]

正交矩阵的一般重参数化:

  • 一般的正交矩阵, 除了旋转矩阵外, 还包括行列式为 -1 的情况 (即反射).

  • ([2], Proposition 1.4) 每个正交矩阵 \(R \in \mathbf{O}(n)\), 存在一对角矩阵 \(E\) 其对角线元素为 \(\{+1, -1\}\), 和某一反对称矩阵 \(S\) 使得

    \[R = E (I - S) (I + S)^{-1}. \]

代码

[torch.nn.utils.parametrizations.orthogonal]

posted @ 2024-03-25 16:22  馒头and花卷  阅读(527)  评论(0)    收藏  举报