【深度学习数学基础:线性代数】6. 二次型及正定阵

6. 二次型及正定阵

6.1 二次型

\(\boldsymbol{\mathbb{R}}^n\) 上的 二次型 是定义在 \(\boldsymbol{\mathbb{R}}^n\) 上的函数,设 \(\boldsymbol{x} \in \boldsymbol{\mathbb{R}}^n\),二次型可表示为:

\[Q(\boldsymbol{x}) = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} \]

其中 \(\boldsymbol{A}\) 是一个 对称阵(也肯定是方阵),\(\boldsymbol{A}\) 也称为关于该二次型的 矩阵

理论上,\(\boldsymbol{A}\) 是任意一个方阵(非对称阵)也可写出关于它的二次型,但实际中会出现 多个不同矩阵对应同一个二次型 的情况。例如:

\[\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} = \begin{pmatrix} x_1, & x_2, & x_3 \end{pmatrix} \begin{pmatrix} 1 & 4 & 2 \\ -1 & 7 & 5 \\ -1 & 6 & 3 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} \]

展开计算:

\[\begin{align*} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &= x_1^2 - x_2 x_1 - x_3 x_1 + 4x_1 x_2 + 7x_2^2 + 6x_3 x_2 + 2x_1 x_3 + 5x_2 x_3 + 3x_3^2 \\ &= x_1^2 + 7x_2^2 + 3x_3^2 + 3x_1 x_2 + x_1 x_3 + 11x_2 x_3 \end{align*} \]

可见每一项都是关于 \(\boldsymbol{x}\)二次项

但是可以验证,对于其它矩阵 \(\boldsymbol{B},\boldsymbol{C},\boldsymbol{D}\) 及其它更多矩阵,都能得到相同的 二次型

\[\boldsymbol{B} = \boldsymbol{A}^\top = \begin{pmatrix} 1 & -1 & -1 \\ 4 & 7 & 6 \\ 2 & 5 & 3 \end{pmatrix}, \quad \boldsymbol{C} = \begin{pmatrix} 1.0 & 1.5 & 0.5 \\ 1.5 & 7.0 & 5.5 \\ 0.5 & 5.5 & 3.0 \end{pmatrix}, \quad \boldsymbol{D} = \begin{pmatrix} 1 & 114 & 52 \\ -111 & 7 & 2 \\ -51 & 9 & 3 \end{pmatrix} \]

满足:

\[\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} = \boldsymbol{x}^\top \boldsymbol{B} \boldsymbol{x} = \boldsymbol{x}^\top \boldsymbol{C} \boldsymbol{x} = \boldsymbol{x}^\top \boldsymbol{D} \boldsymbol{x} \]

二次型 的一般形式也能看出:

\[\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} = \begin{pmatrix} x_1, & \cdots, & x_n \end{pmatrix} \begin{pmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \vdots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{pmatrix} \begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix} \]

展开后:

\[\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} = \sum_{i=1}^n a_{ii} x_i^2 + \sum_{i=1}^{n-1} \sum_{j=i+1}^n \left( a_{ij} + a_{ji} \right) x_i x_j \]

对于两个不同的矩阵,只要它们的 对角元\(a_{ii}\))取值相等,且交叉项系数 \((a_{ij} + a_{ji})\) 取值相等,就能得到相同的 二次型

\(\boldsymbol{A}\)对称阵,则二次型对应的矩阵是唯一的,因此在讨论 二次型 时通常都要求 \(\boldsymbol{A}\)实对称阵

  • 若对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\)\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} > 0\)\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} \geq 0\)),则称 \(\boldsymbol{A}\)正定(半正定)阵
  • 若对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\)\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} < 0\)\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} \leq 0\)),则称 \(\boldsymbol{A}\)负定(半负定)阵
  • \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\) 既可取正值也可取负值,则称 \(\boldsymbol{A}\)不定矩阵

矩阵 \(\boldsymbol{A}\)也称为二次型的

\(\boldsymbol{A}\)\(m \times n\) 型矩阵,若其所有元素 \(a_{ij} > 0\),则称矩阵 \(\boldsymbol{A}\)正矩阵;若其所有元素 \(a_{ij} \geq 0\),则称矩阵 \(\boldsymbol{A}\)非负矩阵\({}^{54}\))。

矩阵和非负矩阵可表示为 \(\boldsymbol{A} > 0\)\(\boldsymbol{A} \geq 0\),它和正定阵的主要区别为(\({}^{55}\)):

  • 正定阵必须是方阵,正矩阵可以是任意矩阵;
  • 正定阵要求 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} > 0\),正矩阵要求所有元素 \(a_{ij} > 0\)

脚注说明(原文补充)

\({}^{54}\) 正定阵是 positive-definite matrix,正矩阵是 positive matrix,非负矩阵是 nonnegative matrix

\({}^{55}\) 正矩阵不一定是正定阵,正定阵也不一定是正矩阵:
首先正矩阵不一定是对称阵,所以它不一定是正定阵;即使对称的正矩阵,也不一定是正定阵,例如 \(\boldsymbol{A} = (\boldsymbol{a}_1, \boldsymbol{a}_2)\),其中 \(\boldsymbol{a}_1 = (1, 2)^\top, \boldsymbol{a}_2 = (2, 1)^\top\),此时 \(\boldsymbol{A}\) 的特征值为 \(-1\)\(3\);正定阵的特征值全为正,这一点后面会介绍。

6.2 二次型的标准型和规范型

在二次型的一般形式中,既有 \(a_{ii}x_i^2\) 项(称为 平方项),也有 \((a_{ij}+a_{ji})x_i x_j\) 项(称为 交叉项)。若存在 可逆矩阵 \(\boldsymbol{C}\),使得 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\),则二次型可变换为:

\[Q(\boldsymbol{x}) = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} = \left( \boldsymbol{C}\boldsymbol{y} \right)^\top \boldsymbol{A} \left( \boldsymbol{C}\boldsymbol{y} \right) = \boldsymbol{y}^\top \left( \boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C} \right) \boldsymbol{y} = Q(\boldsymbol{y}) \]

\(Q(\boldsymbol{y})\) 只含平方项、不含交叉项,则称该二次型为 标准形,其形式为:

\[Q(\boldsymbol{y}) = k_1 y_1^2 + k_2 y_2^2 + \cdots + k_n y_n^2 \]

若标准形中 任意 \(k_i\) 的取值只能是 \(+1\)\(0\)\(-1\),则称该二次型为 规范形,其形式为:

\[Q(\boldsymbol{y}) = y_1^2 + \cdots + y_p^2 - y_{p+1}^2 - \cdots - y_r^2 \]

6.3 二次型合同

\(\boldsymbol{A},\boldsymbol{B}\) 都是 \(n\) 阶矩阵,若存在 可逆矩阵 \(\boldsymbol{C}\) 使得 \(\boldsymbol{B} = \boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\),则称矩阵 \(\boldsymbol{A}\)\(\boldsymbol{B}\) 合同。因为 \(\boldsymbol{C}\) 是可逆阵,所以一定有 \(\operatorname{rank}(\boldsymbol{B}) = \operatorname{rank}(\boldsymbol{A})\)。即若 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\),经 合同变换\(\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\) 对应的 二次型 秩不变。

二次型研究的一个重点问题就是:如何将任意的 二次型矩阵 \(\boldsymbol{A}\)合同变换 后得到 标准形规范形(即如何将任意 对称阵 \(\boldsymbol{A}\)\(\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\) 对角化)。若 \(\boldsymbol{A}\)\(n \times n\)实对称阵,则它拥有以下特有性质:

  • \(\boldsymbol{A}\) 一定有 \(n\)实特征值(含多重根);
  • 每个 特征值 \(\lambda\) 对应的 特征空间 维数等于其重数(对应的 特征向量 数量等于其重数);
  • 特征向量 之间相互 正交
  • \(\boldsymbol{A}\) 一定可以 正交对角化\(\boldsymbol{Q}^\top \boldsymbol{A} \boldsymbol{Q} = \boldsymbol{\Lambda}\))。

6.4 将二次型化为规范型

根据对称阵的性质及谱分解可知,对于任意一个二次型,总有正交变换 \(\boldsymbol{C}\) ,使二次型变换为标准形,并且:

\[Q(\boldsymbol{y}) = \boldsymbol{y}^\top (\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}) \boldsymbol{y} = \boldsymbol{y}^\top \boldsymbol{\Lambda} \boldsymbol{y} = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \]

其中 \(\lambda_i\) 是矩阵 \(\boldsymbol{A}\)特征值。若假设 \(\boldsymbol{\{\lambda_1, \cdots, \lambda_r\} \neq \{0\}}\)\(\boldsymbol{\{\lambda_{r+1}, \cdots, \lambda_n\} = \{0\}}\) ,则只需定义矩阵:

\[\boldsymbol{K} = \begin{pmatrix} k_1 & & \\ & \ddots & \\ & & k_n \end{pmatrix}, \quad k_i = \begin{cases} \dfrac{1}{\sqrt{|\lambda_i|}} & i \leq r \\ 0 & i > r \end{cases} \]

则有:

\[\boldsymbol{K}^\top (\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}) \boldsymbol{K} = \boldsymbol{K}^\top \boldsymbol{\Lambda} \boldsymbol{K} = \operatorname{diag}\left( \dfrac{\lambda_1}{|\lambda_1|}, \cdots, \dfrac{\lambda_r}{|\lambda_r|}, 0, \ldots, 0 \right) \]

即任意一个二次型都可变形为规范形

1. 补充概念:什么是正交变换?

正交变换 是由 正交矩阵 \(\boldsymbol{C}\) 诱导的线性变换(即 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\) ),满足 \(\boldsymbol{C}^\top\boldsymbol{C} = \boldsymbol{I}\)\(\boldsymbol{I}\) 为单位阵)。它的核心性质是 保持向量的内积和长度不变,几何上对应旋转、反射等“保距离”操作。

2. 二次型的标准形与规范形推导

根据对称阵的性质及谱分解,对任意二次型:

(1)标准形变换

总有 正交变换 \(\boldsymbol{C}\) ,将二次型化为 标准形

\[Q(\boldsymbol{y}) = \boldsymbol{y}^\top (\boldsymbol{C}^\top\boldsymbol{A}\boldsymbol{C})\boldsymbol{y} = \boldsymbol{y}^\top\boldsymbol{\Lambda}\boldsymbol{y} = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \]

其中 \(\lambda_i\)\(\boldsymbol{A}\)特征值\(\boldsymbol{\Lambda} = \operatorname{diag}(\lambda_1, \dots, \lambda_n)\)

(2)规范形构造

假设 \(\boldsymbol{\{\lambda_1, \dots, \lambda_r\} \neq \{0\}}\)(非零特征值),\(\boldsymbol{\{\lambda_{r+1}, \dots, \lambda_n\} = \{0\}}\)(零特征值),定义对角矩阵:

\[\boldsymbol{K} = \begin{pmatrix} k_1 & & \\ & \ddots & \\ & & k_n \end{pmatrix}, \quad k_i = \begin{cases} \dfrac{1}{\sqrt{|\lambda_i|}} & i \leq r \\ 0 & i > r \end{cases} \]

代入标准形变换,可得:

\[\boldsymbol{K}^\top(\boldsymbol{C}^\top\boldsymbol{A}\boldsymbol{C})\boldsymbol{K} = \boldsymbol{K}^\top\boldsymbol{\Lambda}\boldsymbol{K} = \operatorname{diag}\left( \dfrac{\lambda_1}{|\lambda_1|}, \dots, \dfrac{\lambda_r}{|\lambda_r|}, 0, \dots, 0 \right) \]

此时二次型化为 规范形(系数仅为 \(+1\)\(-1\)\(0\) ,符号由 \(\lambda_i\) 的正负决定)。

3. 图中谱分解公式补充

图中手写 \(\boldsymbol{A} = \boldsymbol{Q}\boldsymbol{\Lambda}\boldsymbol{Q}^\top\) 是对称阵的 谱分解(正交对角化)

  • \(\boldsymbol{Q}\)正交矩阵(列为 \(\boldsymbol{A}\) 的单位正交特征向量),
  • \(\boldsymbol{\Lambda}\)对角阵(对角线为 \(\boldsymbol{A}\) 的特征值)。

此时 \(\boldsymbol{Q}^\top\boldsymbol{A}\boldsymbol{Q} = \boldsymbol{\Lambda}\) ,直接对应上述正交变换(\(\boldsymbol{C} = \boldsymbol{Q}\) ),是二次型标准化的理论基础。

6.5 正定阵

二次型的 标准形 不是唯一的,但它的 规范形 是唯一的。即若有二次型 \(f = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\)(其 \(r\)),经两种不同的可逆变换后有:

\[f = k_1 y_1^2 + k_2 y_2^2 + \cdots + k_r y_r^2 \]

\[f = \lambda_1 z_1^2 + \lambda_2 z_2^2 + \cdots + \lambda_r z_r^2 \]

\(k_1, \dots, k_r\) 中正数的个数与 \(\lambda_1, \dots, \lambda_r\) 中正数的个数相等 \(\boldsymbol{^{57}}\)。称规范形中 正系数个数 为二次型的 正惯性指数负系数个数负惯性指数

\(\boldsymbol{^{57}}\) 这一定理称为 二次型的惯性定理

对称阵 \(\boldsymbol{A}\)正定阵 的充要条件有两个(即二次型 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\)标准形 系数全为正,或 规范形 系数全为1,或 正惯性指数 等于 \(n\)):

  • \(\boldsymbol{A}\)特征值 全为正;
  • \(\boldsymbol{A}\)各阶主子式 都为正,即:

\[a_{11} > 0, \quad \begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix} > 0, \quad \cdots, \quad \begin{vmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{vmatrix} > 0 \]

特别注意,\(\boldsymbol{A}\) 负定 的充要条件是 \(\boldsymbol{A}\)奇数阶主子式 为负,偶数阶主子式 为正;若 \(\boldsymbol{A}\) 的各阶主子式均为负,矩阵有可能是 不定阵

6.6 协方差阵为非负定阵

线性代数——二次型:协方差阵为非负定阵

设有 数据集 \(\boldsymbol{D}\),每个观察数据都是 \(n\) 维的 \(\boldsymbol{x} = (x_1, x_2, \cdots, x_n)^\top\)\(\boldsymbol{x}\) 是向量),假设总体均值为 \(\boldsymbol{\mu}\)\(\boldsymbol{\mu}\) 是向量),则其 协方差阵 为:

\[\boldsymbol{\Sigma} = \operatorname{cov}(\boldsymbol{X}, \boldsymbol{X}) = \begin{pmatrix} \operatorname{cov}(x_1, x_1) & \cdots & \operatorname{cov}(x_1, x_n) \\ \vdots & \ddots & \vdots \\ \operatorname{cov}(x_n, x_1) & \cdots & \operatorname{cov}(x_n, x_n) \end{pmatrix} \]

展开 协方差 的期望形式(元素级定义):

\[\boldsymbol{\Sigma} = \begin{pmatrix} \mathbb{E}\left[(x_1 - \mathbb{E}[x_1])(x_1 - \mathbb{E}[x_1])\right] & \cdots & \mathbb{E}\left[(x_1 - \mathbb{E}[x_1])(x_n - \mathbb{E}[x_n])\right] \\ \vdots & \ddots & \vdots \\ \mathbb{E}\left[(x_n - \mathbb{E}[x_n])(x_1 - \mathbb{E}[x_1])\right] & \cdots & \mathbb{E}\left[(x_n - \mathbb{E}[x_n])(x_n - \mathbb{E}[x_n])\right] \end{pmatrix} \]

最终可简化为 矩阵形式的期望

\[\boldsymbol{\Sigma} = \mathbb{E}\left[ (\boldsymbol{x} - \boldsymbol{\mu})(\boldsymbol{x} - \boldsymbol{\mu})^\top \right] \]

协方差阵的非负定性推导

对于任意非零向量 \(\boldsymbol{x}_m \neq \boldsymbol{0}\),考察 二次型 \(\boldsymbol{x}_m^\top \boldsymbol{\Sigma} \boldsymbol{x}_m\)

\[\begin{align*} \boldsymbol{x}_m^\top \boldsymbol{\Sigma} \boldsymbol{x}_m &= \boldsymbol{x}_m^\top \mathbb{E}\left[ (\boldsymbol{x} - \boldsymbol{\mu})(\boldsymbol{x} - \boldsymbol{\mu})^\top \right] \boldsymbol{x}_m \\ &= \mathbb{E}\left[ \boldsymbol{x}_m^\top (\boldsymbol{x} - \boldsymbol{\mu})(\boldsymbol{x} - \boldsymbol{\mu})^\top \boldsymbol{x}_m \right] \\ &= \mathbb{E}\left[ \left| (\boldsymbol{x} - \boldsymbol{\mu})^\top \boldsymbol{x}_m \right|^2 \right] \\ &\geq 0 \end{align*} \]

因此,协方差阵 \(\boldsymbol{\Sigma}\) 总是 非负定阵。这一性质决定了:例如 多维高斯分布 \(\mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})\) 中,\(\boldsymbol{\Sigma}\) 一定是非负定的。

posted @ 2025-07-11 12:02  秦瑞迁  阅读(384)  评论(0)    收藏  举报