【深度学习数学基础:线性代数】6. 二次型及正定阵
6. 二次型及正定阵
6.1 二次型
\(\boldsymbol{\mathbb{R}}^n\) 上的 二次型 是定义在 \(\boldsymbol{\mathbb{R}}^n\) 上的函数,设 \(\boldsymbol{x} \in \boldsymbol{\mathbb{R}}^n\),二次型可表示为:
其中 \(\boldsymbol{A}\) 是一个 对称阵(也肯定是方阵),\(\boldsymbol{A}\) 也称为关于该二次型的 矩阵。
理论上,\(\boldsymbol{A}\) 是任意一个方阵(非对称阵)也可写出关于它的二次型,但实际中会出现 多个不同矩阵对应同一个二次型 的情况。例如:
展开计算:
可见每一项都是关于 \(\boldsymbol{x}\) 的 二次项。
但是可以验证,对于其它矩阵 \(\boldsymbol{B},\boldsymbol{C},\boldsymbol{D}\) 及其它更多矩阵,都能得到相同的 二次型:
满足:
从 二次型 的一般形式也能看出:
展开后:
对于两个不同的矩阵,只要它们的 对角元(\(a_{ii}\))取值相等,且交叉项系数 \((a_{ij} + a_{ji})\) 取值相等,就能得到相同的 二次型。
若 \(\boldsymbol{A}\) 是对称阵,则二次型对应的矩阵是唯一的,因此在讨论 二次型 时通常都要求 \(\boldsymbol{A}\) 是实对称阵。
- 若对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\) 有 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} > 0\)(\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} \geq 0\)),则称 \(\boldsymbol{A}\) 是 正定(半正定)阵;
- 若对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\) 有 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} < 0\)(\(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} \leq 0\)),则称 \(\boldsymbol{A}\) 是 负定(半负定)阵;
- 若 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\) 既可取正值也可取负值,则称 \(\boldsymbol{A}\) 是 不定矩阵。
矩阵 \(\boldsymbol{A}\) 的秩也称为二次型的秩。
设 \(\boldsymbol{A}\) 为 \(m \times n\) 型矩阵,若其所有元素 \(a_{ij} > 0\),则称矩阵 \(\boldsymbol{A}\) 是 正矩阵;若其所有元素 \(a_{ij} \geq 0\),则称矩阵 \(\boldsymbol{A}\) 是 非负矩阵(\({}^{54}\))。
矩阵和非负矩阵可表示为 \(\boldsymbol{A} > 0\) 和 \(\boldsymbol{A} \geq 0\),它和正定阵的主要区别为(\({}^{55}\)):
- 正定阵必须是方阵,正矩阵可以是任意矩阵;
- 正定阵要求 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} > 0\),正矩阵要求所有元素 \(a_{ij} > 0\)。
脚注说明(原文补充)
\({}^{54}\) 正定阵是 positive-definite matrix,正矩阵是 positive matrix,非负矩阵是 nonnegative matrix。
\({}^{55}\) 正矩阵不一定是正定阵,正定阵也不一定是正矩阵:
首先正矩阵不一定是对称阵,所以它不一定是正定阵;即使对称的正矩阵,也不一定是正定阵,例如 \(\boldsymbol{A} = (\boldsymbol{a}_1, \boldsymbol{a}_2)\),其中 \(\boldsymbol{a}_1 = (1, 2)^\top, \boldsymbol{a}_2 = (2, 1)^\top\),此时 \(\boldsymbol{A}\) 的特征值为 \(-1\) 和 \(3\);正定阵的特征值全为正,这一点后面会介绍。
6.2 二次型的标准型和规范型
在二次型的一般形式中,既有 \(a_{ii}x_i^2\) 项(称为 平方项),也有 \((a_{ij}+a_{ji})x_i x_j\) 项(称为 交叉项)。若存在 可逆矩阵 \(\boldsymbol{C}\),使得 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\),则二次型可变换为:
若 \(Q(\boldsymbol{y})\) 只含平方项、不含交叉项,则称该二次型为 标准形,其形式为:
若标准形中 任意 \(k_i\) 的取值只能是 \(+1\)、\(0\) 或 \(-1\),则称该二次型为 规范形,其形式为:
6.3 二次型合同
设 \(\boldsymbol{A},\boldsymbol{B}\) 都是 \(n\) 阶矩阵,若存在 可逆矩阵 \(\boldsymbol{C}\) 使得 \(\boldsymbol{B} = \boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\),则称矩阵 \(\boldsymbol{A}\) 与 \(\boldsymbol{B}\) 合同。因为 \(\boldsymbol{C}\) 是可逆阵,所以一定有 \(\operatorname{rank}(\boldsymbol{B}) = \operatorname{rank}(\boldsymbol{A})\)。即若 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\),经 合同变换 后 \(\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\) 对应的 二次型 秩不变。
二次型研究的一个重点问题就是:如何将任意的 二次型矩阵 \(\boldsymbol{A}\) 经 合同变换 后得到 标准形 或 规范形(即如何将任意 对称阵 \(\boldsymbol{A}\) 经 \(\boldsymbol{C}^\top \boldsymbol{A} \boldsymbol{C}\) 对角化)。若 \(\boldsymbol{A}\) 为 \(n \times n\) 型 实对称阵,则它拥有以下特有性质:
- \(\boldsymbol{A}\) 一定有 \(n\) 个 实特征值(含多重根);
- 每个 特征值 \(\lambda\) 对应的 特征空间 维数等于其重数(对应的 特征向量 数量等于其重数);
- 特征向量 之间相互 正交;
- \(\boldsymbol{A}\) 一定可以 正交对角化(\(\boldsymbol{Q}^\top \boldsymbol{A} \boldsymbol{Q} = \boldsymbol{\Lambda}\))。
6.4 将二次型化为规范型
根据对称阵的性质及谱分解可知,对于任意一个二次型,总有正交变换 \(\boldsymbol{C}\) ,使二次型变换为标准形,并且:
其中 \(\lambda_i\) 是矩阵 \(\boldsymbol{A}\) 的特征值。若假设 \(\boldsymbol{\{\lambda_1, \cdots, \lambda_r\} \neq \{0\}}\) , \(\boldsymbol{\{\lambda_{r+1}, \cdots, \lambda_n\} = \{0\}}\) ,则只需定义矩阵:
则有:
即任意一个二次型都可变形为规范形。
1. 补充概念:什么是正交变换?
正交变换 是由 正交矩阵 \(\boldsymbol{C}\) 诱导的线性变换(即 \(\boldsymbol{x} = \boldsymbol{C}\boldsymbol{y}\) ),满足 \(\boldsymbol{C}^\top\boldsymbol{C} = \boldsymbol{I}\)(\(\boldsymbol{I}\) 为单位阵)。它的核心性质是 保持向量的内积和长度不变,几何上对应旋转、反射等“保距离”操作。
2. 二次型的标准形与规范形推导
根据对称阵的性质及谱分解,对任意二次型:
(1)标准形变换
总有 正交变换 \(\boldsymbol{C}\) ,将二次型化为 标准形:
其中 \(\lambda_i\) 是 \(\boldsymbol{A}\) 的特征值,\(\boldsymbol{\Lambda} = \operatorname{diag}(\lambda_1, \dots, \lambda_n)\) 。
(2)规范形构造
假设 \(\boldsymbol{\{\lambda_1, \dots, \lambda_r\} \neq \{0\}}\)(非零特征值),\(\boldsymbol{\{\lambda_{r+1}, \dots, \lambda_n\} = \{0\}}\)(零特征值),定义对角矩阵:
代入标准形变换,可得:
此时二次型化为 规范形(系数仅为 \(+1\)、\(-1\) 或 \(0\) ,符号由 \(\lambda_i\) 的正负决定)。
3. 图中谱分解公式补充
图中手写 \(\boldsymbol{A} = \boldsymbol{Q}\boldsymbol{\Lambda}\boldsymbol{Q}^\top\) 是对称阵的 谱分解(正交对角化):
- \(\boldsymbol{Q}\) 是正交矩阵(列为 \(\boldsymbol{A}\) 的单位正交特征向量),
- \(\boldsymbol{\Lambda}\) 是对角阵(对角线为 \(\boldsymbol{A}\) 的特征值)。
此时 \(\boldsymbol{Q}^\top\boldsymbol{A}\boldsymbol{Q} = \boldsymbol{\Lambda}\) ,直接对应上述正交变换(\(\boldsymbol{C} = \boldsymbol{Q}\) ),是二次型标准化的理论基础。
6.5 正定阵
二次型的 标准形 不是唯一的,但它的 规范形 是唯一的。即若有二次型 \(f = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\)(其 秩 为 \(r\)),经两种不同的可逆变换后有:
则 \(k_1, \dots, k_r\) 中正数的个数与 \(\lambda_1, \dots, \lambda_r\) 中正数的个数相等 \(\boldsymbol{^{57}}\)。称规范形中 正系数个数 为二次型的 正惯性指数,负系数个数 为 负惯性指数。
\(\boldsymbol{^{57}}\) 这一定理称为 二次型的惯性定理。
对称阵 \(\boldsymbol{A}\) 为 正定阵 的充要条件有两个(即二次型 \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}\) 的 标准形 系数全为正,或 规范形 系数全为1,或 正惯性指数 等于 \(n\)):
- \(\boldsymbol{A}\) 的 特征值 全为正;
- \(\boldsymbol{A}\) 的 各阶主子式 都为正,即:
特别注意,\(\boldsymbol{A}\) 负定 的充要条件是 \(\boldsymbol{A}\) 的 奇数阶主子式 为负,偶数阶主子式 为正;若 \(\boldsymbol{A}\) 的各阶主子式均为负,矩阵有可能是 不定阵。
6.6 协方差阵为非负定阵
线性代数——二次型:协方差阵为非负定阵
设有 数据集 \(\boldsymbol{D}\),每个观察数据都是 \(n\) 维的 \(\boldsymbol{x} = (x_1, x_2, \cdots, x_n)^\top\)(\(\boldsymbol{x}\) 是向量),假设总体均值为 \(\boldsymbol{\mu}\)(\(\boldsymbol{\mu}\) 是向量),则其 协方差阵 为:
展开 协方差 的期望形式(元素级定义):
最终可简化为 矩阵形式的期望:
协方差阵的非负定性推导
对于任意非零向量 \(\boldsymbol{x}_m \neq \boldsymbol{0}\),考察 二次型 \(\boldsymbol{x}_m^\top \boldsymbol{\Sigma} \boldsymbol{x}_m\):
因此,协方差阵 \(\boldsymbol{\Sigma}\) 总是 非负定阵。这一性质决定了:例如 多维高斯分布 \(\mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})\) 中,\(\boldsymbol{\Sigma}\) 一定是非负定的。
浙公网安备 33010602011771号