二次型
泰勒展式与二次型引入
对于一元函数 \(F(x)\),定义其在 \(x_0\) 处的泰勒展式为
引入余项可以得到
该公式在 \(x_0\) 的邻域内可以任意逼近原函数。
若想求 \(F(x)\) 的极值点,例如极大值点,需要在 \(F(x)\) 的驻点(\(F'(x)=0\))中选出 \(F''(x)>0\) 的点。
为了刻画现实世界中的复杂问题,需要引入多元函数。
此时 \(F(x)\) 的变量 \(x\) 为一个 \(n\) 维向量。记 \(x_i\) 为 \(x\) 的第 \(i\) 维。
可以使用偏导定义 \(F(x)\) 在 \(\alpha\) 处的泰勒展开:
在最优化问题中,很自然地需要研究 \(F(x)\) 的极值。假设我们找到了 \(F(x)\) 的一个驻点 \(\alpha\),满足 \(\forall i,\frac{\partial F(\alpha)}{\partial x_i}=0\),则我们需要利用二阶偏导部分检验 \(\alpha\) 是否是 \(F(x)\) 的极值点。
为了方便讨论,下文将 \(x\) 移动到原点,即
令 \(x\leftarrow (x-\alpha)\)。
被称为 \(F(\alpha)\) 的二次型 \(f(x)\)。
定义海森矩阵 \(H\),
则二次型可以写成 \(f(x)=x^{T}Hx\)。
要求 \(\alpha\) 是 \(F\) 的极小值点,应要求 \(0\) 是 \(f\) 的一个极小值点。但其实有性质:当 \(0\) 为二次型 \(f(x)\) 的极小值点,它也为 \(f(x)\) 的全局最小值点。
有 \(f(0)=0\),故即要求 \(f(x)>0(x\neq0)\),这样的二次型被称为正定二次型,\(H\) 为正定矩阵。
在工程和生活实践中,\(H\) 常是对称的,即二阶偏导的顺序交换值相等。但需注意这并不对任意函数成立。
接下来对实对称矩阵的正定判定进行讨论。
正定矩阵的判定
对于实对称矩阵 \(A\),称 \(A\) 是正定的,当 \(\forall x\neq 0, x^TAx>0\)。\((i)\)
这里我们先提出一个检查矩阵正定性的观念:配方。
\(f(x)=x^TAx\) 可视作关于 \(x_i(i\in [1,n]\cap \mathbb{N})\) 的二次齐次式。
如果我们可以将它配成若干个独立平方式的线性组合,则容易判断该式的正定性:当存在平方项系数为负数,则其为不定型。当所有平方项系数都为正数,则其为正定型。若所有平方项系数非负,其中一些为 0,则其为半正定型。
对 \(A\) 的分解可以帮助我们完成配方!
例如,根据谱分解定理,一定有 \(A=Q\Lambda Q^T\),\(f(x)=x^TQ\Lambda Q^Tx\)。\(Q\) 的每一列可以看作我们配出来的平方式。
记 \(y=Q^Tx\),\(f(x)=y^T\Lambda y=\sum\lambda_i y_i^2\)。
视 \(\lambda_i\) 为平方项系数,依据上述方法判定即可。
同时这也解释了,为什么 \(f(0)\) 为 \(f(x)\) 的极值点等价于 \(f(0)\) 为 \(f(x)\) 的最值点。
该定义于下三条等价:
\((ii)\) \(A\) 的特征值都是正数。
\((iii)\) \(A\) 的所有顺序主子式的行列式都是正数。
\((iv)\) \(A\) 的主元都是正数。
前置:LDLT 分解
任意顺序主子式行列式非 \(0\) 的实对称矩阵可以进行 \(LDL^T\) 分解。
或者换一种描述,任意可以进行唯一 \(LDU\) 分解的实对称矩阵的 \(LDU\) 分解满足 \(U=L^T\)。
关于等价判定的证明
有一个有趣的问题。如果要证明四个命题等价,至少需要证明多少个形如 \(A\to B\) 的推出命题?答案是 \(4\) 个,可以构造出 \(A\to B\to C\to D\to A\) 的环。
所以接下来不会证明所有的两两命题等价。
\((i)\to (ii)\)
对于 \(A\) 的特征向量 \(x\),\(x^TAx=\lambda{\Vert x\Vert}^2>0\),故 \(\lambda >0\)。
\((ii)\to (i)\)
\(A=Q^T\Lambda Q\)。
\(x^TAx=x^TQ^T\Lambda Qx\),记 \(Qx=y\),上式即 \(y^T\Lambda y=\lambda_1y_1^2+\lambda_2y_2^2+\cdots+\lambda_ny_n^2>0\),证毕。
\((i)\to (iii)\)
令
则
故 \(A_k\) 为正定矩阵。
由于矩阵的行列式等于特征值的积,故正定矩阵的特征值一定是正数。
故 \(\det(A_k)>0\)。
\((iii)\to (iv)\)
由 \((iii)\) \(A\) 一定能 \(LDL^T\) 分解。
记 \(A\) 的第 \(i\) 个主元为 \(d_i\)。
有 \(d_i=\det(A_i)/\det(A_{i-1})>0\)。
\((iv)\to (i)\)
对 \(A\) 进行 \(LDL^T\) 分解,有 \(D(i,i)>0\)。
\(x^TAx=x^TLDL^Tx\)。令 \(y=L^Tx\),可知该式为正。
证毕。
合同变换与二次曲面
Introduction:n 维椭圆面(Ellipsoids in n Dimensions)
\(n\) 维球面根据几何直觉可以如下定义:
进一步的,标准形式(各个方向都平行于坐标轴)的 \(n\) 维椭圆面可以写成:
即 \(x^T\Lambda x=1\),\(\Lambda(i,i)=r_i^2\)。
一般的 \(n\) 维椭球面旋转后可以变成标准形式。
故可以写成:
即
实对称正定矩阵均可以正交对角化,故我们可以知道当 \(A\) 为实正定矩阵,
代表一个椭圆面。
合同变换(Congruence Transformation)
对实对称矩阵 \(A\) 和非奇异矩阵 \(C\),称 \(A\to C^TAC\) 为对 \(A\) 的合同变换。
容易证明合同变换后仍为实对称矩阵,合同关系是一种等价关系。
惯性定理(Sylvester’s Law of Inertia)
\(A\) 和 \(C^TAC\)(合同的矩阵)有相同个数的正特征值,负特征值和零特征值。其中统计特征值需要计算 代数重数。
拓扑学证明
对 \(C\) 做 \(QR\) 分解:设 \(C=QR\)。
构造连续变换:记 \(C(t)=tQR+(1-t)Q\)。
记 \(M(t)={C(t)}^TAC(t),t\in[0,1]\)。
有 \(M(0)=Q^TAQ=Q^{-1}AQ\),\(M(1)=C^TAC\)。
\(M(0)\) 相似于 \(A\),和 \(A\) 有相同特征值。
Lemma:首一多项式的根关于系数连续依赖。
\(M(t)\) 是关于 \(t\) 的连续函数,则可以证明 \(M(t)\) 的特征值关于 \(t\) 连续依赖。
假设 \(A\) 可逆,即 \(A\) 没有 \(0\) 特征值,则 \(M(0) \to M(1)\) 的连续变化过程中 \(\forall t, M(t)\) 无 \(0\) 特征值。根据介值定理,正负特征值个数一定保持不变。
当 \(A\) 不可逆:
有矩阵 \(C^T(A+\epsilon I)C\) 的特征值关于 \(\epsilon\) 连续依赖。
则令 \(\epsilon\to 0\),\(C^TAC\) 的每个特征值 \(\lambda_i\) 唯一对应 \(C^T(A+\epsilon I)C\) 的一个特征值 \(\lambda_i+o(\epsilon)\)。
故有:
\(A\) 中非负特征值 \(\to\) \(A+\epsilon\) 中正特征值 \(\underrightarrow{\text{same number}}\) \(C^T(A+\epsilon I)C\) 中正特征值 \(\to\) \(C^TAC\) 中非负特征值。
且 \(A\) 与 \(C^TAC\) 的秩相同,故 \(0\) 特征值个数相同。
证毕。
三维二次曲面分类
三维空间中,二次曲面可以写成方程
令
曲线方程可以写成:
对 \(M\) 进行谱分解,\(M=Q\Lambda Q^T\)。
令 \(w=Q^Tv\),上述方程可以写成:
通过坐标平移,可以将存在二次项的方向的常数项吸收。当存在一次项方向,可以将常数吸收。
| 类型 | 标准形式 | 惯性指数 \((p,q,r)\) |
|---|---|---|
| 椭球面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}+\frac{z^2}{c^2}=1\) | \((3,0,0)\) |
| 单叶双曲面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=1\) | \((2,1,0)\) |
| 双叶双曲面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=-1\) | \((2,1,0)\) |
| 椭圆抛物面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}=2z\) | \((2,0,1)\) |
| 双曲抛物面 | \(\displaystyle \frac{x^2}{a^2}-\frac{y^2}{b^2}=2z\) | \((1,1,1)\) |
| 二次锥面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=0\) | \((2,1,0)\) |
| 椭圆柱面 | \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}=1\) | \((2,0,1)\) |

浙公网安备 33010602011771号