二次型

泰勒展式与二次型引入

对于一元函数 \(F(x)\),定义其在 \(x_0\) 处的泰勒展式为

\[\begin{align*} F(x)=&F(x_0)+F'(x_0)(x-x_0)+\frac{F^{(2)}(x_0)}{2!}{(x-x_0)}^2+\cdots \\ &+\frac{F^{(n)}(x_0)}{n!}{(x-x_0)}^n+\cdots \end{align*} \]

引入余项可以得到

\[\begin{align*} F(x)=&F(x_0)+F'(x_0)(x-x_0)+\frac{F^{(2)}(x_0)}{2!}{(x-x_0)}^2+\cdots \\ &+\frac{F^{(n)}(x_0)}{n!}{(x-x_0)}^n+\frac{F^{(n+1)}(\xi)}{(n+1)!}{(x-x_0)}^{n+1} \end{align*} \]

该公式在 \(x_0\) 的邻域内可以任意逼近原函数。

若想求 \(F(x)\) 的极值点,例如极大值点,需要在 \(F(x)\) 的驻点(\(F'(x)=0\))中选出 \(F''(x)>0\) 的点。


为了刻画现实世界中的复杂问题,需要引入多元函数。

此时 \(F(x)\) 的变量 \(x\) 为一个 \(n\) 维向量。记 \(x_i\)\(x\) 的第 \(i\) 维。

可以使用偏导定义 \(F(x)\)\(\alpha\) 处的泰勒展开:

\[\begin{align*} F(x)=&F(\alpha)+\sum_{i=1}^{n}\frac{\partial F(\alpha)}{\partial x_i}(x_i-\alpha_i) \\ +\frac{1}{2!}&\sum_{i=1}^{n}\sum_{j=1}^{n}\frac{\partial^2F(\alpha)}{\partial x_i\partial x_j}(x_i-\alpha_i)(x_j-\alpha_j)+\cdots \end{align*} \]

在最优化问题中,很自然地需要研究 \(F(x)\) 的极值。假设我们找到了 \(F(x)\) 的一个驻点 \(\alpha\),满足 \(\forall i,\frac{\partial F(\alpha)}{\partial x_i}=0\),则我们需要利用二阶偏导部分检验 \(\alpha\) 是否是 \(F(x)\) 的极值点。

为了方便讨论,下文将 \(x\) 移动到原点,即
\(x\leftarrow (x-\alpha)\)

\[\sum_{i=1}^{n}\sum_{j=1}^{n}\frac{\partial^2F(\alpha)}{\partial x_i\partial x_j}x_ix_j \]

被称为 \(F(\alpha)\) 的二次型 \(f(x)\)

定义海森矩阵 \(H\)

\[H(i,j)=\frac{\partial^2F(\alpha)}{\partial x_i\partial x_j} \]

则二次型可以写成 \(f(x)=x^{T}Hx\)

要求 \(\alpha\)\(F\) 的极小值点,应要求 \(0\)\(f\) 的一个极小值点。但其实有性质:当 \(0\) 为二次型 \(f(x)\) 的极小值点,它也为 \(f(x)\) 的全局最小值点。

\(f(0)=0\),故即要求 \(f(x)>0(x\neq0)\),这样的二次型被称为正定二次型,\(H\) 为正定矩阵。

在工程和生活实践中,\(H\) 常是对称的,即二阶偏导的顺序交换值相等。但需注意这并不对任意函数成立。

接下来对实对称矩阵的正定判定进行讨论。

正定矩阵的判定

对于实对称矩阵 \(A\),称 \(A\) 是正定的,当 \(\forall x\neq 0, x^TAx>0\)\((i)\)


这里我们先提出一个检查矩阵正定性的观念:配方。

\(f(x)=x^TAx\) 可视作关于 \(x_i(i\in [1,n]\cap \mathbb{N})\) 的二次齐次式。

如果我们可以将它配成若干个独立平方式的线性组合,则容易判断该式的正定性:当存在平方项系数为负数,则其为不定型。当所有平方项系数都为正数,则其为正定型。若所有平方项系数非负,其中一些为 0,则其为半正定型。

\(A\) 的分解可以帮助我们完成配方!

例如,根据谱分解定理,一定有 \(A=Q\Lambda Q^T\)\(f(x)=x^TQ\Lambda Q^Tx\)\(Q\) 的每一列可以看作我们配出来的平方式。

\(y=Q^Tx\)\(f(x)=y^T\Lambda y=\sum\lambda_i y_i^2\)

\(\lambda_i\) 为平方项系数,依据上述方法判定即可。

同时这也解释了,为什么 \(f(0)\)\(f(x)\) 的极值点等价于 \(f(0)\)\(f(x)\) 的最值点。


该定义于下三条等价:

\((ii)\) \(A\) 的特征值都是正数。

\((iii)\) \(A\) 的所有顺序主子式的行列式都是正数。

\((iv)\) \(A\) 的主元都是正数。

前置:LDLT 分解

任意顺序主子式行列式非 \(0\) 的实对称矩阵可以进行 \(LDL^T\) 分解。

或者换一种描述,任意可以进行唯一 \(LDU\) 分解的实对称矩阵的 \(LDU\) 分解满足 \(U=L^T\)


关于等价判定的证明

有一个有趣的问题。如果要证明四个命题等价,至少需要证明多少个形如 \(A\to B\) 的推出命题?答案是 \(4\) 个,可以构造出 \(A\to B\to C\to D\to A\) 的环。

所以接下来不会证明所有的两两命题等价。

\((i)\to (ii)\)

对于 \(A\) 的特征向量 \(x\)\(x^TAx=\lambda{\Vert x\Vert}^2>0\),故 \(\lambda >0\)

\((ii)\to (i)\)

\(A=Q^T\Lambda Q\)

\(x^TAx=x^TQ^T\Lambda Qx\),记 \(Qx=y\),上式即 \(y^T\Lambda y=\lambda_1y_1^2+\lambda_2y_2^2+\cdots+\lambda_ny_n^2>0\),证毕。

\((i)\to (iii)\)

\[A= \begin{bmatrix} A_k & \star \\ \star & \star \end{bmatrix} \]

\[\begin{cases} \begin{bmatrix}x_k^T & 0\end{bmatrix}A\begin{bmatrix}x_k\\0\end{bmatrix}=x_k^TA_kx_k \\ \begin{bmatrix}x_k^T & 0\end{bmatrix}A\begin{bmatrix}x_k\\0\end{bmatrix}=0 \end{cases} \]

\(A_k\) 为正定矩阵。

由于矩阵的行列式等于特征值的积,故正定矩阵的特征值一定是正数。

\(\det(A_k)>0\)

\((iii)\to (iv)\)

\((iii)\) \(A\) 一定能 \(LDL^T\) 分解。

\(A\) 的第 \(i\) 个主元为 \(d_i\)

\(d_i=\det(A_i)/\det(A_{i-1})>0\)

\((iv)\to (i)\)

\(A\) 进行 \(LDL^T\) 分解,有 \(D(i,i)>0\)

\(x^TAx=x^TLDL^Tx\)。令 \(y=L^Tx\),可知该式为正。

证毕。


合同变换与二次曲面

Introduction:n 维椭圆面(Ellipsoids in n Dimensions)

\(n\) 维球面根据几何直觉可以如下定义:

\[(\sum_{i=1}^{n}x_i^2)=r^2 \]

进一步的,标准形式(各个方向都平行于坐标轴)的 \(n\) 维椭圆面可以写成:

\[\sum_{i=1}^{n}\frac{x_i^2}{r_i^2}=1 \]

\(x^T\Lambda x=1\)\(\Lambda(i,i)=r_i^2\)

一般的 \(n\) 维椭球面旋转后可以变成标准形式。

故可以写成:

\[(Qy)^T\Lambda(Qy)=1 \]

\[y^T(Q^T\Lambda Q)y=1 \]

实对称正定矩阵均可以正交对角化,故我们可以知道当 \(A\) 为实正定矩阵,

\[y^TAy=1 \]

代表一个椭圆面。

合同变换(Congruence Transformation)

对实对称矩阵 \(A\) 和非奇异矩阵 \(C\),称 \(A\to C^TAC\) 为对 \(A\) 的合同变换。

容易证明合同变换后仍为实对称矩阵,合同关系是一种等价关系。

惯性定理(Sylvester’s Law of Inertia)

\(A\)\(C^TAC\)(合同的矩阵)有相同个数的正特征值,负特征值和零特征值。其中统计特征值需要计算 代数重数

拓扑学证明

\(C\)\(QR\) 分解:设 \(C=QR\)

构造连续变换:记 \(C(t)=tQR+(1-t)Q\)

\(M(t)={C(t)}^TAC(t),t\in[0,1]\)

\(M(0)=Q^TAQ=Q^{-1}AQ\)\(M(1)=C^TAC\)

\(M(0)\) 相似于 \(A\),和 \(A\) 有相同特征值。

Lemma:首一多项式的根关于系数连续依赖。

\(M(t)\) 是关于 \(t\) 的连续函数,则可以证明 \(M(t)\) 的特征值关于 \(t\) 连续依赖。

假设 \(A\) 可逆,即 \(A\) 没有 \(0\) 特征值,则 \(M(0) \to M(1)\) 的连续变化过程中 \(\forall t, M(t)\)\(0\) 特征值。根据介值定理,正负特征值个数一定保持不变。

\(A\) 不可逆:

有矩阵 \(C^T(A+\epsilon I)C\) 的特征值关于 \(\epsilon\) 连续依赖。

则令 \(\epsilon\to 0\)\(C^TAC\) 的每个特征值 \(\lambda_i\) 唯一对应 \(C^T(A+\epsilon I)C\) 的一个特征值 \(\lambda_i+o(\epsilon)\)

故有:

\(A\) 中非负特征值 \(\to\) \(A+\epsilon\) 中正特征值 \(\underrightarrow{\text{same number}}\) \(C^T(A+\epsilon I)C\) 中正特征值 \(\to\) \(C^TAC\) 中非负特征值。

\(A\)\(C^TAC\) 的秩相同,故 \(0\) 特征值个数相同。

证毕。

三维二次曲面分类

三维空间中,二次曲面可以写成方程

\[ax^2+by^2+cz^2+2dxy+2exz+2fyz+gx+hy+iz+\alpha=0 \]

\[v=[x,y,z]^T, M= \begin{bmatrix} a & d & e \\ d & b & f \\ e & f & c \\ \end{bmatrix}, b=[g,h,i]^T \]

曲线方程可以写成:

\[v^TMv+b^Tv+\alpha=0 \]

\(M\) 进行谱分解,\(M=Q\Lambda Q^T\)

\(w=Q^Tv\),上述方程可以写成:

\[w^T\Lambda w+c^Tw+\alpha=0 \]

通过坐标平移,可以将存在二次项的方向的常数项吸收。当存在一次项方向,可以将常数吸收。

类型 标准形式 惯性指数 \((p,q,r)\)
椭球面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}+\frac{z^2}{c^2}=1\) \((3,0,0)\)
单叶双曲面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=1\) \((2,1,0)\)
双叶双曲面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=-1\) \((2,1,0)\)
椭圆抛物面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}=2z\) \((2,0,1)\)
双曲抛物面 \(\displaystyle \frac{x^2}{a^2}-\frac{y^2}{b^2}=2z\) \((1,1,1)\)
二次锥面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}-\frac{z^2}{c^2}=0\) \((2,1,0)\)
椭圆柱面 \(\displaystyle \frac{x^2}{a^2}+\frac{y^2}{b^2}=1\) \((2,0,1)\)
posted @ 2025-12-11 13:06  ckain  阅读(44)  评论(0)    收藏  举报