数学预备知识-范数、序列极限、梯度、Hessian矩阵、泰勒展开式、Jacobi矩阵

1. 向量范数

定义
如果实值函数\(\lVert \cdot \rVert : R^n \rightarrow R\)满足下列条件:

  1. 非负性\(\lVert \mathbf{x} \rVert \geq 0, \forall \mathbf{x} \in R^n\); \(\lVert \mathbf{x} \rVert = 0\)当且仅当 \(\mathbf{x} = 0\)
  2. 齐次性\(\lVert \alpha \mathbf{x} \rVert = \alpha \lVert \mathbf{x} \rVert, \forall \alpha \in R\)
  3. 三角不等式\(\lVert \mathbf{x} + \mathbf{y} \rVert \leq \lVert \mathbf{x} \rVert + \lVert \mathbf{y} \rVert\)
    则称\(\lVert \cdot \rVert\)为向量范数,(范数对空间中点的距离进行了定义)。

常见的向量范数

  1. \(L_1\)范数:\(\lVert x \rVert_1 = \sum_{i=1}^n \lvert x_i \rvert\)
  2. \(L_2\)范数:\(\lVert x \rVert_2 = \sqrt{(\sum_{i=1}^n x_i^2)}\)
  3. \(L_{\infty}\)范数:\(\lVert x \rVert_{\infty} = max_i \lvert x_i \rvert\)
  4. \(L_p\)范数:\(\lVert x \rVert_p = (\sum_{i=1}^n \lvert x_i \rvert ^p)^{\frac{1}{p}}\), \(1 \leq p < \infty\)

范数的等价
\(\lVert \cdot \rVert_\alpha\)\(\lVert \cdot \rVert_\beta\)\(R^n\)上任意两个范数,如果存在正数\(c_1\)\(c_2\),使得对每个\(\mathbf{x}\)\(c_1 \lVert \mathbf{x} \rVert_\alpha \leq \lVert \mathbf{x} \rVert_\beta \leq c_2 \lVert x \rVert_\alpha\),则称范数\(\lVert \cdot \rVert_\alpha\)\(\lVert \cdot \rVert_\beta\)等价。

任何两种向量范数都是等价的

  • 证明收敛性时,只要证明最简单的那个范数是收敛的,则其他范数也是收敛的。

2. 矩阵范数

定义
若对任意\(A \in R^{n \times n}\),都有一个实数\(\lVert A \rVert\)与之对应,且满足

  1. 非负性:当\(A \neq 0\)时,\(\lVert A \rVert \geq 0\),当且仅当\(A = 0\)时,\(\lVert A \rVert = 0\)
  2. 齐次性\(\forall \lambda \in R, \lVert \lambda A \rVert = \lvert \lambda \rvert \lVert A \rVert\)
  3. 三角不等式\(A, B \in R^{n \times n}, \lVert A + B \rVert \leq \lVert A \rVert + \lVert B \rVert\)
  4. 相容性\(A, B \in R^{n \times n}, \lVert A B \rVert \leq \lVert A \rVert \cdot \lVert B \rVert\)

常见的矩阵范数\(m_1\)范数、F范数、\(m_\infty\)范数、从属范数

3. 序列的极限

  1. 序列极限的定义:设 \(\{x_k\}\)\(R^n\) 中一个向量序列,\(\bar{x} \in R^n\),如果对每个任给的 \(\epsilon > 0\) 存在正整数 \(K_\epsilon\),使得当 \(k > K_\epsilon\) 时就有 \(\| x_k - \bar{x} \| < \epsilon\),则称序列收敛到 \(\bar{x}\),或称序列以 \(\bar{x}\) 为极限,记作 \(\lim_{k \to \infty} x_k = \bar{x}\)
  • 注意序列极限若存在,则必定唯一。
  1. 聚点:设 \(\{x_k\}\)\(R^n\) 中一个向量序列,如果存在一个子序列 \(\{x_k\}\),使得\(\lim_{k \to \infty} x_k = \hat{x}\),则称 \(\hat{x}\) 是序列 \(\{x_k\}\) 的一个聚点。
  • 例如:\({1, -1, 1, -1, ...}\)中奇数项构成的序列存在聚点1.
  • 无穷有界序列必定存在聚点。
  1. 柯西(Cauchy)序列:设 \(\{x_k\}\)\(R^n\) 中一个向量序列,如果对任意给定的 \(\epsilon > 0\),总存在正整数 \(K_\epsilon\),使得当 \(m, l > K_\epsilon\) 时,就有 \(\| x_m - x_l \| < \epsilon\),则 \(\{x_k\}\) 称为 Cauchy 序列。
  • 柯西序列必有极限。

4. 梯度、Hessian矩阵、Taylor展开式

4.1 梯度、Hessian矩阵

对于函数 \(f : R^n \to R\)

梯度

\[\nabla f(x) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]

Hessian矩阵

\[H(x) = \nabla^2 f(x) = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{pmatrix}\]

例1:一次函数:\(f(x) = c^T x, c \in R^n, x \in R^n\)

\[f(x) = c_1 x_1 + c_2 x_2 + \cdots + c_n x_n \]

梯度:

\[\nabla f(x) = \begin{pmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{pmatrix} = c\]

Hessian矩阵:

\[H(x) = \nabla^2 f(x) = 0 \]

例2:二次函数:\(f(x) = \frac{1}{2}x^T A x + b^T x + c\),其中 \(A^T = A\), \(b \in R^n\), \(c \in R\)
梯度:

\[\nabla f(x) = A x + b \]

Hessen矩阵:

\[H(x) = \nabla^2 f(x) = A \]

4.2 Taylor展开式

  1. 函数 \(f: \mathbb{R} \to \mathbb{R}\) 的二阶 Taylor 展开式:

\[f(x) \approx f(x_0) + f'(x_0)(x - x_0) + \frac{1}{2} f''(x_0)(x - x_0)^2 \]

  1. 函数 \(f: \mathbb{R}^n \to \mathbb{R}\) 的二阶 Taylor 展开式:

\[f(\mathbf{x}) \approx f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T (\mathbf{x} - \mathbf{x}_0) + \frac{1}{2} (\mathbf{x} - \mathbf{x}_0)^T \nabla^2 f(\mathbf{x}_0) (\mathbf{x} - \mathbf{x}_0) \]

其中 (\nabla^2 f(\mathbf{x}_0)$ 是 Hessian 矩阵(二阶偏导数对称矩阵)。

几何含义

  1. 一阶展开式是过点\((x_0, f(x_0))\),斜率为\(f'(x_0)\)的切线。
  2. 二阶展开式是过点\((x_0, f(x_0))\)的二次函数。

5. 向量值函数的Jacobi矩阵

向量值函数 \(\mathbf{h}: \mathbb{R}^n \rightarrow \mathbb{R}^m\)

\[\mathbf{h}(\mathbf{x}) = \begin{pmatrix} h_1(\mathbf{x}) \\ h_2(\mathbf{x}) \\ \vdots \\ h_m(\mathbf{x}) \end{pmatrix}, \]

其中每个分量 \(h_i(\mathbf{x})\)\(n\) 元实值函数 \(h_i(\mathbf{x}):\mathbb{R}^n \rightarrow \mathbb{R}\)

向量值函数\(\mathbf{h}\) 在点 \(\mathbf{x}\) 处的 Jacobi 矩阵 为:

\[\mathbf{J}_{\mathbf{h}}(\mathbf{x}) = \begin{pmatrix} \frac{\partial h_1(\mathbf{x})}{\partial x_1} & \frac{\partial h_1(\mathbf{x})}{\partial x_2} & \cdots & \frac{\partial h_1(\mathbf{x})}{\partial x_n} \\ \frac{\partial h_2(\mathbf{x})}{\partial x_1} & \frac{\partial h_2(\mathbf{x})}{\partial x_2} & \cdots & \frac{\partial h_2(\mathbf{x})}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial h_m(\mathbf{x})}{\partial x_1} & \frac{\partial h_m(\mathbf{x})}{\partial x_2} & \cdots & \frac{\partial h_m(\mathbf{x})}{\partial x_n} \end{pmatrix}.\]

\(\mathbf{J}_{\mathbf{h}}(\mathbf{x})\)\(m \times n\) 矩阵(\(m\) 个分量,\(n\) 个变量)。

例1:求梯度 $ \nabla f $ 的Jabobi矩阵,即\(J(\nabla f)\)
若将梯度 $ \nabla f $ 视为一个向量值函数 $ \nabla f: \mathbb{R}^n \to \mathbb{R}^n $,其 Jacobian 矩阵为:

\[J(\nabla f) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}. \]

正是 Hessian 矩阵 $ H $,即 $ J(\nabla f) = H $。

  • Hessian 矩阵是对称阵(当 $ f $ 二阶连续可微时,Schwarz 定理保证 $ \frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i} $),因此 $ H = H^\top $。
posted @ 2025-03-29 15:01  Frank23  阅读(129)  评论(0)    收藏  举报