收敛性分析
为了更严谨地重新分析为什么谱范数 \(\|\nabla^2 f(x)\|_2 \leq L\),我们结合梯度利普希茨连续性假设和谱范数的数学定义,逐步推导如下:
步骤1:明确假设条件
假设2:梯度 \(\nabla f\) 是 \(L\)-利普希茨连续的,即:
其中 \(\|\cdot\|_2\) 是向量的欧几里得范数。
步骤2:利普希茨连续性与海森矩阵的关系
对任意固定点 \(x\) 和任意方向向量 \(d \in \mathbb{R}^n\)(\(\|d\|_2 = 1\)),构造辅助函数:
其导数为:
由 梯度利普希茨连续性,对任意 \(t\):
(最后一步由柯西-施瓦茨不等式和 \(\|d\|_2 = 1\) 得出)。
步骤3:推导海森矩阵的二次型上界
对 \(\phi(t)\) 应用中值定理:存在 \(\tau \in (0, t)\) 使得:
代入利普希茨条件:
两边除以 \(|t|\):
由于 \(x\) 和 \(d\) 任意,且 \(\tau\) 依赖于 \(t\),但 \(t \to 0\) 时 \(\tau \to 0\),可得:
步骤4:谱范数的定义与等价形式(具体推导见下)
对实对称矩阵 \(A = \nabla^2 f(x)\),其谱范数为:
由瑞利商(Rayleigh quotient)性质:
证明:
- 对实对称矩阵,存在特征分解 \(A = Q \Lambda Q^T\)。
- 令 \(d\) 为最大绝对值特征值对应的特征向量,则:\[\left| d^T A d \right| = \left| \lambda_{\max} \right| = \|A\|_2. \]
- 对任意单位向量 \(d\),有 \(\left| d^T A d \right| \leq \|A\|_2\)。
步骤5:结合结果完成证明
由步骤3:
由步骤4的谱范数等价形式:
您对步骤4的疑问很合理。这一步是推导的核心,涉及实对称矩阵谱范数的等价定义。我将逐步详细解释,确保逻辑清晰。
步骤4详解:为什么谱范数等于瑞利商的最大绝对值?
设 $ A = \nabla^2 f(x) $ 是实对称矩阵(海森矩阵的性质)。谱范数定义为:
需要证明:
步骤4.1:利用实对称矩阵的性质
由于 $ A $ 实对称,它具有正交对角化:
其中:
- $ Q $ 是正交矩阵($ Q^T Q = I $),
- $ \Lambda = \text{diag}(\lambda_1, \dots, \lambda_n) $ 是特征值对角矩阵($ \lambda_i \in \mathbb{R} $)。
步骤4.2:谱范数的特征值表示
谱范数等价于最大奇异值(这个要学了酉矩阵和酉变换什么的才能懂)。由于 $ A $ 对称,奇异值等于特征值的绝对值:
步骤4.3:瑞利商(Rayleigh Quotient)的性质
对任意单位向量 \(v\)(\(\|v\|_2=1\)),定义瑞利商:
利用对角化 $ A = Q \Lambda Q^T $,令 $ w = Q^T v $,则:
其中 $ w = [w_1, \dots, w_n]^T $ 满足 $ |w|_2=1 $(因为正交变换保范数)。
步骤4.4:瑞利商的范围
由于 $ |w|_2=1 $,有 $ \sum w_i^2 = 1 $,且 $ w_i^2 \geq 0 $。因此:
是特征值的加权平均,其范围满足:
其中:
- 最大值 $ \lambda_{\max} $ 在 $ w $ 为最大特征值对应的特征向量时取得(此时 $ w_j=1 $ 对应 $ \lambda_j=\lambda_{\max} $,其余 $ w_i=0 $)。
- 最小值 $ \lambda_{\min} $ 在 $ w $ 为最小特征值对应的特征向量时取得。
步骤4.5:瑞利商绝对值的最大值
考虑绝对值 $ |R(v)| = |v^T A v| $。由于 $ \lambda_i $ 可正可负,最大值可能出现在:
- 最大正特征值: $ |R(v)| = \lambda_{\max} $(若 $ \lambda_{\max} > 0 $)
- 或最小负特征值: $ |R(v)| = |\lambda_{\min}| $(若 $ \lambda_{\min} < 0 $)
因此:
步骤4.6:与谱范数的等价性
由步骤4.2和4.5:
或者一种更简单的证明方法:
- 假设 2 指出 \(\nabla f(x)\) 是 Lipschitz 连续的,常数 \(L\),这暗示 Hessian 矩阵满足 \(\nabla^2 f(x) \preceq L I_n\)。这里的符号 \(\preceq\) 表示矩阵不等式,即 \(L I_n - \nabla^2 f(z_k)\) 是半正定矩阵。
- 半正定意味着 \(L I_n - \nabla^2 f(z_k)\) 的所有特征值都非负,因此 \(\nabla^2 f(z_k)\) 的所有特征值都小于或等于 \(L\)。
- 矩阵 \(\nabla^2 f(z_k)\) 的算子范数(谱范数)\(\| \nabla^2 f(z_k) \|\) 定义为最大特征值的绝对值。由于 \(\nabla^2 f(z_k)\) 是半正定(从强凸性假设),特征值非负,所以 \(\| \nabla^2 f(z_k) \| = \lambda_{\max}(\nabla^2 f(z_k)) \leq L\)。
因此,我们有 \(\| \nabla^2 f(z_k) \| \leq L\).
2. 从方程 (D.3) 推导后续不等式
方程 (D.3) 是泰勒展开:
我们需要估计二次型项的上界:
- 对于任何半正定矩阵 \(A\) 和向量 \(v\),有 \(v^T A v \leq \|A\| \|v\|^2\)。这是因为 \(v^T A v \leq \lambda_{\max}(A) v^T v = \|A\| \|v\|^2\)。
- 这里,\(A = \nabla^2 f(z_k)\),\(v = x_{k+1} - x_k\),所以:
- 结合之前的结果 \(\| \nabla^2 f(z_k) \| \leq L\),我们有:
因此,代入方程 (D.3),得到:
在梯度下降算法的收敛性证明中,我们经常需要估计二次型 $ v^T A v $ 的上界,其中 $ A $ 是一个半正定矩阵,$ v $ 是一个向量。不等式 $ v^T A v \leq |A| |v|^2 $ 的推导基于线性代数和矩阵范数的性质。以下是详细解释:
1. 矩阵范数的定义
- 矩阵 $ A $ 的算子范数(谱范数)定义为 $ |A| = \max_{|u|=1} |A u| $,对于对称矩阵(如 Hessian 矩阵),这个范数等于矩阵的最大特征值的绝对值,即 $ |A| = \lambda_{\max}(A) $。
- 由于 $ A $ 是半正定矩阵,所有特征值都非负,因此 $ |A| = \lambda_{\max}(A) $.
2. 二次型的上界估计
- 对于任何向量 $ v $,二次型 $ v^T A v $ 可以通过特征分解来估计。假设 $ A $ 是对称矩阵(半正定矩阵通常是对称的),那么它可以被对角化为 $ A = Q \Lambda Q^T $,其中 $ Q $ 是正交矩阵,$ \Lambda $ 是对角矩阵,包含特征值 $ \lambda_i $。
- 因此,$ v^T A v = v^T Q \Lambda Q^T v = w^T \Lambda w $,其中 $ w = Q^T v $。
- 由于 $ \Lambda $ 是对角矩阵,有 $ w^T \Lambda w = \sum_i \lambda_i w_i^2 $。
- 因为所有 $ \lambda_i \leq \lambda_{\max}(A) = |A| $,所以:\[\sum_i \lambda_i w_i^2 \leq \lambda_{\max}(A) \sum_i w_i^2 = \|A\| \|w\|^2 \]
- 但 $ |w|^2 = |Q^T v|^2 = |v|^2 $(因为 $ Q $ 是正交矩阵,保持范数不变),所以:\[v^T A v \leq \|A\| \|v\|^2 \]

浙公网安备 33010602011771号