一、常见非线性优化算法概览

算法特点适用场景
梯度下降法(Gradient Descent)仅用一阶导数(梯度),方向为负梯度;便捷但收敛慢大规模障碍、对精度要求不高
牛顿法(Newton’s Method)使用二阶导数(Hessian 矩阵),二阶收敛;计算与存储 Hessian 开销大小规模、光滑函数
高斯-牛顿法(Gauss-Newton)专为最小二乘设计,用J ⊤ J J^\top JJJ近似 Hessian,避免二阶导数数据拟合、重投影误差最小化
列文伯格-马夸尔特法(Levenberg-Marquardt, LM)高斯-牛顿的改进版,引入阻尼因子λ \lambdaλ,兼具稳健性与快速性实际中最常用,如相机标定、Bundle Adjustment
拟牛顿法(BFGS / L-BFGS)迭代近似 Hessian,L-BFGS 节省内存通用非线性优化,尤其适合大规模问题

二、高斯-牛顿法(Gauss-Newton Method)

1. 问题形式

求解 非线性最小二乘障碍

min ⁡ x 1 2 ∣ r ( x ) ∣ 2 = 1 2 ∑ i = 1 m r i ( x ) 2 \min_{\mathbf{x}} \frac{1}{2} | \mathbf{r}(\mathbf{x}) |^2 = \frac{1}{2} \sum_{i=1}^m r_i(\mathbf{x})^2xmin21r(x)2=21i=1mri(x)2

  • x ∈ R n \mathbf{x} \in \mathbb{R}^nxRn:待优化参数
  • r ( x ) ∈ R m \mathbf{r}(\mathbf{x}) \in \mathbb{R}^mr(x)Rm:残差向量(模型预测与观测的差异)

2. 核心思想

牛顿法需计算 Hessian 矩阵 H H H,但对最小二乘障碍:

H = J ⊤ J + ∑ i = 1 m r i ∇ 2 r i H = J^\top J + \sum_{i=1}^m r_i \nabla^2 r_iH=JJ+i=1mri2ri

高斯-牛顿法忽略二阶项(即 ∇ 2 r i \nabla^2 r_i</