了解随机优化中需要了解的内容(Knowing What to Know in Stochastic Optimization)

本篇旨在记录国际著名数学家 Katya Scheinberg (ICM2026报告人之一) 关于随机优化的评论。

连续型优化算法的研究是大多数基础数据科学主题的核心。以最简单和最抽象的形式,我们可以将优化问题表述为

\[\begin{equation*} \min_{x\in\mathcal{X}}f(x), \end{equation*} \]

其中假设 \(f\) 是连续的,但可以是/或不是平滑的,也可以是/或不是凸的。

优化绝不是一个新领域。在20世纪80年代和90年代,它在理论和实践方面都经历了重大发展,到20世纪末,它似乎已经得到了很好的理解。然而,“大数据革命”带来了新的优化挑战,主要有两个原因:必须利用的大量数据和这些数据固有的不精确性。大多数传统方法无法处理这些新的应用,因此,必须要重新设计。特别是,研究人员在假设我们可以精确地或足够精确地计算 \(f(x)\), \(\nabla f(x)\) 和可能的 \(\nabla^2 f(x)\)的情况下开发了传统方法。因此,我们可以精确地或以足够的(确定性)精度计算优化算法的步骤,例如梯度下降步

\[\begin{equation*} x_{k+1}=x_{k}-\alpha_{k}\nabla f(x_{k}) \end{equation*} \]

或者牛顿步

\[\begin{equation*} x_{k+1}=x_{k}-\alpha_{k}[\nabla^2 f(x_{k})]^{-1}\nabla f(x_{k}). \end{equation*} \]

当处理大量不准确的数据时,精确的函数 \(f(x)\) 可能是未知的,或者通过确定性方法计算成本太高。因此,新的优化范式侧重于至少部分信息是不精确的和随机计算的方法。例如,在梯度下降方法中,随机估计 \(g_{k}\) 可以代替梯度 \(\nabla f(x_{k})\)。同样,采用随机线性代数技术可以计算出相应牛顿步中的 \(\nabla^2 f(x_{k})\)\([\nabla^2 f(x_{k})]^{-1}\) 的近似估计。

随机优化的基础研究旨在定义导致算法收敛的不精确随机信息的一般条件,从而加深我们对何时以及如何应用这些算法的理解。例如,考虑随机梯度下降(SGD)--机器学习模型中最流行的优化算法--它采用

\[\begin{equation*} x_{k+1}=x_{k}-\alpha_{k}g_{k}, \end{equation*} \]

其中 \(g_{k}\) 是梯度 \(\nabla f(x_{k})\) 的一个无偏随机估计。如果 \(g_{k}\) 很容易获得,那么 SGD 可以非常高效且计算成本低廉,许多流行的机器学习模型,如逻辑回顾和神经网络都是如此。另一方面,机器学习中的一些非常自然的函数--比如衡量预测错误率的“零一损失”--不允许直接应用 SGD,因为它们缺乏对 \(\nabla f(x_{k})\) 的有用无偏估计。虽然优化“零一”损失可能是学习算法的真正目标,但通常会优化存在有用梯度估计的替代损失函数。然而,如果我们改变梯度估计的条件,我们可以为“零一”损失和其他类似的损失函数开发收敛的优化算法。例如,通过选择一个合适的 \(\Theta_{k}\), 我们可以考虑如下的条件

\[\begin{equation*} \|\mathbb{E}[g_{k}]-\nabla f(x_{k})\|\le\Theta_{k}, \end{equation*} \]

这放宽了对 \(g_{k}\) 无偏性的要求,并允许通过某种梯度近似方案(如有限差分)进行计算。

SGD 存在一些缺陷:由于估计 \(g_{k}\) 的方差的影响,它可能不够稳定;它严重依赖于步长序列 \(\alpha_{k}\) 的选择;并且它没有考虑 \(f(x)\) 的曲率。然而,对 \(g_{k}\) 施加一些条件可以解决这些问题。特别是,我们可以假设 \(g_{k}\) 是对 \(\nabla f(x_{k})\) 的一个足够精确的近似,并且具有一定的概率性,从而控制 \(g_{k}\) 的方差。更一般地,我们可以对函数值 \(f_{k}\)、梯度 \(g_{k}\) 和Hessian矩阵 \(H_{k}\) 的估计设定以下一组条件 (1):

\[\begin{equation*} \begin{cases} |f_{k}-f(x_{k})|\le\Theta_{k}^{0}\\\\ \|g_{k}-\nabla f(x_{k})\|\le\Theta_{k}^{1}\\\\ \|H_{k}-\nabla^2 f(x_{k})\|\le\Theta_{k}^{2}, \end{cases} \end{equation*} \]

对于适当选择的 \(\Theta_{k}^{i}\), \(i=0,1,2\),这一组表述在相当高的概率 \(p\) 下应该是成立的。

因此,如果对参数序列 \(\Theta_{k}^{i}\)\(p\) 作出恰当的选择,那么我们就能构建出具有与经典确定性算法(如线搜索和信赖域法)相似行为的随机算法。这些方法能够进行线搜索、利用二阶信息,并展现出良好的收敛特性,而无需像 SGD 那样耗费高昂的成本来计算关于 \(f(x)\) 的确定性信息。虽然 SGD 具有已知的收敛速度,即在一定步数后达到的预期精度,但基于 (1) 的方法不仅具有更好的预期收敛速度和预期复杂度界限 (即达到所需精度所需的迭代次数的界限),而且这些界限具有很高的概率成立。使用 (1) 进行收敛性分析的一个有趣且重要的观察结果是,量 \(\Theta_{k}^{i}\) 与算法在迭代 \(k\) 时达到的精度密切相关,这表明随着算法的收敛,其会趋向于自适应地降低精度。

分析还表明 \(\Theta_{k}^{0}\) 的下降速率比 \(\Theta_{k}^{1}\) 更快,而 \(\Theta_{k}^{1}\) 又比 \(\Theta_{k}^{2}\) 更快。因此,获得准确的函数值估计最为重要;梯度估计的准确性可能稍差一些,而Hessian矩阵估计则允许最大的误差幅度。这些认识很可能会催生能够利用新颖随机化技术的新算法。我们有理由期待在随机优化领域在未来不久会有令人瞩目的发展。

参考文献:
[1] Blanchet, J., Cartis, C., Menickelly, M., & Scheinberg, K. (2018). Convergence rate analysis of a stochastic trust region method for nonconvex optimization. Preprint, arXiv:1609.07428.
[2] Paquette, C., & Scheinberg, K. (2018). A stochastic line search method with expected complexity analysis. Preprint, arXiv:1807.07994.
[3] Roosta-Khorasani, F., & Mahoney, M.V. (2018). Sub-sampled newton methods. Math. Program., 1-34.
[4] Tripuraneni, N., Stern, M., Jin, C., Regier, J., & Jordan, M.I. (2018). Stochastic cubic regularization for fast nonconvex optimization. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, & R. Garnett (Eds.), Adv. Neur. Info. Proc. Syst. 31 (pp. 2904-2913). Montreal, Canada.

posted @ 2025-07-23 17:08  xustonexin  阅读(102)  评论(0)    收藏  举报