牛顿法(Newton Method)

一、牛顿法概述

除了前面说的梯度下降法，牛顿法也是机器学习中用的比较多的一种优化算法。牛顿法的基本思想是利用迭代点

处的一阶导数(梯度)和二阶导数(Hessen矩阵)对目标函数进行二次函数近似，然后把二次模型的极小点作为新的迭代点，并不断重复这一过程，直至求得满足精度的近似极小值。牛顿法的速度相当快，而且能高度逼近最优值。牛顿法分为基本的牛顿法和全局牛顿法。

二、基本牛顿法

1、基本牛顿法的原理

基本牛顿法是一种是用导数的算法，它每一步的迭代方向都是沿着当前点函数值下降的方向。

我们主要集中讨论在一维的情形，对于一个需要求解的优化函数 $f\left ( x \right )$ ，求函数的极值的问题可以转化为求导函数 ${f}'\left ( x \right )=0$ 。对函数 $f\left ( x \right )$ 进行泰勒展开到二阶，得到

$f\left ( x \right )=f\left ( x_k \right )+{f}'\left ( x_k \right )\left ( x-x_k \right )+\frac{1}{2}{f}''\left ( x_k \right )\left ( x-x_k \right )^2$

对上式求导并令其为0，则为

${f}'\left ( x_k \right )+{f}''\left ( x_k \right )\left ( x-x_k \right )=0$

即得到

$x=x_k-\frac{{f}'\left ( x_k \right )}{{f}''\left ( x_k \right )}$

这就是牛顿法的更新公式。

2、基本牛顿法的流程

给定终止误差值 $0\leq \varepsilon \ll 1$ ，初始点 $x_0 \in \mathbb{R}^n$ ，令；
计算 $g_k=\triangledown f\left ( x_k \right )$ ，若 $\left \| g_k \right \|\leq \varepsilon$ ，则停止，输出 $x^{*}\approx x_k$ ；
计算 $G_k=\triangledown ^2f\left ( x_k \right )$ ，并求解线性方程组得解：；
令 $x_{k+1}=x_k+d_k$ ，，并转2。