机器学习中的优化算法

　　本文主要分机器学习和深度学习两部分介绍，介绍常用的优化算法。优化算法的重要性是不言而喻的，优化算法决定了损失函数的收敛速度，甚至是损失函数是否容易收敛，是否会收敛在最小值处（全局优化）。

机器学习优化算法

1、梯度下降法　　

　　梯度下降法可以说是机器学习中最常用的算法，当然在深度学习中也会使用。不过一般使用的都是梯度下降法的变体—小批量梯度下降法，因为在样本较大时使用全样本进行梯度下降时需要计算的梯度太多，导致计算量会非常大。 ${m i n}_{x} f (x)$

　　对于梯度下降法存在很多缺点：

　　1）对于非完全凸函数极容易陷入局部最优

　　2）对于大数据集时计算量很大

　　3）在接近最优区域时收敛速度非常慢，因为此时的梯度非常小

　　4）学习率难以自适应，通常变学习率要由于恒定的学习率。一般前期要加速下降，后期要抑制振荡。

　　对于梯度下降法的这些缺点，在机器学习中最常见的处理方式就是随机梯度下降（随机抽取一个样本，用其求梯度并作为本次下降的梯度，但一般随机梯度下降很难收敛到最小值），或者小批量梯度下降（从样本中取小批量来求梯度，用平均值来作为本次的梯度下降）。在深度学习中有更多的变种，这个后面再说。

2、牛顿法

　　同样考虑无约束优化问题 ${m i n}_{x} f (x)$

${m i n}_{x} f (x)$

　　其中 $g_{k} = g (x^{(k)}) = \nabla f (x^{(k)})$

$g_{k} = g (x^{(k)}) = \nabla f (x^{(k)})$

　　对于二次函数求极小值可以通过偏导为零来求得（当海森矩阵是正定矩阵时，f(x) 的极值就是极小值）

　　这样在第K + 1步时的最优解

　　这种在领域内进行二次展开，并不断的通过求领域里的极小值来进行下降的方法就叫做牛顿法

　　牛顿法的下降速度会优于梯度下降法，牛顿法在领域内是用二次曲面去拟合真实的局部曲面，而梯度下降法是用平面去拟合，因此牛顿法的结果是更接近真实值的。而且牛顿法还利用了二阶导数信息把握了梯度变化的趋势，使得能够预测到下一步最优的方向，因此牛顿法比梯度下降法的预见性更远（梯度下降法每次都是从当前位置选择坡度最大的方向走，牛顿法不仅会考虑当前坡度是否最大，还会考虑之后的坡度是否最大），更能把握正确的搜索方向而加快收敛。

　　当然牛顿法也有很多缺点：

　　1）目标优化函数必须是二阶可导，海森矩阵必须正定

　　2）计算量太大，除了计算梯度之外，还要计算海森矩阵以及其逆矩阵

　　3）当目标函数不是完全的凸函数时，容易陷入鞍点。

3、拟牛顿法

　　拟牛顿法旨在解决牛顿法中的海森矩阵的问题。在你牛顿法中考虑用一个D阶的正定矩阵来近似的代替海森矩阵的逆矩阵。这样就避免要去计算逆矩阵。

　　将x = x^(k+1) 代入到下面的式子中

　　可以得到

　　上式即为 $H_{k}$

$H_{k}$

　　不同的G_k的选择，就衍生出了不同的方法，常见的有DFP算法、BFGS算法（最流行的拟牛顿法）等。

深度学习

　　深度学习中有很多对梯度下降法的变体算法，都是用来加速神经网络的优化的（神经网络中数据量太大了，计算量太，优化慢）

4、momentum动量法

　　如果把梯度下降法想象成一个小球从山坡到山谷的过程，那么之前的梯度下降法的小球是这样移动的：从A点开始，计算当前A点的坡度，沿着坡度最大的方向走一段路，停下到B。在B点再看一看周围坡度最大的地方，沿着这个坡度方向走一段路，再停下。而一个真正的小球要比这聪明多了，从A点滚动到B点的时候，小球带有一定的初速度，在当前初速度下继续加速下降，小球会越滚越快，更快的奔向谷底。momentum 动量法就是模拟这一过程来加速神经网络的优化的。动量法可以认为是利用了物体的惯性来加速下行。

$H_{k}$