摘要: 使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适。假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛。若每次步长都很小,则下降速度非常慢,需要很多轮的迭代,如右图所示。所以步长的选择和收敛速度是一个取舍关系。 于是,有了一种可调节步长的... 阅读全文