深度模型优化与正则化:
网络优化 目的:经验风险最小化。对于低维来说,目的是逃离局部最优点;对于高维来说,则是逃离鞍点。
梯度下降 批量梯度下降、小批量梯度下降、随机批量梯度下降。
学习率 流程:学习率预热、学习率衰减、学习率周期调整、自适应学习率。 1)学习率预热: