摘要: 0 - 引入 简单的梯度下降等优化算法存在一个问题:目标函数自变量的每一个元素在相同时间步都使用同一个学习率来迭代,如果存在如下图的情况(不同自变量的梯度值有较大差别时候),存在如下问题: 选择较小的学习率会使得梯度较大的自变量迭代过慢 选择较大的学习率会使得梯度较小的自变量迭代发散 因此,自然而然 阅读全文
posted @ 2019-04-27 17:46 CZiFan 阅读(1565) 评论(0) 推荐(0) 编辑