摘要:
AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率,从而避免统一的维度难以适应所有维度的问题。 特点: 1. 小批量随机梯度按元素累加变量,出现在学习率的分母项中。(若目标函数有关自变量的偏导数一直都较大,那么学习率下降较快;反之亦然。) 2. 若迭代早期下降过快 + 当前解仍然不 阅读全文
posted @ 2020-04-02 21:00
Someday&Li
阅读(2962)
评论(0)
推荐(0)
浙公网安备 33010602011771号