摘要:
AdaGrad (Adaptive Gradient,自适应梯度) 对每个不同的参数调整不同的学习率, 对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 gt表示第t时间步的梯度(向量,包含各个参数对应的偏导数,gt,i表示第i个参数t时刻偏导数) gt2表示第t时间步的梯度 阅读全文
posted @ 2019-09-26 11:54
happygril3
阅读(565)
评论(0)
推荐(0)

浙公网安备 33010602011771号