摘要: [TOC] "" 引 这篇论文比较短,先看了这篇,本来应该先把ADAGRAD看了的。普通的基于梯度下降的方法,普遍依赖于步长,起始点的选择,所以,受ADAGRAD的启发,作者提出了一种ADADELTA的方法。 $$ \Delta x_t = \frac{\mathrm{RMS}[\Delta x]_ 阅读全文
posted @ 2019-05-24 10:50 馒头and花卷 阅读(362) 评论(0) 推荐(0)