摘要: 论文 "Decoupled Weight Decay Regularization" 中提到,Adam 在使用时,L2 regularization 与 weight decay 并不等价,并提出了 AdamW,在神经网络需要正则项时,用 AdamW 替换 Adam+L2 会得到更好的性能。 Ten 阅读全文
posted @ 2020-01-11 00:45 wuliytTaotao 阅读(8602) 评论(0) 推荐(0) 编辑