摘要: weight decay就是在原有loss后面,再加一个关于权重的正则化,类似与L2 正则,让权重变得稀疏; 参考:https://www.zhihu.com/question/24529483 dying relu是当梯度值过大时,权重更新后为负数,经relu后变为0,导致后面也不再更新。 三种办 阅读全文
posted @ 2019-06-29 16:05 牧马人夏峥 阅读(769) 评论(0) 推荐(0)