摘要: 转载于https://testerhome.com/topics/10877 回顾 之前我们讲到了一些在训练模型的时候用到的超参数,例如上一次说的L2 正则, 在过拟合的场景中增加L2的值有助于减小网络的复杂度。 还有诸如学习率, 在梯度下降中,每一次迭代的下降的步长是学习率乘以成本函数对w的导数。 阅读全文
posted @ 2018-10-25 10:33 今天看见未来 阅读(974) 评论(0) 推荐(0)