摘要:
就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。 证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重的范围,从而影响有效学习率。 阅读全文
posted @ 2019-06-28 19:40
Austin_anheqiao
阅读(1561)
评论(0)
推荐(0)
摘要:
L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE) L2范数损失函数,也被称为最小平方误差(LSE) 鲁棒性 最小绝对值偏差之所以是鲁棒的,是因为它能处理数据中的异常值。如果需要考虑任一或全部的异常值,那么最小绝对值偏差是更好的选择。 L2范数将误差平方化(如果误差大于1, 阅读全文
posted @ 2019-06-28 19:25
Austin_anheqiao
阅读(12815)
评论(0)
推荐(0)
摘要:
BGD(batch gradient descent) 遍历完所有数据,计算一次损失函数,更新一次梯度。 计算量大,速度慢,不支持在线学习。 SGD(stochastic gradient descent) 看一个数据,就计算一次损失函数,更新一次梯度。 速度快,收敛性能不太好,可能在最优点附近震荡 阅读全文
posted @ 2019-06-28 17:01
Austin_anheqiao
阅读(205)
评论(0)
推荐(0)
摘要:
对于同一个损失函数值,可以对应很多种不同的参数,甚至在高纬度下,极小值和极大值都很接近,所以即使是很好优化过的模型,也可能会对应多个不同的参数组合,很多组合都未必是数值稳定的。而且因为参数的安慰更自由,可以得到很小的训练误差,往往都不具有很好的泛化能力。 这个时候加入一个约束项,这个约束项计算之后, 阅读全文
posted @ 2019-06-28 16:36
Austin_anheqiao
阅读(428)
评论(0)
推荐(0)
摘要:
思想: 使用队的思想,将每一层的节点放入队列中,依次弹出,同时将其children放入队列。 c++ 或者:(做了一些小改动) 阅读全文
posted @ 2019-06-28 15:32
Austin_anheqiao
阅读(930)
评论(0)
推荐(0)

浙公网安备 33010602011771号