摘要: l1和l2的正则区别在哪里? l1得到稀疏解可以用做特征选择,l2得到趋近于0的解可以防止过拟合。 l1正则项:求导之后是λ 梯度下降法中梯度更新为 w:= w-aλ,此时a为常数,经过多次更新后w=0,从而正则化带来稀疏解。 l2正则项:求导之后是2λw 梯度更新为w:=w-2aλw,因为衰减项中 阅读全文
posted @ 2021-05-26 16:35 灰人 阅读(113) 评论(0) 推荐(0)