10.权重衰退 [跟着沐神-动手学深度学习]

权重衰退

  权重衰退(Weight Decay)是一种常用的正则化技术,用于防止模型过拟合。其核心思想是通过惩罚较大的权重值,限制模型的复杂度,从而提高泛化能力。

  使用均方范数作为硬性限制 

    通过限制参数值的选择范围来控制模型容量

    image

          image

      ·通常不限制偏移 b(限不限制都差不多)     ·小的0意味着更强的正则项

 

  使用均方范数作为柔性限制

    对每个θ,都可以找到λ使得之前的目标函数等价于image   可以通过拉格朗日乘子来证明

    ·超参数λ控制了正则项的重要程度:入=0:无作用   入→∞,w*→0

 

  演示最优解的影响:

    image

    绿色的曲线为只优化损失值的情况,黄色曲线为加入了正则项的情况。正则项会将权重的值从原本离原点较远的较大值,拉扯到离原点较近的较小值,从而实现对参数大小的控制。

 

  参数更新法则

    计算梯度:

        image

    更新参数(时间 t):

        image

      通常 η λ < 1 ,在深度学习中通常叫作权重衰退。这意味着每次更新参数时,现将原本的参数值缩小一些,再沿着梯度方向更新。

 

  ·权重衰退通过L2正则项使得模型参数不会过大,从而控制模型复杂度

  ·正则项权重是控制模型复杂度的超参数

posted @ 2025-08-14 17:14  Clopt  阅读(50)  评论(0)    收藏  举报