深度学习——正则化

作者：Oto_G

全是自我理解，表达不严谨，仅供参考

本文默认正则化范数为L1范数

这是今天讨论的问题：

过拟合，通俗来说就是，你的参数训练的太好了，以至于这组参数只能在你的训练数据上有好的表现 XD

遇到过拟合先冷静下来，因为你遇到的情况可能比你想得还要糟糕，下面是产生过拟合的两种情况，仅供参考 XD

好的，说完过拟合，我们回到第一个问题，为什么融入正则的损失函数能够防止过拟合

可以看到标题已经给出了模型过拟合后的一种解决方案，就是将你的损失函数稍加修改，把正则化这个概念引入你的损失函数

不用担心，引入正则化非常简单，但还是先来看下啥是正则化

首先，和正则表达式区分一下，在了解正则化前呢，请告诉自己，正则表达式和正则化没有任何关系:P

正则化以我的理解就是，将你训练的参数向量（矩阵）在最小化模型影响地情况下，尽可能地稀疏化

稀疏矩阵是数值计算中普遍存在的一类矩阵，主要特点是绝大部分的矩阵元素为零

假设你没有使用正则化训练好的参数是左图，那么正则化就是让这个参数尽可能地变成右图，甚至为一些参数直接为0

正则化

这样之后，我们再想想，之前过拟合是由于参数太多导致的，正则化之后，部分参数的权重接近于零，那么就相当于该参数对模型的影响大幅减小，那么也就不会过拟合了

可能这时候有同学会想到，如果引入正则化导致部分参数降低了对模型的影响，会不会降低错参数导致模型效果不佳呀？
- 答：正则化完全不会降低错参数。首先模型的收敛还是靠损失函数决定，而正则化只是对损失函数进行线性相加，不会导致损失函数意义改变，所以训练后的参数还是适配模型的。反过来讲，正则化之所以能够做到将参数稀疏化，又能保持适配模型，就是靠的其参与到损失函数优化过程中（直接将范数加在了损失函数后面）