从线性回归来理解正则化

本文主要以线性回归为切入点，分析了过拟合出现的原因以及正则化的理解，并从MLE和MAP两个方面重新对线性回归进行了求解，揭示了MLE，MAP与正则化之间的关系。

一、最小二乘的简要回顾

假设输入空间为：

\(x_{m \times n} = (x_{1}, x_{2},...,x_{i},...,x_{m})^T\)

那么每个输入向量的特征维度为\(n\)，相应地，训练样本表示为：

\(T=((x_{1}, y_{1}),(x_{2}, y_{2}),...,(x_{m}, y_{m}))\)

我们的目的就是找到一组参数\(w_{n \times 1}=(w_{1}, w_{2},..., w_{n})\)，使输入向量与\(w\)的线性组合能够尽可能地拟合输出\(y\)，于是模型可以定义为：
\(xw = y\)

于是根据上篇文章定义的\(L_{2}\)损失函数，模型的经验风险Loss可以定义为：

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} = \dfrac{1}{2} (y-xw)^{2}\)

于是参数的求解就转化成最小化\(Loss\)，因此\(Loss\)对\(w\)求导，便可取得极小值。

\(\dfrac{\partial Loss}{\partial w} = \dfrac{\partial (y-xw)^{T}(y-xw)}{\partial w} = 2x^{T}(xw-y) = 0\)

因此，解得\(w = (x^{T}x)^{-1}x^{T}y\)

然而，当\(x^{T}x\)不可逆时，则不存在唯一的解析解，反映到机器学习中就是过拟合。从图像去噪来考虑，输入的带噪声图像可以展开成一个\(hw \times 1\)的向量，通过神经网络来拟合对应清晰图像每一个像素位置的值，那么所学到的参数矩阵可以简单地定义为\(\theta_{1 \times hw}\)，以线性回归的视角得到参数\(\theta\)的解析解为：

\(\theta_{1 \times hw} = (xx^{T})^{-1}xy^{T}\)

若\(xx^{T}\)不为满秩，则不存在逆。由于深度学习需要大量的外部图像样本不断学习参数\(\theta\)，相当于网络在求解这\(n\)多个非线性方程组。若方程组的个数小于特征的维度，那么得到的解的假设空间也就越多，在\(Loss\)的约束下很容易学到过拟合的解。解决这一问题的根本办法就是使样本个数远大于特征维度，这样就可以约束解空间，更容易得到较好的模型。要达到这种效果有很多：

1）增加样本数（数据增广等）2）减少特征个数（dropout，PCA降维等）3）加正则化进行约束

正则化通过使模型中某些参数为0从而降低模型参数复杂度，从广义上讲也属于第二种降低过拟合的方法。通常，\(L_{1}\)范数会使得模型参数变得稀疏，\(L_{2}\)范数能够使模型参数集中分布在0附近，因此都能实现参数\(w\)的降维。

在最小二乘法中加入\(L_{2}\)正则化项对参数\(w\)进行约束后，得到结构风险的表达式：

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} + \lambda w^{T}w= \dfrac{1}{2} (y-xw)^{2} + \lambda w^{T}w\)

同理，可得：

\(\dfrac{\partial Loss}{\partial w} = 2(x^{T}x+\lambda I)-2x^{T}y = 0\)
解得：\(w = (x^{T}x+\lambda I)^{-1}x^{T}y\)

关于矩阵求导的相关知识，请移步下一篇文章。

二、从概率的角度来理解最小二乘估计

统计学习中，拟合的误差分为可减少误差(reducible error)与不可减少误差(irreducible error)。可减少误差可以通过提出更合适的模型来减少，而由于数据本身存在一定的扰动，会受到其他非客观因素的影响，导致观测样本会有一些波动，这些波动导致所提出的模型无法准确无误地进行拟合，产生的误差称为不可减少误差。

我们假设不可减少误差为\(\delta \sim N(0,\sigma^{2})\)，那么估计出来的样本：

\(y = xw + \delta\)，并且：\(y \sim N(xw, \sigma^{2})\)

根据高斯分布的概率，可以得到：

\(p(y|x,w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}})\)

目的就是求出\(p(y|x,w)\)最大时，参数\(w\)的取值，因此可以采用最大似然估计(MLE)的角度，来求上式的最大似然估计。

\(MLE = log \prod p(y_{i}|x_{i}, w)=\sum log p(y_{i}|x_{i}, w) = \sum log \dfrac{1}{\sigma \sqrt{2\pi}}-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}\)

于是：
\(w = argmax(MLE) = argmin(y-xw)^{T}(y-xw)\)，与前文定义的经验风险损失一致。

若给参数\(w\)增加一个先验信息，即\(w \sim N(0, \sigma_{w}^{2})\)，于是按照最大后验概率的观点：

\(w = argmax(MAP) = argmax(p(y|x,w)p(w))\)，进一步可得：

\(p(y|x,w)p(w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}) \times \dfrac{1}{\sigma_{w} \sqrt{2\pi}} exp (-\dfrac{w^{T}w}{2\sigma_{w}^{2}})\)

整理得：

\(w = argmax(MAP) = argmin((y-xw)^{T}(y-xw)+\dfrac{\sigma^{2}}{\sigma_{w}^{2}}w^{T}w)\)

设\(\lambda = \dfrac{\sigma^{2}}{\sigma_{w}^{2}}\)，公式与前文定义的结构风险损失一致

posted @ 2021-06-21 23:58 ZhiboZhao 阅读(534) 评论(0) 收藏举报

刷新页面返回顶部

ZhiboZhao

从线性回归来理解正则化

公告