归一化和标准化
\(\hspace{0.5cm}\)对于这两种数据变换方法,一直没有统一的界定。很多时候都存在标准化和归一化概念混用的情况,有时候把z-score变换叫归一化,有时候又把min-max归一化叫标准化。本文暂定标准化指的就是z-score变换,归一化指的就是min-max变换。
\(\hspace{0.5cm}\)数据标准化为了不同特征之间具备可比性,经过标准化变换之后的特征分布没有发生改变。数据归一化的目的是使得各特征对目标变量的影响一致,会将特征数据进行伸缩变化,所以数据归一化是会改变特征数据分布的。
归一化的概念和作用
- 奇异样本数据的存在会引起训练时间增大,并可能引起无法收敛。
所以在存在奇异样本数据的情况下,进行训练之前最好进行归一化,如果不存在奇异样本数据,则可以不用归一化。
所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。比如:
| 列1 | 列2 | 列3 | 列4 |
|---|---|---|---|
| 0.11 | 0.22 | 0.33 | 44 |
| 0.12 | 0.23 | 0.34 | 45 |
- 归一化的作用:归纳统一样本的统计分布性。
简单来说就是,把数据经过处理后使之限定在一定的范围内。归一化在[0,1]之间是统计的概率分布,归一化在[-1,1]之间是统计的坐标分布。
从最优解角度解释归一化
常用的数据处理方法
- (1) 最大-最小标准化
\[x'=\frac{x-min(X)}{max(X)-min(X)}$$或$$x'=\frac{max(X)-x}{max(X)-min(X)}
\]
- (2) Z-score标准化(通常说的标准化)
无论是为了建模还是为了计算,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到最终的结果,为了消除指标之间的量纲影响,需要进行标准化处理,以解决数据指标之间的可比性。原始数据经过处理后,各指标处于同一数量级,适合进行综合对比评价。公式如下:$$x'=\frac{x-u}{\sigma}$$ - (3) 对数函数转换,反余切函数转换等等
应用场景说明
-
1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;
-
2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;
-
3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.
-
4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。
参考内容及部分内容直接抄自 [手动doge]:
https://blog.csdn.net/weixin_37737254/article/details/108354008
https://blog.csdn.net/zenghaitao0128/article/details/78361038

浙公网安备 33010602011771号