(Z-Score,0-1,稳健标准化RobustScaler, L_p归一化normalizer,小数定标, Logistic)标准化方法的优缺点和适用范围

1. Z-Score标准化

对数据系列中的每一个数据点作减去均值并除以方差的操作,使得处理后的数据近似符合(0,1) 的标准正态分布:

xi∗=(xi−μ)/σx_i^*=(x_i-μ)/σ

优点:

1) 计算相对简单,在计算机编程软件中操作方便;

2) 能够消除量级为数据分析带来的不便,不受数据量级的影响,保证了数据间的可比性.

缺点:

1) 计算时需要得到总体的均值及标准差,在数据较多时难以实现,大多数情况下用样本均值及标准差代替,此举会导致分析结果与真实结果之间会存在差异;

2) 极大程度上改变了数据的原始意义,使得只能比较数据之间的关系,导致这种标准化方法的现实意义需要在比较中实现;

3) 对数据的相关性有要求,只有在数据大致符合正态分布时才能得到最佳结果.

适用范围:适用于数据系列中最大值和最小值未知,有超出取值范围的离群数据的情况。或者是数据分布非常离散的情况.

2. 0-1标准化

对数据系列作线性变换,使得处理过后数据均落在[0,1]区间内:

xi∗=(xi−min)/(max−min)x_i^*=(x_i-min)/(max-min)

优点:

1) 无论原始数据是正值还是负值,经过0-1标准化之后各个观察值的数值变化范围都满足条件 0≪x′≪10≪x'≪1

,并且正指标、逆指标均可转化为正向指标,使其作用方向一致,易于比较;

2) 能够消除变异量纲和变异范围的影响,确保数据是在同一量纲下进行比较.

缺点:

1) 在新数据加入后,可能导致最大值和最小值发生变化,就需要重新定义标准化变量,计算量大幅增加;

2) 标准化之后只能比较数据的分布情况,适用场景较为单一.

适用范围:0-1标准化适用于需要将数据简单地变换映射到某一区间中进行比较,观测数据的分布情况.

3. 稳健标准化RobustScaler

使用数据的四分位数进行标准化处理:

xi∗=(xi−median)/(Q3(x)−Q1(x))x_i^*=(x_i-median)/(Q_3 (x)-Q_1 (x))

优点:

1) 使用四分位数进行标准化,只取25%分位数到75%分位数的数据做缩放,在一定程度上减少了异常值对数据分析造成的影响,使得分析结果更加合理.

缺点:

1) 对于多元数据、高维数据,稳健标准化的适用性会很低;

2) 进行数据的添加删除后会导致四分位数变化,可能需要重新定义标准化变量.

适用范围:适用于数据中有较多异常值的情况.

4. L_p归一化normalizer

利用L_p范数对数据进行归一化处理:

xi∗=xi/||xi||px_i^*=x_i/||x_i ||_p

优点:

1) 用L_1可以将分散数据归一化到一个菱形域,用L_2可以将分散数据归一化到一个球形域,L1范数可以导致稀疏解,L2范数导致稠密解;

2) L_p归一化能够使后期数据处理更加方便,并且保证程序运行时收敛加快

3) 在作图时,如果原始数据很难在图中表现,进行归一化后就可以很方便的给出图上的相对位置.

缺点:

1) 需要使用到L_p范数,计算量相对较大.

适用范围:适用于对离散数据的处理.

5. 小数定标标准化

通过移动数据的小数点位置来进行标准化。具体标准化过程中,小数点移动多少位取决于数据系列中的最大绝对值大小:

xi∗=xi/10jx_i^*=x_i/10^j

优点:

1) 操作简单,同时使得归一化之后的数据都落在一个很小的区间内,量级统一,便于数据的分析比较;

2) 小数定标标准化方法适用范围广,受到数据分布影响小,更加实用.

缺点:

1) 最大值与最小值非常容易受异常点影响;

2) 鲁棒性较差,只适合传统精确小数据场景.

适用范围:适用于数据系列分布比较离散,尤其是数据系列遍布多个数量级的情况

6. Logistic标准化

利用Sigmoid函数的特性,将原始数据系列转化为[0,1]之间的数:

xi∗=1/(1+e−xi)x_i^*=1/(1+e^{-x_{i}})

优点:

1) 将数据映射至[0,1]区间内,且利用Sigmoid函数平滑、易于求导的特性,对数据的处理更加高效;

2) 在数据特征相差比较复杂或是相差不是特别大时效果比较好.

缺点:

1) Logistic标准化对数据集的分布有一定的要求,它假定数据取值集中分布在 0值左右;

2) 若数据系列的值分布离散且均远离零点,则根据Sigmoid函数的特性,标准化处理后的值会聚集于0或1附近,造成原始数据的分布及数据间关系被改变;

3) Logistic标准化会改变数据集的原始分布特征.

适用范围:用于数据系列分布相对比较集中地分布于零点两侧的情况.

 

如有疑问欢迎在评论区讨论!

posted @ 2023-02-02 14:11   ̄□ ̄  阅读(531)  评论(0编辑  收藏  举报