数据标准化
意义:
1. 数据的量纲不同,数量级别差别很大
2. 平衡各特征的贡献:距离、协方差,是因为要使各特征贡献一致所以使用标准化
3. 加快梯度下降求最优解的速度
方法:
1.min-max标准化:
比较适用在数值比较集中的情况
不涉及距离度量、协方差计算、数据不符合正太分布的时候
2. z-score标准化:
在分类、聚类,算法中需要使用距离来度量相似性的时候
使用PCA(协方差分析)技术进行降维的时候
3. 非线性归一化:
在数据分化比较大的场景,有些数值很大
log、指数,正切
适用场景:
1.分类:KNN
2.计算距离:聚类,K-means
3. 梯度优化来获得最优解: 支持向量机(SVM),
逻辑回归(logistic regression)
感知器(perception)
神经网络(neural networks )
4.协方差:主成分分析(principal component analysis)
线性判别回归(linear discriminant analysis)
核主成分分析kernel principal component analysis
posted on 2018-11-15 15:08 happygril3 阅读(191) 评论(0) 收藏 举报
浙公网安备 33010602011771号