摘要:        
1、概念 z−score规范化,又叫零均值规范化 将某个特征向量(由所有样本某一个特征组成的向量)进行标准化,使数据均值为0,方差为1。Spark中可以选择是带或者不带均值和方差。StandardScaler转换Vector行的数据集,将每个要素归一化以具有单位标准差(和/或)零均值。它带有参数:     阅读全文
posted @ 2020-01-16 16:52
我是属车的
阅读(2032)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1、概念 将某个特征向量(由所有样本某一个特征组成的向量)计算其p-范数,然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数(L1):║x║1=│x1│+│x2│+…+│xn│ 2-范数(L    阅读全文
posted @ 2020-01-16 15:42
我是属车的
阅读(1122)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1、概念 Interaction是一个Transformer。它使用向量或double列,并生成单个向量列,其中包含每个输入列的一个值的所有组合的乘积。例如,如果您有两个向量类型列,每个列有3个维度作为输入列,那么您将获得一个9维向量作为输出列。 2、code package com.home.sp    阅读全文
posted @ 2020-01-16 14:16
我是属车的
阅读(581)
评论(0)
推荐(0)
        
            
        
        
摘要:        
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.DCT import org.apache.spark.ml.linalg.Vectors import or    阅读全文
posted @ 2020-01-16 11:13
我是属车的
阅读(432)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1、概念 特征升维 2、code package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.PolynomialExpansion import org.apache.    阅读全文
posted @ 2020-01-16 10:24
我是属车的
阅读(514)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号