我是属车的

2020年1月18日

摘要： 1、概念 Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。当前，Imputer不支持分类特征，并且可能为包含分类特征的列创建不正确的值。 Imputer可以通过.setMissingValue（custom_value）阅读全文

posted @ 2020-01-18 14:07 我是属车的阅读(801) 评论(0) 推荐(0)

Spark VectorSizeHint

摘要： 1、概念一种特性转换器，可将尺寸信息添加到矢量列的元数据中。 VectorAssembler需要为其输入列提供大小信息，并且在没有此元数据的情况下不能在流数据帧上使用。注意：VectorSizeHint修改`inputCol`以包括大小元数据，并且没有outputCol。 2、code packa 阅读全文

posted @ 2020-01-18 10:18 我是属车的阅读(705) 评论(0) 推荐(0)

2020年1月17日

Spark VectorAssembler 向量装配转换器

摘要： package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.linalg.Vecto 阅读全文

posted @ 2020-01-17 17:11 我是属车的阅读(1220) 评论(0) 推荐(0)

Spark SQLTransformer SQL转换

摘要： package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.SQLTransformer import org.apache.spark.sql.SparkSession 阅读全文

posted @ 2020-01-17 16:58 我是属车的阅读(942) 评论(0) 推荐(0)

Spark ElementwiseProduct 乘积转换

摘要： 1、概念 ElementwiseProduct使用逐元素乘法将每个输入向量乘以提供的“权重”向量。换句话说，它通过标量乘法器缩放数据集的每一列。这表示输入向量v和变换向量w之间的Hadamard乘积，以产生结果向量。 2、code package com.home.spark.ml import o 阅读全文

posted @ 2020-01-17 16:22 我是属车的阅读(820) 评论(0) 推荐(0)

Spark QuantileDiscretizer 分位数离散器

摘要： 1、概念接收具有连续特征的列，并输出具有合并分类特征的列。按分位数，对给出的数据列进行离散化分箱处理。和Bucketizer（分箱处理）一样也是：将连续数值特征转换为离散类别特征。实际上Class QuantileDiscretizer extends Bucketizer 参数1：不同的是这里阅读全文

posted @ 2020-01-17 15:35 我是属车的阅读(4841) 评论(0) 推荐(0)

Spark Bucketizer 特征离散化、桶化

摘要： 1、概念将连续数值转换为离散类别特征。比如需求把人分为50以上和50以下太不精准了，应该分为20岁以下，20-30岁，30-40岁，36-50岁，50以上，那么就得用到数值离散化的处理方法了。离散化就是把特征进行适当的离散处理，比如上面所说的年龄是个连续的特征，但是我把它分为不同的年龄阶段就是把阅读全文

posted @ 2020-01-17 14:23 我是属车的阅读(1949) 评论(0) 推荐(0)

Spark Binarizer 连续型数据处理之二值化

摘要： 1、概念假设有个需求，我得根据年龄来进行物品推荐，把50以上的人分为老年，50以下分为非老年人，那么我们根据二值化可以很简单的把50以上的定为1，50以下的定为0。这样就方便我们后续的推荐了。Binarizer就是根据阈值进行二值化,大于阈值的为1.0,小于等于阈值的为0.0 2、code pac 阅读全文

posted @ 2020-01-17 11:29 我是属车的阅读(370) 评论(0) 推荐(0)

Spark MaxAbsScaler 绝对值最大标准化

摘要： package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors 阅读全文

posted @ 2020-01-17 11:18 我是属车的阅读(1114) 评论(0) 推荐(0)

2020年1月16日

Spark MinMaxScaler 归一化之最小最大值标准化

摘要： 1、概述 MinMaxScaler转换Vector行的数据集，将每个要素重新缩放到特定范围（通常为[0，1]）。它带有参数：最小值：默认为0.0。转换后的下限，由所有功能共享。最大值：默认为1.0。转换后的上限，由所有功能共享。 MinMaxScaler计算数据集的摘要统计信息并生成MinMax 阅读全文

posted @ 2020-01-16 17:25 我是属车的阅读(3150) 评论(0) 推荐(0)

公告