上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 23 下一页
摘要: 1、概念 z−score规范化,又叫零均值规范化 将某个特征向量(由所有样本某一个特征组成的向量)进行标准化,使数据均值为0,方差为1。Spark中可以选择是带或者不带均值和方差。StandardScaler转换Vector行的数据集,将每个要素归一化以具有单位标准差(和/或)零均值。它带有参数: 阅读全文
posted @ 2020-01-16 16:52 我是属车的 阅读(1891) 评论(0) 推荐(0) 编辑
摘要: 1、概念 将某个特征向量(由所有样本某一个特征组成的向量)计算其p-范数,然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数(L1):║x║1=│x1│+│x2│+…+│xn│ 2-范数(L 阅读全文
posted @ 2020-01-16 15:42 我是属车的 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: 1、概念 Interaction是一个Transformer。它使用向量或double列,并生成单个向量列,其中包含每个输入列的一个值的所有组合的乘积。例如,如果您有两个向量类型列,每个列有3个维度作为输入列,那么您将获得一个9维向量作为输出列。 2、code package com.home.sp 阅读全文
posted @ 2020-01-16 14:16 我是属车的 阅读(555) 评论(0) 推荐(0) 编辑
摘要: package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.DCT import org.apache.spark.ml.linalg.Vectors import or 阅读全文
posted @ 2020-01-16 11:13 我是属车的 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 1、概念 特征升维 2、code package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.PolynomialExpansion import org.apache. 阅读全文
posted @ 2020-01-16 10:24 我是属车的 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 1、概念 主成分分析(PCA) 特征抽取通常用于提高计算效率,降低维度灾难。 主成分分析(PCA)是一种用于探索高维数据结构的技术。PCA可以把具有相关性的高维变量合成线性无关的低维变量。新的低维数据集尽可能保留原始数据的变量。 当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球 阅读全文
posted @ 2020-01-15 17:05 我是属车的 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 1、概念 n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n 的字节片段序列。 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间, 阅读全文
posted @ 2020-01-15 15:25 我是属车的 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 1、概念 独热编码(One-Hot Encoding) * 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。 * 此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。 * 对于字符串类型的输入数据,通常首先使用StringI 阅读全文
posted @ 2020-01-14 15:21 我是属车的 阅读(3342) 评论(0) 推荐(0) 编辑
摘要: 1、概念 逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中,可以使用二项逻辑回归来预测二元结果,或者可以使用多项逻辑回归来预测多类结果。使用该family参数在这两种算法之间选择,或者保持不设置(缺省auto),Spark将推断出正确的变量。 通 阅读全文
posted @ 2020-01-10 16:52 我是属车的 阅读(3617) 评论(0) 推荐(0) 编辑
摘要: 1、StringIndexer 标签索引器,它将标签的字符串列映射到标签索引的ML列。 如果输入列为数字,则将其强制转换为字符串并为字符串值编制索引。 索引在[0,numLabels)中。 索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号 默认情况下,按标签频率排序, 阅读全文
posted @ 2020-01-10 11:30 我是属车的 阅读(1084) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 23 下一页