2.1--SparkML - 随笔分类 - 智能先行者

Spark FPGrowth (Frequent Pattern Mining)

摘要：给定交易数据集，FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同，FP增长的第二步使用后缀树（FP-tree）结构来编码事务，而不会显式生成候选集，生成的代价通常很高。第二步之后，可以从FP树中提取频繁项集。阅读全文

posted @ 2017-08-10 16:05 智能先行者阅读(1447) 评论(0) 推荐(0)

Spark Distributed matrix 分布式矩阵

摘要：RowMatrix行矩阵 CoordinateMatrix坐标矩阵阅读全文

posted @ 2017-05-06 08:53 智能先行者阅读(2922) 评论(0) 推荐(0)

Spark Gradient-boosted trees (GBTs)梯度提升树

摘要：梯度提升树（GBT）是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归，可以使用连续和分类特征。导入包导入数据源 GBT建模代码执行结果阅读全文

posted @ 2017-01-04 13:17 智能先行者阅读(2761) 评论(0) 推荐(0)

Spark Multilayer perceptron classifier (MLPC)多层感知器分类器

摘要：多层感知器分类器（MLPC）是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。每个层完全连接到网络中的下一层。输入层中的节点表示输入数据。所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。对于具有K + 1层的MLPC，这可以以矩阵阅读全文

posted @ 2016-12-27 15:21 智能先行者阅读(6116) 评论(1) 推荐(0)

Spark LogisticRegression 逻辑回归之建模

摘要：导入包导入源数据逻辑回归建模代码执行结果阅读全文

posted @ 2016-12-27 09:23 智能先行者阅读(11662) 评论(6) 推荐(2)

Spark2 Random Forests 随机森林

摘要：随机森林是决策树的集合。随机森林结合许多决策树，以减少过度拟合的风险。 spark.ml实现支持随机森林，使用连续和分类特征，做二分类和多分类以及回归。导入包导入源数据随机森林建模代码执行结果随机森林模型调优阅读全文

posted @ 2016-12-26 15:02 智能先行者阅读(2110) 评论(0) 推荐(0)

Spark LogisticRegression 逻辑回归之简介

摘要：LogisticRegression简介阅读全文

posted @ 2016-12-23 15:20 智能先行者阅读(948) 评论(1) 推荐(0)

Spark Pipeline

摘要：一个简单的Pipeline，用作estimator。Pipeline由有序列的stages组成，每个stage是一个Estimator或者一个Transformer。当Pipeline调用fit，stages按顺序被执行。如果一个stage是一个Estimator，将调用Estimator的fit 阅读全文

posted @ 2016-12-22 21:37 智能先行者阅读(1710) 评论(0) 推荐(1)

Spark2 Model selection and tuning 模型选择与调优

摘要：Model selection模型选择 ML中的一个重要任务是模型选择，或使用数据为给定任务找到最佳的模型或参数。这也称为调优。可以对诸如Logistic回归的单独Estimators进行调整，或者对包括多个算法，特征和其他步骤的整个Pipeline进行调整。用户可以一次调整整个Pipelin 阅读全文

posted @ 2016-12-22 10:39 智能先行者阅读(780) 评论(0) 推荐(0)

Accelerated Failure Time Models加速失效时间模型AFT

摘要：Weibull distribution 或者 σ是未知的scale参数，独立于X的常量， σ>0 是服从某一分布的随机变量残差(residuals)= 阅读全文

posted @ 2016-12-14 22:28 智能先行者阅读(4000) 评论(0) 推荐(0)

Spark2 生存分析Survival regression

摘要：在spark.ml中，实现了加速失效时间（AFT）模型，这是一个用于检查数据的参数生存回归模型。它描述了生存时间对数的模型，因此它通常被称为生存分析的对数线性模型。不同于为相同目的设计的比例风险模型，AFT模型更容易并行化，因为每个实例独立地贡献于目标函数。当在具有常量非零列的数据集上匹配AF 阅读全文

posted @ 2016-12-09 17:13 智能先行者阅读(2639) 评论(0) 推荐(0)

Spark2 ML包之决策树分类Decision tree classifier详细解说

摘要：所用数据源，请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果阅读全文

posted @ 2016-11-29 16:14 智能先行者阅读(3247) 评论(1) 推荐(0)

Spark2 Linear Regression线性回归

摘要：回归正则化方法（Lasso，Ridge和ElasticNet）在高维和数据集变量之间多重共线性情况下运行良好。数学上，ElasticNet被定义为L1和L2正则化项的凸组合：通过适当设置α，ElasticNet包含L1和L2正则化作为特殊情况。例如，如果用参数α设置为1来训练线性回归模型，则其等阅读全文

posted @ 2016-11-03 21:23 智能先行者阅读(7028) 评论(0) 推荐(0)

Spark2 oneHot编码--标准化--主成分--聚类

摘要：Spark2，oneHot编码，标准化，主成分，聚类阅读全文

posted @ 2016-11-03 20:59 智能先行者阅读(5230) 评论(3) 推荐(0)

智能先行者

随笔分类 - 2.1--SparkML

公告