随笔分类 -  2.1--SparkML

摘要:给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代价通常很高。第二步之后,可以从FP树中提取频繁项集。 阅读全文
posted @ 2017-08-10 16:05 智能先行者 阅读(1442) 评论(0) 推荐(0)
摘要:RowMatrix行矩阵 CoordinateMatrix坐标矩阵 阅读全文
posted @ 2017-05-06 08:53 智能先行者 阅读(2917) 评论(0) 推荐(0)
摘要:梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。 导入包 导入数据源 GBT建模 代码执行结果 阅读全文
posted @ 2017-01-04 13:17 智能先行者 阅读(2756) 评论(0) 推荐(0)
摘要:多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。 对于具有K + 1层的MLPC,这可以以矩阵 阅读全文
posted @ 2016-12-27 15:21 智能先行者 阅读(6105) 评论(1) 推荐(0)
摘要:导入包 导入源数据 逻辑回归建模 代码执行结果 阅读全文
posted @ 2016-12-27 09:23 智能先行者 阅读(11658) 评论(6) 推荐(2)
摘要:随机森林是决策树的集合。 随机森林结合许多决策树,以减少过度拟合的风险。 spark.ml实现支持随机森林,使用连续和分类特征,做二分类和多分类以及回归。 导入包 导入源数据 随机森林建模 代码执行结果 随机森林模型调优 阅读全文
posted @ 2016-12-26 15:02 智能先行者 阅读(2108) 评论(0) 推荐(0)
摘要:LogisticRegression简介 阅读全文
posted @ 2016-12-23 15:20 智能先行者 阅读(947) 评论(1) 推荐(0)
摘要:一个简单的Pipeline,用作estimator。Pipeline由有序列的stages组成,每个stage是一个Estimator或者一个Transformer。 当Pipeline调用fit,stages按顺序被执行。如果一个stage是一个Estimator,将调用Estimator的fit 阅读全文
posted @ 2016-12-22 21:37 智能先行者 阅读(1708) 评论(0) 推荐(1)
摘要:Model selection模型选择 ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipelin 阅读全文
posted @ 2016-12-22 10:39 智能先行者 阅读(775) 评论(0) 推荐(0)
摘要:Weibull distribution 或者 σ是未知的scale参数,独立于X的常量, σ>0 是服从某一分布的随机变量 残差(residuals)= 阅读全文
posted @ 2016-12-14 22:28 智能先行者 阅读(3992) 评论(0) 推荐(0)
摘要:在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF 阅读全文
posted @ 2016-12-09 17:13 智能先行者 阅读(2634) 评论(0) 推荐(0)
摘要:所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 2.加载数据源 3.创建决策树模型 4.代码执行结果 阅读全文
posted @ 2016-11-29 16:14 智能先行者 阅读(3244) 评论(1) 推荐(0)
摘要:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等 阅读全文
posted @ 2016-11-03 21:23 智能先行者 阅读(7025) 评论(0) 推荐(0)
摘要:Spark2,oneHot编码,标准化,主成分,聚类 阅读全文
posted @ 2016-11-03 20:59 智能先行者 阅读(5224) 评论(3) 推荐(0)