摘要: 概述 分类决策树模型是一种描述对实例进行分类的树形结构。 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 。决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。 生成决策树一般包含三个步骤: 特征选择 决策树生成 剪枝 分类决策树模型是一种描述对实例进行分类的树形 阅读全文
posted @ 2018-01-18 20:30 大葱拌豆腐 阅读(4671) 评论(1) 推荐(0)
摘要: PCA在Spark2.0中用法比较简单,只需要设置: 注意:PCA前一定要对特征向量进行规范化(标准化)!!! 如何选择k值? 大约选择20个主成分就足够了 随便做一个图可以选择了(详细可参考Scikit-learn例子) http://scikit-learn.org/stable/auto_ex 阅读全文
posted @ 2018-01-18 17:20 大葱拌豆腐 阅读(988) 评论(0) 推荐(0)
摘要: Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 阅读全文
posted @ 2018-01-18 14:36 大葱拌豆腐 阅读(667) 评论(0) 推荐(0)
摘要: 在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM 阅读全文
posted @ 2018-01-18 12:49 大葱拌豆腐 阅读(2135) 评论(0) 推荐(0)