上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 45 下一页
摘要: MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T 阅读全文
posted @ 2018-01-19 11:24 大葱拌豆腐 阅读(202) 评论(0) 推荐(0)
摘要: 参数设置 α: 梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用,给出Python版的函数计算过程。 λ: λ,正则化参数(泛化能力),加正则化的前 阅读全文
posted @ 2018-01-19 10:55 大葱拌豆腐 阅读(1331) 评论(0) 推荐(0)
摘要: 概述 分类决策树模型是一种描述对实例进行分类的树形结构。 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 。决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。 生成决策树一般包含三个步骤: 特征选择 决策树生成 剪枝 分类决策树模型是一种描述对实例进行分类的树形 阅读全文
posted @ 2018-01-18 20:30 大葱拌豆腐 阅读(4671) 评论(1) 推荐(0)
摘要: PCA在Spark2.0中用法比较简单,只需要设置: 注意:PCA前一定要对特征向量进行规范化(标准化)!!! 如何选择k值? 大约选择20个主成分就足够了 随便做一个图可以选择了(详细可参考Scikit-learn例子) http://scikit-learn.org/stable/auto_ex 阅读全文
posted @ 2018-01-18 17:20 大葱拌豆腐 阅读(988) 评论(0) 推荐(0)
摘要: Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 阅读全文
posted @ 2018-01-18 14:36 大葱拌豆腐 阅读(667) 评论(0) 推荐(0)
摘要: 在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM 阅读全文
posted @ 2018-01-18 12:49 大葱拌豆腐 阅读(2135) 评论(0) 推荐(0)
摘要: 一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负责整个集群中包括内存、CPU等资源的管理;ApplicationMaster负责应用程序 阅读全文
posted @ 2018-01-09 09:34 大葱拌豆腐 阅读(330) 评论(0) 推荐(0)
摘要: 转载自:https://www.cnblogs.com/Scott007/p/3893318.html 1 概述 为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机? 如果一个对象,其构成为若干个状态,以及触发这些状态发生相互 阅读全文
posted @ 2018-01-08 19:20 大葱拌豆腐 阅读(440) 评论(0) 推荐(0)
摘要: Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在代码实现的级别管理好每一个处理步骤之间的先后运行关系,极大地简化了开发机器学习应用的难度。 Spar 阅读全文
posted @ 2018-01-07 23:05 大葱拌豆腐 阅读(870) 评论(0) 推荐(0)
摘要: 使用机器学习的方法可以解决越来越多的实际问题,它在现实世界中的应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。 机器学习分类 我们都知道,机器学习可以分为三大类:监督学习(Supervised Learning)、无监督学习(Unsupervised Lear 阅读全文
posted @ 2018-01-07 22:58 大葱拌豆腐 阅读(1943) 评论(0) 推荐(1)
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 45 下一页