大葱拌豆腐 - 博客园

2018年1月19日

摘要： MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本，特征向量，真实的Lables，和预测值。 T 阅读全文

posted @ 2018-01-19 11:24 大葱拌豆腐阅读(204) 评论(0) 推荐(0)

Spark2.0机器学习系列之4：Logistic回归及Binary分类（二分问题）结果评估

摘要：参数设置 α：梯度上升算法迭代时候权重更新公式中包含 α ： http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用，给出Python版的函数计算过程。 λ: λ，正则化参数（泛化能力），加正则化的前阅读全文

posted @ 2018-01-19 10:55 大葱拌豆腐阅读(1339) 评论(0) 推荐(0)

2018年1月18日

Spark2.0机器学习系列之3：决策树

摘要：概述分类决策树模型是一种描述对实例进行分类的树形结构。决策树可以看为一个if-then规则集合，具有“互斥完备”性质。决策树基本上都是采用的是贪心（即非回溯）的算法，自顶向下递归分治构造。生成决策树一般包含三个步骤：特征选择决策树生成剪枝分类决策树模型是一种描述对实例进行分类的树形阅读全文

posted @ 2018-01-18 20:30 大葱拌豆腐阅读(4676) 评论(1) 推荐(0)

Spark 2.0 PCA主成份分析

摘要： PCA在Spark2.0中用法比较简单，只需要设置：注意：PCA前一定要对特征向量进行规范化（标准化）！！！如何选择k值？大约选择20个主成分就足够了随便做一个图可以选择了（详细可参考Scikit-learn例子） http://scikit-learn.org/stable/auto_ex 阅读全文

posted @ 2018-01-18 17:20 大葱拌豆腐阅读(993) 评论(0) 推荐(0)

Spark2.0机器学习系列之2：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

摘要： Spark中的CrossValidation Spark中采用是k折交叉验证（k-fold cross validation）。举个例子，例如10折交叉验证(10-fold cross validation)，将数据集分成10份，轮流将其中9份做训练1份做验证，10次的结果的均值作为对算法精度的估阅读全文

posted @ 2018-01-18 14:36 大葱拌豆腐阅读(699) 评论(0) 推荐(0)

Spark2.0机器学习系列之1：聚类算法(LDA）

摘要：在Spark2.0版本中（不是基于RDD API的MLlib），共有四种聚类方法：（1）K-means （2）Latent Dirichlet allocation (LDA) （3）Bisecting k-means（二分k均值算法）（4）Gaussian Mixture Model (GMM 阅读全文

posted @ 2018-01-18 12:49 大葱拌豆腐阅读(2142) 评论(0) 推荐(0)

2018年1月9日

Hadoop Yarn调度器的选择和使用

摘要：一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构，其中ResourceManager是整个架构的核心组件，它负责整个集群中包括内存、CPU等资源的管理；ApplicationMaster负责应用程序阅读全文

posted @ 2018-01-09 09:34 大葱拌豆腐阅读(333) 评论(0) 推荐(0)

2018年1月8日

Yarn中的几种状态机

摘要：转载自：https://www.cnblogs.com/Scott007/p/3893318.html 1 概述为了增大并发性，Yarn采用事件驱动的并发模型，将各种处理逻辑抽象成事件和调度器，将事件的处理过程用状态机表示。什么是状态机？如果一个对象，其构成为若干个状态，以及触发这些状态发生相互阅读全文

posted @ 2018-01-08 19:20 大葱拌豆腐阅读(479) 评论(0) 推荐(0)

2018年1月7日

Spark ML Pipeline简介

摘要： Spark ML Pipeline基于DataFrame构建了一套High-level API，我们可以使用MLPipeline构建机器学习应用，它能够将一个机器学习应用的多个处理过程组织起来，通过在代码实现的级别管理好每一个处理步骤之间的先后运行关系，极大地简化了开发机器学习应用的难度。 Spar 阅读全文

posted @ 2018-01-07 23:05 大葱拌豆腐阅读(883) 评论(0) 推荐(0)

机器学习基本过程

摘要：使用机器学习的方法可以解决越来越多的实际问题，它在现实世界中的应用越来越广泛，比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制，等等。机器学习分类我们都知道，机器学习可以分为三大类：监督学习（Supervised Learning）、无监督学习（Unsupervised Lear 阅读全文

posted @ 2018-01-07 22:58 大葱拌豆腐阅读(1952) 评论(0) 推荐(1)

公告