摘要: 一.简述 Spark是当下非常流行的数据分析框架,而其中的机器学习包Mllib也是其诸多亮点之一,相信很多人也像我那样想要快些上手spark。下面我将列出实现mllib分类的简明代码,代码中将简述训练集和样本集的结构,以及各分类算法的参数含义。分类模型包括朴素贝叶斯,SVM,决策树以及随机森林。 二 阅读全文
posted @ 2016-09-29 21:59 Adien 阅读(15112) 评论(1) 推荐(1) 编辑
摘要: jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 a 阅读全文
posted @ 2016-07-15 16:26 Adien 阅读(33051) 评论(1) 推荐(0) 编辑
摘要: 弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合;从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储,分布式存储在最大的好处是可以让数据在不同工作节点并行存储, 阅读全文
posted @ 2016-07-08 20:15 Adien 阅读(36426) 评论(1) 推荐(1) 编辑
摘要: 简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据 阅读全文
posted @ 2016-07-08 20:13 Adien 阅读(12807) 评论(0) 推荐(0) 编辑
摘要: Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 阅读全文
posted @ 2016-07-08 20:12 Adien 阅读(8872) 评论(2) 推荐(1) 编辑