Adien

2016年9月29日

摘要：一.简述 Spark是当下非常流行的数据分析框架，而其中的机器学习包Ｍllib也是其诸多亮点之一，相信很多人也像我那样想要快些上手spark。下面我将列出实现mllib分类的简明代码，代码中将简述训练集和样本集的结构，以及各分类算法的参数含义。分类模型包括朴素贝叶斯，ＳＶＭ，决策树以及随机森林。二阅读全文

posted @ 2016-09-29 21:59 Adien 阅读(15112) 评论(1) 推荐(1) 编辑

2016年7月15日

中文分词工具jieba中的词性类型

摘要： jieba为自然语言语言中常用工具包，jieba具有对分词的词性进行标注的功能，词性类别如下： Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。 a 形容词取英语形容词 adjective的第1个字母。 ad 副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。 a 阅读全文

posted @ 2016-07-15 16:26 Adien 阅读(33051) 评论(1) 推荐(0) 编辑

2016年7月8日

Spark中RDD的常用操作（Python）

摘要：弹性分布式数据集（RDD） Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法：在你的驱动程序中并行化一个已经存在的集合；从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储，分布式存储在最大的好处是可以让数据在不同工作节点并行存储，阅读全文

posted @ 2016-07-08 20:15 Adien 阅读(36426) 评论(1) 推荐(1) 编辑

Linux下Spark框架配置（Python）

摘要：简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据阅读全文

posted @ 2016-07-08 20:13 Adien 阅读(12807) 评论(0) 推荐(0) 编辑

利用Spark-mllab进行聚类，分类，回归分析的代码实现(python)

摘要： Spark作为一种开源集群计算环境，具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是，Spark中，所有数据的处理都是基于RDD的。首先举一个聚类方面的详细应用例子Kmeans：下面代码是一些基阅读全文

posted @ 2016-07-08 20:12 Adien 阅读(8872) 评论(2) 推荐(1) 编辑

公告