2016 年 7月 8 日随笔档案 - Adien

2016年7月8日

摘要：弹性分布式数据集（RDD） Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD有两个方法：在你的驱动程序中并行化一个已经存在的集合；从外部存储系统中引用一个数据集。RDD的一大特性是分布式存储，分布式存储在最大的好处是可以让数据在不同工作节点并行存储，阅读全文

posted @ 2016-07-08 20:15 Adien 阅读(36542) 评论(1) 推荐(1)

Linux下Spark框架配置（Python）

摘要：简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据阅读全文

posted @ 2016-07-08 20:13 Adien 阅读(12876) 评论(0) 推荐(0)

利用Spark-mllab进行聚类，分类，回归分析的代码实现(python)

摘要： Spark作为一种开源集群计算环境，具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是，Spark中，所有数据的处理都是基于RDD的。首先举一个聚类方面的详细应用例子Kmeans：下面代码是一些基阅读全文

posted @ 2016-07-08 20:12 Adien 阅读(9080) 评论(2) 推荐(1)

Adien

公告