随笔分类 - Cloud Computing

大数据以及云计算相关知识

摘要：Spark依赖于一个很特别的数据抽象，叫做弹性分布式数据集（resilient distributed datasets），也就是RDD，它是一个被集群分区（partitioned）的in-memory read-only对象。每一个RDD都是根据range（partitioning of cons 阅读全文

posted @ 2016-02-26 16:24 可普CS之家阅读(580) 评论(0) 推荐(0)

浅谈Spark(1) - Overview

摘要：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与阅读全文

posted @ 2016-02-25 15:59 可普CS之家阅读(245) 评论(0) 推荐(0)

可普CS之家

随笔分类 - Cloud Computing

公告