随笔分类 -  Cloud Computing

大数据以及云计算相关知识
摘要:Spark依赖于一个很特别的数据抽象,叫做弹性分布式数据集(resilient distributed datasets),也就是RDD,它是一个被集群分区(partitioned)的in-memory read-only对象。每一个RDD都是根据range(partitioning of cons 阅读全文
posted @ 2016-02-26 16:24 可普CS之家 阅读(579) 评论(0) 推荐(0)
摘要:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与 阅读全文
posted @ 2016-02-25 15:59 可普CS之家 阅读(242) 评论(0) 推荐(0)