随笔分类 -  Spark

摘要:1、什么是Spark? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MadReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以... 阅读全文
posted @ 2015-01-05 17:11 sunbylm 阅读(1678) 评论(0) 推荐(0)
摘要:首先,Spark是MapReduce-like(架构上和多数分布式计算框架类似),Spark有分配任务的主节点(Driver)和执行计算的工作节点(Worker)。 其次,Low-latency基本上应该是源于Worker进程较长的生命周期,可以在一个Job过程中长驻内存执行 阅读全文
posted @ 2015-01-04 15:27 sunbylm 阅读(144) 评论(0) 推荐(0)