摘要:
apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。 阅读全文
apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。 阅读全文
posted @ 2017-07-28 18:58
全能程序猿
阅读(622)
评论(0)
推荐(0)
摘要:
Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。 阅读全文
Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。 阅读全文
posted @ 2017-07-28 18:58
全能程序猿
阅读(262)
评论(0)
推荐(0)
摘要:
Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。 阅读全文
Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。 阅读全文
posted @ 2017-07-28 18:57
全能程序猿
阅读(398)
评论(0)
推荐(0)
摘要:
Hbase单机安装部署 阅读全文
Hbase单机安装部署 阅读全文
posted @ 2017-07-28 10:48
全能程序猿
阅读(3776)
评论(0)
推荐(0)

Apache Kafka起源于LinkedIn,后来成为2011年的开源Apache项目,然后在2012年成为Apache的一流项目。Kafka以Scala和Java编写>。Apache Kafka是基于发布订阅的容错消息系统。它是快速,可扩展和分布的设计。
浙公网安备 33010602011771号