摘要: apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。 阅读全文
posted @ 2017-07-28 18:58 全能程序猿 阅读(598) 评论(0) 推荐(0) 编辑
摘要: Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。 阅读全文
posted @ 2017-07-28 18:58 全能程序猿 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。 阅读全文
posted @ 2017-07-28 18:57 全能程序猿 阅读(369) 评论(0) 推荐(0) 编辑
摘要: Hbase单机安装部署 阅读全文
posted @ 2017-07-28 10:48 全能程序猿 阅读(3758) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-27 19:23 全能程序猿 阅读(694) 评论(1) 推荐(0) 编辑
摘要: 我们生活在“大数据”的时代,其中以各种类型的数据以前所未有的速度生成数据,而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据,社交媒体内容(例如文本,图像,音频和视频)以及来自仪器化设备的传感器馈送。 阅读全文
posted @ 2017-07-27 19:22 全能程序猿 阅读(200) 评论(0) 推荐(0) 编辑
摘要: Apache Spark是一个开放源码,Hadoop兼容,快速,富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的,作为伯克利数据分析平台(BDAS)的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。 阅读全文
posted @ 2017-07-27 19:21 全能程序猿 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 更多文章:[http://blogxinxiucan.sh1.newtouch.com/2017/07/26/zookeeper单机模式安装/](http://blogxinxiucan.sh1.newtouch.com/2017/07/26/zookeeper单机模式安装) 阅读全文
posted @ 2017-07-27 16:38 全能程序猿 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka起源于LinkedIn,后来成为2011年的开源Apache项目,然后在2012年成为Apache的一流项目。Kafka以Scala和Java编写>。Apache Kafka是基于发布订阅的容错消息系统。它是快速,可扩展和分布的设计。 阅读全文
posted @ 2017-07-26 20:32 全能程序猿 阅读(1324) 评论(0) 推荐(0) 编辑