全能程序猿 - 博客园

2017年7月28日

5.spark弹性分布式数据集

摘要：

apache spark的核心概念是弹性分布式数据集（RDD）。它是一个不可变的分布式数据集合，它在集群中的机器之间进行分区。它有助于两种类型的操作：转换和动作。转换是在RDD上产生另一个RDD的操作，如filter（），map（）或union（）。触发计算的Anactionisanoperationsuchascount（），first（），take（n）或collect（）返回一个值返回给Master，或写入稳定的存储系统。转型被懒惰地评估，因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换，所以如果一个分区丢失（比如从机失效），该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。阅读全文

posted @ 2017-07-28 18:58 全能程序猿阅读(622) 评论(0) 推荐(0)

摘要：

Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。阅读全文

posted @ 2017-07-28 18:58 全能程序猿阅读(262) 评论(0) 推荐(0)

4.Apache Spark的工作原理

摘要：

Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。阅读全文

posted @ 2017-07-28 18:57 全能程序猿阅读(398) 评论(0) 推荐(0)

Hbase单机安装部署

摘要：

Hbase单机安装部署阅读全文

posted @ 2017-07-28 10:48 全能程序猿阅读(3776) 评论(0) 推荐(0)

2017年7月27日

3.如何安装Apache Spark

摘要：

posted @ 2017-07-27 19:23 全能程序猿阅读(1036) 评论(1) 推荐(0)

1.Why Apache Spark?

摘要：

我们生活在“大数据”的时代，其中以各种类型的数据以前所未有的速度生成数据，而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据，社交媒体内容（例如文本，图像，音频和视频）以及来自仪器化设备的传感器馈送。阅读全文

posted @ 2017-07-27 19:22 全能程序猿阅读(225) 评论(0) 推荐(0)

2.关于Apache Spark

摘要：

Apache Spark是一个开放源码，Hadoop兼容，快速，富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的，作为伯克利数据分析平台（BDAS）的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。阅读全文

posted @ 2017-07-27 19:21 全能程序猿阅读(278) 评论(0) 推荐(0)

zookeeper单机模式安装

摘要：

更多文章：[http://blogxinxiucan.sh1.newtouch.com/2017/07/26/zookeeper单机模式安装/](http://blogxinxiucan.sh1.newtouch.com/2017/07/26/zookeeper单机模式安装) 阅读全文

posted @ 2017-07-27 16:38 全能程序猿阅读(1041) 评论(0) 推荐(0)

2017年7月26日

Apache Kafka - 介绍

摘要：

Apache Kafka起源于LinkedIn，后来成为2011年的开源Apache项目，然后在2012年成为Apache的一流项目。Kafka以Scala和Java编写>。Apache Kafka是基于发布订阅的容错消息系统。它是快速，可扩展和分布的设计。阅读全文

posted @ 2017-07-26 20:32 全能程序猿阅读(1374) 评论(0) 推荐(0)