摘要: 实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障恢复的能力。本文谈及Spark Streaming容错的改进和零数据丢失的实现。【编者按】本文来自SparkStreaming项目带头... 阅读全文
posted @ 2015-07-15 12:16 TonyChai 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分... 阅读全文
posted @ 2015-07-15 11:01 TonyChai 阅读(523) 评论(0) 推荐(0) 编辑
摘要: Apache Curator入门实战Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。1.Zookeeper安装部署Zookeeper的部署很简单,如果已经有Java运... 阅读全文
posted @ 2015-07-15 10:55 TonyChai 阅读(413) 评论(0) 推荐(0) 编辑