随笔分类 -  BI—Spark

摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障恢复的能力。本文谈及Spark Streaming容错的改进和零数据丢失的实现。【编者按】本文来自SparkStreaming项目带头... 阅读全文
posted @ 2015-07-15 12:16 TonyChai 阅读(308) 评论(0) 推荐(0)
摘要:1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分... 阅读全文
posted @ 2015-07-15 11:01 TonyChai 阅读(542) 评论(0) 推荐(0)
摘要:Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,较Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中。学习Spark就需要了解其架构及运行机制。Spa... 阅读全文
posted @ 2015-07-14 18:24 TonyChai 阅读(408) 评论(0) 推荐(0)