摘要:
Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51
yuerspring
阅读(140)
评论(0)
推荐(0)
摘要:
Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51
yuerspring
阅读(100)
评论(0)
推荐(0)
摘要:
Kafka 是一个分布式的,高吞吐量,易于扩展地基于主题发布/订阅的消息系统,最早是由 Linkedin 开发,并于 2011 年开源并贡献给 Apache 软件基金会。一般来说,Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐... 阅读全文
posted @ 2016-10-10 12:49
yuerspring
阅读(122)
评论(0)
推荐(0)
摘要:
Spark 应用程序在提交执行后,控制台会打印很多日志信息,这些信息看起来是杂乱无章的,但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的,这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念... 阅读全文
posted @ 2016-10-10 12:39
yuerspring
阅读(381)
评论(0)
推荐(0)
摘要:
SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkCont... 阅读全文
posted @ 2016-10-10 12:38
yuerspring
阅读(283)
评论(0)
推荐(0)