摘要:
http://www.cnblogs.com/taiyonghai/p/6728707.html 阅读全文
摘要:
Design Patterns for using foreachRDD dstream.foreachRDD是一个强大的原语,允许将数据发送到外部系统。然而,了解如何正确有效地使用该原语很重要。避免一些常见的错误如下。 通常向外部系统写入数据需要创建一个连接对象(例如与远程服务器的TCP连接),并 阅读全文
摘要:
作者从容错、性能等方面优化了长时间运行在yarn上的spark-Streaming作业 对于长时间运行的Spark Streaming作业,一旦提交到YARN群集便需要永久运行,直到有意停止。任何中断都会引起严重的处理延迟,并可能导致数据丢失或重复。YARN和Apache Spark都不是为了执行长 阅读全文
摘要:
生产者 消费者 查询topic的offset offset最小值 offset最大值 可以查询出offset的范围 阅读全文
摘要:
Kafka消息发布客户端。 线程安全,跨线程共享单个生产者实例通常比拥有多个实例的速度更快。 例子,使用生产者发送包含序列号的字符串作为键/值对的记录: 阅读全文
摘要:
1,Application application(应用)其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和ac 阅读全文
摘要:
Spark Streaming 近实时数据处理 Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Soc 阅读全文
摘要:
介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数 阅读全文