上一页 1 2 3 4 5 6 7 8 ··· 22 下一页
摘要: http://www.cnblogs.com/taiyonghai/p/6728707.html 阅读全文
posted @ 2017-10-18 15:30 Mr.Ming2 阅读(117) 评论(0) 推荐(0) 编辑
摘要: Design Patterns for using foreachRDD dstream.foreachRDD是一个强大的原语,允许将数据发送到外部系统。然而,了解如何正确有效地使用该原语很重要。避免一些常见的错误如下。 通常向外部系统写入数据需要创建一个连接对象(例如与远程服务器的TCP连接),并 阅读全文
posted @ 2017-10-10 16:06 Mr.Ming2 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 作者从容错、性能等方面优化了长时间运行在yarn上的spark-Streaming作业 对于长时间运行的Spark Streaming作业,一旦提交到YARN群集便需要永久运行,直到有意停止。任何中断都会引起严重的处理延迟,并可能导致数据丢失或重复。YARN和Apache Spark都不是为了执行长 阅读全文
posted @ 2017-09-30 15:02 Mr.Ming2 阅读(5539) 评论(0) 推荐(2) 编辑
摘要: 生产者 消费者 查询topic的offset offset最小值 offset最大值 可以查询出offset的范围 阅读全文
posted @ 2017-09-30 10:59 Mr.Ming2 阅读(341) 评论(0) 推荐(0) 编辑
摘要: Kafka消息发布客户端。 线程安全,跨线程共享单个生产者实例通常比拥有多个实例的速度更快。 例子,使用生产者发送包含序列号的字符串作为键/值对的记录: 阅读全文
posted @ 2017-09-26 18:03 Mr.Ming2 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1,Application application(应用)其实就是用spark-submit提交的程序。比方说spark examples中的计算pi的SparkPi。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和ac 阅读全文
posted @ 2017-09-25 16:10 Mr.Ming2 阅读(334) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 近实时数据处理 Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Soc 阅读全文
posted @ 2017-09-20 10:40 Mr.Ming2 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数 阅读全文
posted @ 2017-09-15 17:31 Mr.Ming2 阅读(5314) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/1130136248wlxk/articles/6289717.html 阅读全文
posted @ 2017-09-14 16:45 Mr.Ming2 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 基于Receivers的方法 这个方法使用了Receivers来接收数据。Receivers的实现使用到Kafka高层次的消费者API。对于所有的Receivers,接收到的数据将会保存在Spark executors中,然后由Spark Streaming启动的Job来处理这些数据。 然而,在默认 阅读全文
posted @ 2017-09-14 14:26 Mr.Ming2 阅读(313) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 22 下一页