06 2016 档案

摘要:首先简单解释一下什么是state(状态)管理?我们以wordcount为例。每个batchInterval会计算当前batch的单词计数,那如果需要计算从流开始到目前为止的单词出现的次数,该如计算呢?SparkStreaming提供了两种方法:updateStateByKey和mapWithState 。mapWithState 是1.6版本新增功能,目前属于实验阶段。mapWithSta... 阅读全文

posted @ 2016-06-03 14:34 听风居士 阅读(2759) 评论(1) 推荐(0)

摘要:在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读,但是现在开发Spark Streaming的应用越来越多的采用No Receivers(Direct Approach)的方式,No Receiver的方式的优势: 1. 更强的控制自由度 2. 语义一致性 其实No Receivers的方式更符合我们读取数据,操作数据的思路的。因为Spark 本身是一个计算... 阅读全文

posted @ 2016-06-02 23:20 听风居士 阅读(804) 评论(0) 推荐(0)

导航