摘要:
reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的,在字数统计中,可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢?reduce处理数据时有着一对一的特性,而reduceByKey则有着多对一的 阅读全文
posted @ 2020-01-12 00:16
阿布_alone
阅读(12068)
评论(0)
推荐(1)
摘要:
spark的RDD操作 在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue。那么这一节将介绍更多常用的RDD操作,并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat 阅读全文
posted @ 2020-01-12 00:15
阿布_alone
阅读(8330)
评论(0)
推荐(1)
摘要:
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著《GoneWithTheWind》(《飘》)的文本来做一个数据统计,看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。 阅读全文
posted @ 2020-01-12 00:00
阿布_alone
阅读(4488)
评论(0)
推荐(0)