摘要: 1.1避免创建重复RDD 通常指,在开发spark作业中,首先基于某个数据源,(如hive或hdfs文件)创建一个初始RDD,接着对这个RDD进行某个算子操作,然后得到下一个RDD,以此类推,循环往复,直到计算出我们需要的结果;在此过程中多个RDD会通过不同算子操作串起来。这个RDD串 `RDD l 阅读全文
posted @ 2019-06-22 13:56 Sonnyb 阅读(198) 评论(0) 推荐(0) 编辑