2019 年 6月 22 日随笔档案 - Sonnyb

2019年6月22日

摘要： 1.1避免创建重复RDD 通常指，在开发spark作业中，首先基于某个数据源，（如hive或hdfs文件）创建一个初始RDD，接着对这个RDD进行某个算子操作，然后得到下一个RDD,以此类推，循环往复，直到计算出我们需要的结果；在此过程中多个RDD会通过不同算子操作串起来。这个RDD串 `RDD l 阅读全文

posted @ 2019-06-22 13:56 Sonnyb 阅读(220) 评论(0) 推荐(0)

Snny Bill

公告