union、intersection、subtract、cartesian

rdd1 = sc.parallelize([1,2,4,5,2,3])
rdd2 = sc.parallelize([4,6,5,7,8,6])
rdd1.union(rdd2).collect(): 所有rdd1和rdd2中的item组合(并集),不去重
rdd1.intersection(rdd2).collect(): rdd1 和 rdd2的交集,并且去重
rdd1.subtract(rdd2).collect(): 所有在rdd1中但不在rdd2中的item(差集),不去重
rdd1.cartesian(rdd2).collect(): rdd1 和 rdd2中所有的元素笛卡尔乘积(正交和)

 

 

 posted on 2021-03-15 23:41  boye169  阅读(461)  评论(0编辑  收藏  举报