Spark Core 核心概念:RDD 转换算子
知识点:
单值转换算子:map、filter、flatMap、distinct
双值转换算子:union、intersection、subtract、zip
算子执行逻辑:窄依赖(Narrow Dependency)与宽依赖(Wide Dependency)初步
练习:
实现需求:从数字 RDD 中过滤出偶数,再乘以 2,最后去重
实现两个 RDD 的并集、交集、差集计算
易错:
flatMap是 “先映射后扁平化”,区别于map(仅映射),是 WordCount 的核心算子
zip要求两个 RDD 分区数相同且元素数量相同,否则报错

浙公网安备 33010602011771号