Spark 2.x管理与开发-Spark RDD的高级算子(一)mapPartitionsWithIndex*

对RDD中的每个分区进行操作(可以取到分区号),下标用Index表示。

通过这个算子,可以获取到分区号。

通过自己定义的函数来处理

参数:f是一个函数参数,用于对分区数据处理

f本身接收两个参数:第一个是Int,代表分区号;第二个是Iterator[T],代表分区中的元素。

举例:将每个分区中的元素,包括分区号,直接打印出来,可以看到每个分区中的元素,以及分区号。

 

 

 

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3