Fork me on GitHub

pyspark之textFile和parallelize对应的分区数目

textFile:

  defaultParallelism=max(totalCoreCount,2)

  min(defaultParallelism,2)

parallelize:

  max(totalCoreCount,2)

假设是4核的,那么:

对于textFile:

  defaultParallelism=max(4,2)=4

  分区数=min(defaultParallelism,2)=2

对于parallelize:

  分区数=max(4,2)=4

 

posted @ 2020-08-11 22:38  西西嘛呦  阅读(514)  评论(0)    收藏  举报