摘要:
1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
posted @ 2021-11-08 22:12
lmandcc
阅读(1010)
评论(0)
推荐(0)
摘要:
1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
posted @ 2021-11-08 21:36
lmandcc
阅读(1408)
评论(0)
推荐(0)

浙公网安备 33010602011771号