摘要: 1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
posted @ 2021-11-08 22:12 lmandcc 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
posted @ 2021-11-08 21:36 lmandcc 阅读(1252) 评论(0) 推荐(0) 编辑