摘要:
shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区,这个过程称之为shuffle 注:spark的shuffle和mapreduce的shuffle原理是一样,都是要进行落盘 RDD RDD: 弹性的分布式数据集 弹性:RDD将来在计算的时候,其中的数据可以是很大,也可以是很 阅读全文
posted @ 2024-05-17 22:03
low-reed
阅读(21)
评论(0)
推荐(0)
摘要:
1、上传解压,配置环境变量 配置bin目录 解压 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 重命名 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 配置环境变量 vim /etc/profile 2、修改配置文件 conf cp 阅读全文
posted @ 2024-05-17 20:04
low-reed
阅读(17)
评论(0)
推荐(0)