摘要: shuffle spark的运行过程中如果出现了相同的键被拉取到对应的分区,这个过程称之为shuffle 注:spark的shuffle和mapreduce的shuffle原理是一样,都是要进行落盘 RDD RDD: 弹性的分布式数据集 弹性:RDD将来在计算的时候,其中的数据可以是很大,也可以是很 阅读全文
posted @ 2024-05-17 22:03 low-reed 阅读(21) 评论(0) 推荐(0)
摘要: 1、上传解压,配置环境变量 配置bin目录 解压 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 重命名 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 配置环境变量 vim /etc/profile 2、修改配置文件 conf cp 阅读全文
posted @ 2024-05-17 20:04 low-reed 阅读(17) 评论(0) 推荐(0)