安装Spark
假设已经下载好spark-2.3.3-bin-hadoop.tgz在download目录下
这里采用Local模式(单机模式)的 Spark安装。
sudo tar -zxf ~/download/spark-2.3.3-bin-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark sudo chown -R zj ./spark
安装后,还需要修改Spark的配置文件spark-env.sh
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。
配置完成后就可以直接使用:
cd /usr/local/spark
bin/spark-shell

浙公网安备 33010602011771号