spark环境搭建

spark环境搭建

spark下载地址:http://archive.apache.org/dist/spark/

Scala下载地址:https://scala-lang.org/download/2.11.8.html

这里的spark版本用的是:spark-2.4.0-bin-hadoop2.6.tgz

这里的Scala用的是:scala-2.11.8.tgz

1. 安装Scala

1.1 上传解压Scala

(1) 上传安装包scala-2.11.8.tgz到虚拟机中

(2) 进入上传的安装包目录,解压sqoop安装包到指定目录,如:

tar -zxvf scala-2.11.8.tgz -C /opt/module/

解压后,进入解压后的目录把名字修改为sqoop

mv scala-2.11.8 scala

1.2 设置Scala环境变量

命令:

vi /root/.bash_profile

加入下面内容:

export SCALA_HOME=/opt/module/scala
export PATH=$PATH:$SCALA_HOME/bin

使设置立即生效:

source /root/.bash_profile

验证scala

scala -version

2. 安装spark

2.1 上传解压spark

(1) 上传安装包spark-2.4.0-bin-hadoop2.6.tgz到虚拟机中

(2) 进入上传的安装包目录,解压sqoop安装包到指定目录,如:

tar -zxvf spark-2.4.0-bin-hadoop2.6.tgz -C /opt/module/

解压后,进入解压后的目录把名字修改为sqoop

mv spark-2.4.0-bin-hadoop2.6 spark

2.2 设置spark环境变量

命令:

vi /root/.bash_profile

加入下面内容:

export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin

使设置立即生效:

source /root/.bash_profile

2.3 修改配置文件

(1)把/opt/module/spark/conf/下的spark-env.sh.template文件修改为spark-env.sh

[root@master conf]# mv spark-env.sh.template spark-env.sh

(2)修改spark-env.sh配置文件

命令:

vi spark-env.sh

添加如下内容:

export JAVA_HOME=/opt/module/jdk1.8.0_281
export HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop/bin/hadoop classpath)
export SPARK_MASTER_IP=192.168.1.110

(3) 修改slaves配置文件,添加Worker的主机列表

把/opt/module/spark/conf/下的slaves.template文件修改为slaves

[root@master conf]# mv slaves.template slaves

修改slaves文件

命令:

vi slaves

添加如下内容:

# 里面的内容原来为localhost,添加自己有的几个节点
master
slave01
slave02

(4) 把/opt/module/spark/sbin下的start-all.sh和stop-all.sh这两个文件重命名

[root@master sbin]# mv start-all.sh start-spark-all.sh
[root@master sbin]# mv stop-all.sh stop-spark-all.sh

3. 分发到其他节点

(1)把Scala分发给其他节点

slave01节点:
scp -r /opt/module/scala/ root@slave01:/opt/module/scala/
slave02节点:
scp -r /opt/module/scala/ root@slave02:/opt/module/scala/

(2)把spark分发给其他节点

slave01节点:
scp -r /opt/module/spark/ root@slave01:/opt/module/spark/
slave02节点:
scp -r /opt/module/spark/ root@slave02:/opt/module/spark/

(3)把环境变量分发到其他节点

slave01节点:
rsync -av /root/.bash_profile root@slave01:/root/.bash_profile
slave02节点:
rsync -av /root/.bash_profile root@slave02:/root/.bash_profile

4. 启动spark集群

在spark master节点启动spark集群

[root@master spark]# sbin/start-spark-all.sh

master节点如图所示:

image-20210516150017984

slave01、slave02节点如图所示:

6

查看webUI:

在网页上输入网址:http://192.168.1.110:8080/

如图所示:

image-20210516150713658
posted @ 2021-11-09 12:01  Paranoïa  阅读(85)  评论(0)    收藏  举报