spark2.0 安装配置
spark 2.0 安装配置
以下操作基于 机器DAS02 、 用户 hadoop/hadoop
Linux环境下(ubuntu)如何编译 hadoop2.7 http://www.cnblogs.com/JustSunh/articles/5818007.html
spark安装 - 安装ssh http://www.cnblogs.com/JustSunh/articles/5817843.html
spark安装步骤2- 安装hadoop http://www.cnblogs.com/JustSunh/articles/5817911.html
spark2.0 安装配置 http://www.cnblogs.com/JustSunh/articles/5817917.html
spark2.0 安装测试 http://www.cnblogs.com/JustSunh/articles/5818020.html
一、前提说明
前提:
完成 ssh 安装配置,参考文档 《ssh安装配置》 http://www.cnblogs.com/JustSunh/articles/5817843.html
完成hadoop安装配置,参考文档 《hadoop安装配置》 http://www.cnblogs.com/JustSunh/articles/5817911.html
节点机器:
master: 172.21.30.22 DAS02 hadoop/hadoop
slave1 : 172.21.30.27 CESHI hadoop/hadoop
slave2 : 172.21.30.23 OTA hadoop/hadoop
Linux 环境变量:每台独立配置 /etc/profile
export JAVA_HOME=/app/jdk1.8.0_73
export JRE_HOME=/app/jdk1.8.0_73/jre
export PATH=$PATH:/app/jdk1.8.0_73/bin
export CLASSPATH=./:/app/jdk1.8.0_73/lib:/app/jdk1.8.0_73/jre/lib
export HADOOP_HOME=/app/hadoop-2.7.2
xport HADOOP_COMMON_LIB_NATIVE_DIR=/app/hadoop-2.7.2/lib/native
export HADOOP_OPTS="-Djava.library.path=/app/hadoop-2.7.2/lib"
export PATH=$PATH:$HADOOP_HOME/bin
export SCALA_HOME=/app/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
二 、详细步骤
1. 下载安装配置Scala
1.1 到Scala 官方网站下载 , 版本为scala-2.10.4.tgz
1.2 解压:tar –zvxf scala-2.10.4 –C /app/
1.3在etc/profile中增加环境变量SCALA_HOME,并使之生效:
export SCALA_HOME=/app/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
2. 下载安装配置Spark
2.1 到apache官网下载,版本为:spark-1.1.0-bin-hadoop2.7.tgz
2.2 解压: tar –zvxf spark-1.1.0-bin-hadoop2.4.tgz –C /app/
2.3在etc/profile中增加环境变量SCALA_HOME,并使之生效:
export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
3. spark 配置
3.1 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7 修改spark-env.sh配置文件:
进入spark的conf目录
执行 cp spark-env.sh.template spark-env.sh
在该脚本文件中,同时将SCALA_HOME、JAVA_HOME配置为实际指向路径:
vi spark-env.sh
expor JAVA_HOME=/app/jdk1.8.0_73
export SCALA_HOME=/app/scala-2.10.4
export HADOOP_HOME=/app/hadoop-2.7.2
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
#export SPARK_JAR=/appk/spark-2.0.0-bin-hadoop2.7/lib/
spark-assembly-1.1.0-hadoop2.4.0.jar
3.2 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7 修改conf/slaves文件,
将计算节点的主机名添加到该文件,一行一个:
CESHI
OTA
4. 节点分发
将profile、scala、Spark的程序文件和配置文件拷贝分发到各个从节点机器上,
(注意:profile中JAVA_HOME 可能每个节点不同):
CESHI 节点分发:
1. scp -r /etc/profile hadoop@172.21.30.27:/etc/
2. scp -r /app/scala-2.10.4 hadoop@172.21.30.27:/app/
3. scp -r /app/spark-2.0.0-bin-hadoop2.7 hadoop@172.21.30.27:/app/
OTA 节点分发:
1. scp -r /etc/profile hadoop@172.21.30.23:/etc/
2. scp -r /app/scala-2.10.4 hadoop@172.21.30.23:/app/
3. scp -r /app/spark-2.0.0-bin-hadoop2.7 hadoop@OTA:/app/
节点 CESHI 、 OTA 分别执行 source /etc/profile , 使环境变量生效
5. 启动spark 集群
使用HDFS集群上存储的数据作为计算的输入,所以首先要把Hadoop集群安装配置好,并成功启动,本次使用的是Hadoop 2.7.2 版本。
启动Spark计算集群非常简单,执行如下命令即可(spark sbin下的脚本文件):
启动主节点(Master): start-master.sh (此文件中可配置端口 )
启动从节点(Slaves): start-slaves.sh (此文件中可配置端口)
可以看到,在DAS02上启动了一个名称为Master的进程,在 CESHI 、OTA 上启动了一个名称为Worker的进程,
可以通过web端口访问spark (界面默认8080端口,可在 start-master.sh、 start-slaves.sh 更改)
http://172.21.30.22:8089/

浙公网安备 33010602011771号