spark2.0 安装配置

spark 2.0 安装配置

以下操作基于机器DAS02 、用户 hadoop/hadoop

Linux环境下（ubuntu）如何编译 hadoop2.7 http://www.cnblogs.com/JustSunh/articles/5818007.html
       spark安装 - 安装ssh http://www.cnblogs.com/JustSunh/articles/5817843.html
   spark安装步骤2- 安装hadoop http://www.cnblogs.com/JustSunh/articles/5817911.html
       spark2.0 安装配置 http://www.cnblogs.com/JustSunh/articles/5817917.html
       spark2.0 安装测试 http://www.cnblogs.com/JustSunh/articles/5818020.html

一、前提说明

前提：

　　　完成 ssh 安装配置，参考文档《ssh安装配置》 http://www.cnblogs.com/JustSunh/articles/5817843.html
         完成hadoop安装配置，参考文档《hadoop安装配置》 http://www.cnblogs.com/JustSunh/articles/5817911.html

节点机器：
   master:   172.21.30.22 DAS02   hadoop/hadoop
   slave1 : 172.21.30.27 CESHI   hadoop/hadoop
   slave2 : 172.21.30.23 OTA     hadoop/hadoop

Linux 环境变量：每台独立配置 /etc/profile

export JAVA_HOME=/app/jdk1.8.0_73
export JRE_HOME=/app/jdk1.8.0_73/jre
export PATH=$PATH:/app/jdk1.8.0_73/bin
export CLASSPATH=./:/app/jdk1.8.0_73/lib:/app/jdk1.8.0_73/jre/lib

export HADOOP_HOME=/app/hadoop-2.7.2
xport HADOOP_COMMON_LIB_NATIVE_DIR=/app/hadoop-2.7.2/lib/native
export HADOOP_OPTS="-Djava.library.path=/app/hadoop-2.7.2/lib"
export PATH=$PATH:$HADOOP_HOME/bin

export SCALA_HOME=/app/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

二、详细步骤

1. 下载安装配置Scala

   1.1 到Scala 官方网站下载 , 版本为scala-2.10.4.tgz
   1.2 解压：tar –zvxf scala-2.10.4 –C /app/

   1.3在etc/profile中增加环境变量SCALA_HOME，并使之生效：
       export SCALA_HOME=/app/scala-2.10.4
       export PATH=$PATH:$SCALA_HOME/bin

2. 下载安装配置Spark

   2.1 到apache官网下载，版本为：spark-1.1.0-bin-hadoop2.7.tgz

   2.2 解压: tar –zvxf spark-1.1.0-bin-hadoop2.4.tgz –C /app/

   2.3在etc/profile中增加环境变量SCALA_HOME，并使之生效：
       export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
       export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

3. spark 配置

   3.1 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7 修改spark-env.sh配置文件：

       进入spark的conf目录
       执行 cp spark-env.sh.template spark-env.sh

       在该脚本文件中，同时将SCALA_HOME、JAVA_HOME配置为实际指向路径：
       vi spark-env.sh

       expor JAVA_HOME=/app/jdk1.8.0_73
       export SCALA_HOME=/app/scala-2.10.4
       export HADOOP_HOME=/app/hadoop-2.7.2
       export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
       export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
       export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
       export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
       #export SPARK_JAR=/appk/spark-2.0.0-bin-hadoop2.7/lib/
           spark-assembly-1.1.0-hadoop2.4.0.jar

   3.2 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7 修改conf/slaves文件，

       将计算节点的主机名添加到该文件，一行一个：
       CESHI
       OTA

4. 节点分发

   将profile、scala、Spark的程序文件和配置文件拷贝分发到各个从节点机器上，
   (注意：profile中JAVA_HOME 可能每个节点不同)：

   CESHI 节点分发：
   1. scp -r /etc/profile hadoop@172.21.30.27:/etc/
   2. scp -r /app/scala-2.10.4 hadoop@172.21.30.27:/app/
   3. scp -r /app/spark-2.0.0-bin-hadoop2.7 hadoop@172.21.30.27:/app/

        OTA 节点分发：
   1. scp -r /etc/profile hadoop@172.21.30.23:/etc/
   2. scp -r /app/scala-2.10.4 hadoop@172.21.30.23:/app/
   3. scp -r /app/spark-2.0.0-bin-hadoop2.7 hadoop@OTA:/app/

        节点 CESHI 、 OTA 分别执行 source /etc/profile ，使环境变量生效

5. 启动spark 集群

使用HDFS集群上存储的数据作为计算的输入，所以首先要把Hadoop集群安装配置好，并成功启动，本次使用的是Hadoop 2.7.2 版本。

   启动Spark计算集群非常简单，执行如下命令即可（spark sbin下的脚本文件）：
   启动主节点（Master）: start-master.sh （此文件中可配置端口）
   启动从节点（Slaves）: start-slaves.sh   （此文件中可配置端口）
   可以看到，在DAS02上启动了一个名称为Master的进程，在 CESHI 、OTA 上启动了一个名称为Worker的进程，
   可以通过web端口访问spark （界面默认8080端口，可在 start-master.sh、 start-slaves.sh 更改)
   http://172.21.30.22:8089/

posted @ 2016-08-29 14:40 summer.sun 阅读(544) 评论(0) 收藏举报

刷新页面返回顶部

然后光着脚跑到了很远的地方

大海，也会没有沙滩

spark2.0 安装配置

公告