spark2.0 安装配置

  
                                spark 2.0 安装配置

以下操作基于 机器DAS02 、 用户 hadoop/hadoop


Linux环境下(ubuntu)如何编译 hadoop2.7  http://www.cnblogs.com/JustSunh/articles/5818007.html
        spark安装 - 安装ssh  http://www.cnblogs.com/JustSunh/articles/5817843.html
    spark安装步骤2- 安装hadoop  http://www.cnblogs.com/JustSunh/articles/5817911.html
        spark2.0 安装配置  http://www.cnblogs.com/JustSunh/articles/5817917.html
        spark2.0 安装测试  http://www.cnblogs.com/JustSunh/articles/5818020.html



一、前提说明

前提:

   完成 ssh  安装配置,参考文档 《ssh安装配置》 http://www.cnblogs.com/JustSunh/articles/5817843.html
         完成hadoop安装配置,参考文档 《hadoop安装配置》 http://www.cnblogs.com/JustSunh/articles/5817911.html

节点机器:
    master:   172.21.30.22 DAS02   hadoop/hadoop
    slave1 :  172.21.30.27 CESHI   hadoop/hadoop
    slave2 :  172.21.30.23 OTA     hadoop/hadoop

Linux 环境变量:每台独立配置 /etc/profile

export JAVA_HOME=/app/jdk1.8.0_73
export JRE_HOME=/app/jdk1.8.0_73/jre
export PATH=$PATH:/app/jdk1.8.0_73/bin
export CLASSPATH=./:/app/jdk1.8.0_73/lib:/app/jdk1.8.0_73/jre/lib

export HADOOP_HOME=/app/hadoop-2.7.2
xport HADOOP_COMMON_LIB_NATIVE_DIR=/app/hadoop-2.7.2/lib/native
export HADOOP_OPTS="-Djava.library.path=/app/hadoop-2.7.2/lib"
export PATH=$PATH:$HADOOP_HOME/bin

export SCALA_HOME=/app/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7   
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin



二 、详细步骤

1. 下载安装配置Scala

    1.1 到Scala 官方网站下载 , 版本为scala-2.10.4.tgz
    1.2 解压:tar –zvxf scala-2.10.4 –C /app/

    1.3在etc/profile中增加环境变量SCALA_HOME,并使之生效:
         export SCALA_HOME=/app/scala-2.10.4     
        export PATH=$PATH:$SCALA_HOME/bin
 


   
 2. 下载安装配置Spark
 
    2.1 到apache官网下载,版本为:spark-1.1.0-bin-hadoop2.7.tgz
 
    2.2 解压: tar –zvxf spark-1.1.0-bin-hadoop2.4.tgz  –C /app/   
      
    2.3在etc/profile中增加环境变量SCALA_HOME,并使之生效:
        export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7        
        export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin  



3. spark 配置

    3.1 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7  修改spark-env.sh配置文件:

        进入spark的conf目录
        执行 cp spark-env.sh.template spark-env.sh      
        
        在该脚本文件中,同时将SCALA_HOME、JAVA_HOME配置为实际指向路径:
        vi  spark-env.sh

        expor JAVA_HOME=/app/jdk1.8.0_73  
        export SCALA_HOME=/app/scala-2.10.4      
        export HADOOP_HOME=/app/hadoop-2.7.2
        export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
        export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
        export SPARK_HOME=/app/spark-2.0.0-bin-hadoop2.7
        export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
        #export SPARK_JAR=/appk/spark-2.0.0-bin-hadoop2.7/lib/
            spark-assembly-1.1.0-hadoop2.4.0.jar


    3.2 在DAS02上目录/app/spark-2.0.0-bin-hadoop2.7 修改conf/slaves文件,

        将计算节点的主机名添加到该文件,一行一个:
        CESHI
        OTA
  


 
4. 节点分发

    将profile、scala、Spark的程序文件和配置文件拷贝分发到各个从节点机器上,
    (注意:profile中JAVA_HOME 可能每个节点不同):    
    
    CESHI 节点分发:
     1.  scp -r /etc/profile  hadoop@172.21.30.27:/etc/
     2.  scp -r /app/scala-2.10.4  hadoop@172.21.30.27:/app/  
     3.  scp -r /app/spark-2.0.0-bin-hadoop2.7  hadoop@172.21.30.27:/app/
    
        OTA 节点分发:
     1.  scp -r /etc/profile  hadoop@172.21.30.23:/etc/
     2.  scp -r /app/scala-2.10.4 hadoop@172.21.30.23:/app/  
     3.  scp -r  /app/spark-2.0.0-bin-hadoop2.7 hadoop@OTA:/app/

        节点 CESHI 、 OTA 分别执行  source /etc/profile , 使环境变量生效



5. 启动spark 集群

 使用HDFS集群上存储的数据作为计算的输入,所以首先要把Hadoop集群安装配置好,并成功启动,本次使用的是Hadoop 2.7.2 版本。
 
    启动Spark计算集群非常简单,执行如下命令即可(spark sbin下的脚本文件):
    启动主节点(Master): start-master.sh  (此文件中可配置端口 )    
    启动从节点(Slaves): start-slaves.sh   (此文件中可配置端口)
    可以看到,在DAS02上启动了一个名称为Master的进程,在 CESHI 、OTA 上启动了一个名称为Worker的进程,
    可以通过web端口访问spark (界面默认8080端口,可在 start-master.sh、 start-slaves.sh  更改)
     http://172.21.30.22:8089/

posted @ 2016-08-29 14:40  summer.sun  阅读(544)  评论(0)    收藏  举报