hadoop-spark集群安装---4.spark安装

1.准备

  上传spark-2.0.2到node01

  tar -zxvf spark-2.0.2-hadoop-2.0.tar.gz -C /ren

  cd /ren

  mv   spark-2.0.2-hadoop-2.0 spark-2.0.2

 

2.PATH

   vi /etc/profile

   export SPARK_HOME=/ren/spark-2.0.2

   export PATH=$PATH:$SPARK_HOME/bin

   source /etc/profile

 

3.配置文件

  cd /ren/spark-2.0.2/conf

  (1) slaves

       cp slaves.template slaves

       vi slaves

       加入 node01  node02   node03

  (2)spark-env.sh  加入

       export JAVA_HOME=/usr/java/jdk1.8.0_101

       export SCALA_HOME=/usr/scala/scala-2.11.8

       export HADOOP_HOME=/ren/hadoop-2.7.3

       #hadoop配置文件

       export HADOOP_CONF_DIR=/ren/hadoop-2.7.3/etc/hadoop

       export SPARK_MASTER_IP=192.168.153.171

       export SPARK_WORKER_MEMORY=1500m

       export SPARK_EXECUTOR_MEMORY=1500m

       export SPARK_EXECUTOR_INSTANCES=1

       export SPARK_EXECUTOR_CORES=1

    (3)在hdfs上创建/spark-lib目录,上传spark的jar包

           hdfs dfs -copyFromLocal  $SPARK_HOME/jars/*.jar  hdfs://ren/spark-lib

        在$SPARK_HOME/conf/spark-default.conf中指定

           spark.yarn.jars   hdfs://ren/spark-lib/*

    (4)日志信息

       mv log4j.properties.template log4j.properties

       vi log4j.properties

       修改 log4j.rootCategory=WARN, console  (过滤普通输出信息)

 

4.同步

   scp -r /ren/spark-2.0.2 root@node02:/ren/

   scp -r /ren/spark-2.0.2 root@node03:/ren/

   

5.启动

   cd spark-2.0.2/sbin

   ./start-all.sh

   启动master与worker

   

spark以三种模式运行 local 、standalone 、yarn/mesos

local模式 

spark-submit --class org.apache.spark.examples.SparkPi --driver-memory 1G --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100

 

standalone模式

spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100

 

yarn模式

spark-submit master yarn-client --class org.apache.spark.examples.SparkPi  ../examples/jars/spark-examples_2.11-2.0.2.jar 100

 

【YARN中内存资源的调度和隔离】

(1)yarn.nodemanager.resource.memory-mb

表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。

(2)yarn.nodemanager.vmem-pmem-ratio

任务每使用1MB物理内存,最多可使用虚拟内存量,默认是2.1。

(3) yarn.nodemanager.pmem-check-enabled

是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true。

(4) yarn.nodemanager.vmem-check-enabled

是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true。

(5)yarn.scheduler.minimum-allocation-mb

单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,则该对应的值改为这个数。

(6)yarn.scheduler.maximum-allocation-mb

单个任务可申请的最多物理内存量,默认是8192(MB)。

      

posted @ 2016-12-24 15:26  renjian1995  阅读(303)  评论(0)    收藏  举报