hadoop-spark集群安装---4.spark安装

1.准备

上传spark-2.0.2到node01

tar -zxvf spark-2.0.2-hadoop-2.0.tar.gz -C /ren

cd /ren

mv spark-2.0.2-hadoop-2.0 spark-2.0.2

2.PATH

vi /etc/profile

export SPARK_HOME=/ren/spark-2.0.2

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

3.配置文件

cd /ren/spark-2.0.2/conf

(1) slaves

cp slaves.template slaves

vi slaves

加入 node01 node02 node03

(2)spark-env.sh 加入

export JAVA_HOME=/usr/java/jdk1.8.0_101

export SCALA_HOME=/usr/scala/scala-2.11.8

export HADOOP_HOME=/ren/hadoop-2.7.3

#hadoop配置文件

export HADOOP_CONF_DIR=/ren/hadoop-2.7.3/etc/hadoop

export SPARK_MASTER_IP=192.168.153.171

export SPARK_WORKER_MEMORY=1500m

export SPARK_EXECUTOR_MEMORY=1500m

export SPARK_EXECUTOR_INSTANCES=1

export SPARK_EXECUTOR_CORES=1

(3)在hdfs上创建/spark-lib目录,上传spark的jar包

hdfs dfs -copyFromLocal $SPARK_HOME/jars/*.jar hdfs://ren/spark-lib

在$SPARK_HOME/conf/spark-default.conf中指定

spark.yarn.jars hdfs://ren/spark-lib/*

(4)日志信息

mv log4j.properties.template log4j.properties

vi log4j.properties

修改 log4j.rootCategory=WARN, console (过滤普通输出信息)

4.同步

scp -r /ren/spark-2.0.2 root@node02:/ren/

scp -r /ren/spark-2.0.2 root@node03:/ren/

5.启动

cd spark-2.0.2/sbin

./start-all.sh

启动master与worker

spark以三种模式运行 local 、standalone 、yarn/mesos

local模式

spark-submit --class org.apache.spark.examples.SparkPi --driver-memory 1G --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100

standalone模式

spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100

yarn模式

spark-submit master yarn-client --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.0.2.jar 100

【YARN中内存资源的调度和隔离】

（1）yarn.nodemanager.resource.memory-mb

表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。

（2）yarn.nodemanager.vmem-pmem-ratio

任务每使用1MB物理内存，最多可使用虚拟内存量，默认是2.1。

（3） yarn.nodemanager.pmem-check-enabled

是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true。

（4） yarn.nodemanager.vmem-check-enabled

是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true。

（5）yarn.scheduler.minimum-allocation-mb

单个任务可申请的最少物理内存量，默认是1024（MB），如果一个任务申请的物理内存量少于该值，则该对应的值改为这个数。

（6）yarn.scheduler.maximum-allocation-mb

单个任务可申请的最多物理内存量，默认是8192（MB）。

posted @ 2016-12-24 15:26 renjian1995 阅读(304) 评论(0) 收藏举报

刷新页面返回顶部

renjian1995

hadoop-spark集群安装---4.spark安装

公告