hadoop-spark集群安装---4.spark安装
1.准备
上传spark-2.0.2到node01
tar -zxvf spark-2.0.2-hadoop-2.0.tar.gz -C /ren
cd /ren
mv spark-2.0.2-hadoop-2.0 spark-2.0.2
2.PATH
vi /etc/profile
export SPARK_HOME=/ren/spark-2.0.2
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile
3.配置文件
cd /ren/spark-2.0.2/conf
(1) slaves
cp slaves.template slaves
vi slaves
加入 node01 node02 node03
(2)spark-env.sh 加入
export JAVA_HOME=/usr/java/jdk1.8.0_101
export SCALA_HOME=/usr/scala/scala-2.11.8
export HADOOP_HOME=/ren/hadoop-2.7.3
#hadoop配置文件
export HADOOP_CONF_DIR=/ren/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=192.168.153.171
export SPARK_WORKER_MEMORY=1500m
export SPARK_EXECUTOR_MEMORY=1500m
export SPARK_EXECUTOR_INSTANCES=1
export SPARK_EXECUTOR_CORES=1
(3)在hdfs上创建/spark-lib目录,上传spark的jar包
hdfs dfs -copyFromLocal $SPARK_HOME/jars/*.jar hdfs://ren/spark-lib
在$SPARK_HOME/conf/spark-default.conf中指定
spark.yarn.jars hdfs://ren/spark-lib/*
(4)日志信息
mv log4j.properties.template log4j.properties
vi log4j.properties
修改 log4j.rootCategory=WARN, console (过滤普通输出信息)
4.同步
scp -r /ren/spark-2.0.2 root@node02:/ren/
scp -r /ren/spark-2.0.2 root@node03:/ren/
5.启动
cd spark-2.0.2/sbin
./start-all.sh
启动master与worker
spark以三种模式运行 local 、standalone 、yarn/mesos
local模式
spark-submit --class org.apache.spark.examples.SparkPi --driver-memory 1G --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100
standalone模式
spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi --executor-memory 1G ../examples/jars/spark-examples_2.11-2.0.2.jar 100
yarn模式
spark-submit master yarn-client --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.0.2.jar 100
【YARN中内存资源的调度和隔离】
(1)yarn.nodemanager.resource.memory-mb
表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。
(2)yarn.nodemanager.vmem-pmem-ratio
任务每使用1MB物理内存,最多可使用虚拟内存量,默认是2.1。
(3) yarn.nodemanager.pmem-check-enabled
是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true。
(4) yarn.nodemanager.vmem-check-enabled
是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true。
(5)yarn.scheduler.minimum-allocation-mb
单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,则该对应的值改为这个数。
(6)yarn.scheduler.maximum-allocation-mb
单个任务可申请的最多物理内存量,默认是8192(MB)。

浙公网安备 33010602011771号