Spark安装

Spark安装地址

官网地址

http://spark.apache.org

文档查看地址

http://spark.apache.org/docs

下载地址

https://spark.apache.org/downloads.html

Standalone模式安装

上传并解压spark安装包

tar -zxvf /opt/softwares/spark-2.4.3-bin-hadoop2.7.tgz -C /opt/module/

cd spark-2.4.3-bin-hadoop2.7/conf

修改配置文件

mv slaves.template slaves

mv spark-env.sh.template spark-env.sh

修改slave文件，添加work节点

vi slaves

hadoop101

hadoop102

hadoop103

修改spark-env.sh文件，添加如下配置

vi spark-env.sh

SPARK_MASTER_HOST=hadoop101

SPARK_MASTER_PROT=7077

分发spark包到其他虚拟机

xsync spark-2.4.3-bin-hadoop2.7

(附分发shell脚本xsync)

#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=102; host<104; host++)); do
        #echo $pdir/$fname $user@hadoop$host:$pdir
        echo --------------- hadoop$host ----------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

启动

sbin/start-all.sh

[wangzichen@hadoop101 spark-2.4.3-bin-hadoop2.7]$ jps.sh 

================wangzichen@hadoop101================

3330 Jps

3238 Worker

3163 Master

================wangzichen@hadoop102================

2966 Jps

2908 Worker

================wangzichen@hadoop103================

2978 Worker

3036 Jps

启动spark shell

/opt/module/spark-2.4.3-bin-hadoop2.7/bin/spark-shell \
--master spark://hadoop101:7077 \
--executor-memory 1g \
--total-executor-cores 2

注意：如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程序，其实是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群建立联系。

Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可。

JobHistoryServer配置

修改spark-default.conf.template名称

mv spark-defaults.conf.template spark-defaults.conf

修改spark-default.conf文件，开启log

vi spark-defaults.conf
spark.eventLog.enabled           //true
spark.eventLog.dir               //hdfs://hadoop101:9000/directory（若是hadoop中core-site.xml配置端口为8020则设置为8020而不是9000，否则出错）

注意：HDFS上的目录需要提前存在

修改spark-env.sh文件，添加如下配置

vi spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 
-Dspark.history.retainedApplications=3 
-Dspark.history.fs.logDirectory=hdfs://hadoop101:9000/directory"      //若是hadoop中core-site.xml配置端口为8020则设置为8020而不是9000，否则出错

分发配置文件到其他虚拟机

xsync spark-defaults.conf
xsync spark-env.sh

启动历史服务

sbin/start-history-server.sh

测试，执行任务长度

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop101:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.4..jar \
100

查看历史服务

在浏览器上输入hadoop101:4000查看

Yarn模式安装

修改hadoop配置文件yarn-site.xml，并添加如下内容

vi yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
        </property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property>

修改spark-env.sh，添加如下配置

vi spark-env.sh
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop  
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

分发配置文件

xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
xsync spark-env.sh

posted @ 2019-08-05 08:18 xiaozhangwang 阅读(271) 评论(0) 收藏举报

刷新页面返回顶部

WangXiaoZhang

努力学习的渣渣----CV"高手" 个人博客：www.codedog.fun

Spark安装

Spark安装地址

Standalone模式安装

JobHistoryServer配置

Yarn模式安装

公告