Spark安装
Spark安装地址
- 官网地址
- 文档查看地址
- 下载地址
https://spark.apache.org/downloads.html
Standalone模式安装
- 上传并解压spark安装包
tar -zxvf /opt/softwares/spark-2.4.3-bin-hadoop2.7.tgz -C /opt/module/
- 进入spark安装目录下的conf文件夹
cd spark-2.4.3-bin-hadoop2.7/conf
- 修改配置文件
mv slaves.template slaves
mv spark-env.sh.template spark-env.sh
- 修改slave文件,添加work节点
vi slaves
hadoop101
hadoop102
hadoop103
- 修改spark-env.sh文件,添加如下配置
vi spark-env.sh
SPARK_MASTER_HOST=hadoop101
SPARK_MASTER_PROT=7077
- 分发spark包到其他虚拟机
xsync spark-2.4.3-bin-hadoop2.7
(附分发shell脚本xsync)
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=102; host<104; host++)); do
#echo $pdir/$fname $user@hadoop$host:$pdir
echo --------------- hadoop$host ----------------
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done
- 启动
sbin/start-all.sh
[wangzichen@hadoop101 spark-2.4.3-bin-hadoop2.7]$ jps.sh
================wangzichen@hadoop101================
3330 Jps
3238 Worker
3163 Master
================wangzichen@hadoop102================
2966 Jps
2908 Worker
================wangzichen@hadoop103================
2978 Worker
3036 Jps
- 启动spark shell
/opt/module/spark-2.4.3-bin-hadoop2.7/bin/spark-shell \
--master spark://hadoop101:7077 \
--executor-memory 1g \
--total-executor-cores 2
注意:如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,其实是启动了spark的local模式,该模式仅在本机启动一个进程,没有与集群建立联系 。
Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可 。
JobHistoryServer配置
- 修改spark-default.conf.template名称
mv spark-defaults.conf.template spark-defaults.conf
- 修改spark-default.conf文件,开启log
vi spark-defaults.conf
spark.eventLog.enabled //true
spark.eventLog.dir //hdfs://hadoop101:9000/directory(若是hadoop中core-site.xml配置端口为8020则设置为8020而不是9000,否则出错)
注意:HDFS上的目录需要提前存在
- 修改spark-env.sh文件,添加如下配置
vi spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000
-Dspark.history.retainedApplications=3
-Dspark.history.fs.logDirectory=hdfs://hadoop101:9000/directory" //若是hadoop中core-site.xml配置端口为8020则设置为8020而不是9000,否则出错
- 分发配置文件到其他虚拟机
xsync spark-defaults.conf
xsync spark-env.sh
- 启动历史服务
sbin/start-history-server.sh
- 测试,执行任务长度
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop101:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.11-2.4..jar \
100
- 查看历史服务
在浏览器上输入hadoop101:4000查看
Yarn模式安装
- 修改hadoop配置文件yarn-site.xml,并添加如下内容
vi yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
- 修改spark-env.sh,添加如下配置
vi spark-env.sh
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
- 分发配置文件
xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
xsync spark-env.sh

浙公网安备 33010602011771号