Spark on Yarn

简介

Apache Spark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成,以便更好地利用集群资源进行分布式计算。

安装部署

解压安装包

tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module

配置环境变量

vi /etc/profile

export SPARK_HOME=/opt/module/spark-3.1.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

修改hadoop配置文件

vi /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

分发配置文件

scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/

修改conf/spark-env.sh,添加 YARN_CONF_DIR 配置

cd /opt/module/spark-3.1.1-bin-hadoop3.2/conf/
vi spark-env.sh

export YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

重启hadoop

stop-all.sh
start-all.sh

提交测试

# 使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi
spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar
posted @ 2024-01-17 14:24  sober_zero  阅读(43)  评论(0)    收藏  举报