spark部署示例

1、修改配置文件:spark-env.sh

#非必须
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
#非必须
export SPARK_SCALA_VERSION=2.13
#非必须
export SPARK_CONF_DIR=/data/spark-3.4.0-bin-hadoop3-scala2.13/conf
#非必须
export HADOOP_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#使用yarn部署时必须
export YARN_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#非必须
export SPARK_DAEMON_MEMORY=2048m
#非必须
export SPARK_LOG_DIR=/var/log/spark

2、配置文件:hive-site.xml

使用hive时,直接把hive的配置文件hive-site.xml复制到conf下

3、需要使用iceberg时,可以把引入jiar包:iceberg-spark-runtime

把jar包:iceberg-spark-runtime-3.3_2.13-1.2.0.jar复制到jars下

4、创建spark用户,并添加附加组hadoop、supergroup

usermod spark -G hadoop
usermod spark -G supergroup

5、启动,使用spark用户启动,使用yarn方式启动,会打印日志的输出位置

--非必须
sbin/start-history-server.sh

--使用yarn启动
sbin/start-thriftserver.sh --master yarn

--使用yarn启动,指定使用内存
sbin/start-thriftserver.sh --master yarn --driver-memory 4G --executor-memory 6G --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

6、在yarn的可视化界面查看运行的spark

http://127.0.0.1:8088/
posted @ 2024-08-12 06:20  rbcd  阅读(11)  评论(0)    收藏  举报