spark部署示例
1、修改配置文件:spark-env.sh
#非必须
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
#非必须
export SPARK_SCALA_VERSION=2.13
#非必须
export SPARK_CONF_DIR=/data/spark-3.4.0-bin-hadoop3-scala2.13/conf
#非必须
export HADOOP_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#使用yarn部署时必须
export YARN_CONF_DIR=/data/hadoop-3.3.5/etc/hadoop
#非必须
export SPARK_DAEMON_MEMORY=2048m
#非必须
export SPARK_LOG_DIR=/var/log/spark
2、配置文件:hive-site.xml
使用hive时,直接把hive的配置文件hive-site.xml复制到conf下
3、需要使用iceberg时,可以把引入jiar包:iceberg-spark-runtime
把jar包:iceberg-spark-runtime-3.3_2.13-1.2.0.jar复制到jars下
4、创建spark用户,并添加附加组hadoop、supergroup
usermod spark -G hadoop
usermod spark -G supergroup
5、启动,使用spark用户启动,使用yarn方式启动,会打印日志的输出位置
--非必须
sbin/start-history-server.sh
--使用yarn启动
sbin/start-thriftserver.sh --master yarn
--使用yarn启动,指定使用内存
sbin/start-thriftserver.sh --master yarn --driver-memory 4G --executor-memory 6G --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
6、在yarn的可视化界面查看运行的spark
http://127.0.0.1:8088/