Spark 安装部署 | 集群安装(yarn作为资源调度)

Spark 安装部署 | 集群安装(yarn作为资源调度)

  1. 解压缩spark-3.0.0-bin-hadoop3.2.tgz

      tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
      cd /opt/module
      mv spark-3.0.0-bin-hadoop3.2 spark-yarn
    
  2. 修改配置文件

    1. 修改 hadoop 配置文件 /opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发
    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
    <property>
      <name>yarn.nodemanager.pmem-check-enabled</name>
      <value>false</value>
    </property>
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
    <property>
      <name>yarn.nodemanager.vmem-check-enabled</name>
      <value>false</value>
    </property>
    
    1. 修改 conf/spark-env.sh,添加 JAVA_HOMEYARN_CONF_DIR 配置
    mv spark-env.sh.template spark-env.sh
    
    ##自己的java地址 hadoop目录
    export JAVA_HOME=/opt/module/jdk1.8.0_144
    YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop
    
  3. 启动Hadoop集群(HDFS 和 YARN)

  4. 测试 提交应用

    ##在spark目录下执行
    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    
  5. 查看 http://hadoop102:8088 页面,点击 History,查看历史页面

  6. 配置历史服务器

    1. 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf
    2. 修改 spark-default.conf 文件,配置日志存储路径
    spark.eventLog.enabled true
    spark.eventLog.dir hdfs://hadoop102:8020/directory
    
    1. 修改 spark-env.sh 文件, 添加日志配置
    export SPARK_HISTORY_OPTS="
    -Dspark.history.ui.port=18080
    -Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
    -Dspark.history.retainedApplications=30"
    
    • 参数 1 含义:WEB UI 访问的端口号为 18080
    • 参数 2 含义:指定历史服务器日志存储路径
    • 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数
    1. 修改 spark-defaults.conf
    spark.yarn.historyServer.address=hadoop102:18080
    spark.history.ui.port=18080
    
    1. 启动历史服务
    --spark下的sbin
    sbin/start-history-server.sh
    
    1. 重新提交任务 yarn - 客户端 模式
    ##在spark目录下执行
    bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode client \
    ./examples/jars/spark-examples_2.12-3.0.0.jar \
    10
    
    1. web页面查看日志: http://hadoop102:8088
posted @ 2021-10-29 00:21  —清风碎心—  阅读(71)  评论(0编辑  收藏  举报