Spark整合yarn

Spark整合yarn

原因:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群

在spark sbin目录下执行 

./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加 exportHADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-all.sh

cd /usr/local/soft/hadoop-2.7.6/etc/hadoop

vim yarn-site.xml

增加配置
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

3.spark on yarn client模式 日志在本地输出,一班用于上线前测试

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client spark-examples_2.11-2.4.5.jar 100

4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志  执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

将spark代码打成 jar 包提交到集群中运行

代码如下:
package com.core.day2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import com.core.utils.HdfsUtil

object Demo18SparkYarnSubmit {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()

    conf.setAppName("submit")


    /**
     * 提交到集群运行需要注释master
     *
     */
     //conf.setMaster("local")

    val sc = new SparkContext(conf)

    //读取hdfs中的文件
    val lineRDD: RDD[String] = sc.textFile("/spark/data/")

    //取出班级
    val clazzRDD: RDD[(String, Int)] = lineRDD.map((line:String) => {
      val slazz: String = line.split(",")(4)
      (slazz,1)
    })

    //统计班级人数
    val clazz_sunRDD: RDD[(String, Int)] = clazzRDD.reduceByKey(_ + _)

    //整理数据
    val resultRDD: RDD[String] = clazz_sunRDD.map{
      case (clazz:String, clazz_sum:Int) =>
        s"班级名称:$clazz,班级人数:$clazz_sum"
    }

    /**
     * 保存数据之前删除已经存在的路径
     *
     */
    HdfsUtil.delete("/spark/target")

    //将数据保存到hdfs中
    resultRDD.saveAsTextFile("/spark/target")

    /**
     * 将项目打包上传到服务器
     *
     * spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
     *
     */
  }
}

编写工具类,直接调用。

启动命令
spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar

运行结果如下:

任务使用clientcluster区别(重点)

client

cluster

Spark架构

posted @ 2022-07-13 13:41  a-tao必须奥利给  阅读(137)  评论(0)    收藏  举报