Spark整合yarn

原因：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群

在spark sbin目录下执行 

./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加 exportHADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-all.sh

cd /usr/local/soft/hadoop-2.7.6/etc/hadoop

vim yarn-site.xml

增加配置
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

3.spark on yarn client模式日志在本地输出，一班用于上线前测试

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client spark-examples_2.11-2.4.5.jar 100

4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志  执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

将spark代码打成 jar 包提交到集群中运行

代码如下：

package com.core.day2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import com.core.utils.HdfsUtil

object Demo18SparkYarnSubmit {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()

    conf.setAppName("submit")


    /**
     * 提交到集群运行需要注释master
     *
     */
     //conf.setMaster("local")

    val sc = new SparkContext(conf)

    //读取hdfs中的文件
    val lineRDD: RDD[String] = sc.textFile("/spark/data/")

    //取出班级
    val clazzRDD: RDD[(String, Int)] = lineRDD.map((line:String) => {
      val slazz: String = line.split(",")(4)
      (slazz,1)
    })

    //统计班级人数
    val clazz_sunRDD: RDD[(String, Int)] = clazzRDD.reduceByKey(_ + _)

    //整理数据
    val resultRDD: RDD[String] = clazz_sunRDD.map{
      case (clazz:String, clazz_sum:Int) =>
        s"班级名称：$clazz,班级人数：$clazz_sum"
    }

    /**
     * 保存数据之前删除已经存在的路径
     *
     */
    HdfsUtil.delete("/spark/target")

    //将数据保存到hdfs中
    resultRDD.saveAsTextFile("/spark/target")

    /**
     * 将项目打包上传到服务器
     *
     * spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
     *
     */
  }
}

编写工具类，直接调用。

启动命令

spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar

运行结果如下：

任务使用client和cluster区别(重点)

client

cluster

Spark架构

posted @ 2022-07-13 13:41 a-tao必须奥利给阅读(157) 评论(0) 收藏举报

刷新页面返回顶部

atao-BigData

人生如逆旅，你我亦行人。

Spark整合yarn

Spark整合yarn

原因：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群

1、增加hadoop 配置文件地址

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

3.spark on yarn client模式日志在本地输出，一班用于上线前测试

4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io

将spark代码打成 jar 包提交到集群中运行

代码如下：

编写工具类，直接调用。

启动命令

运行结果如下：

任务使用client和cluster区别(重点)

client

cluster

Spark架构

公告

atao-BigData

人生如逆旅，你我亦行人。

Spark整合yarn

Spark整合yarn

原因：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群

1、增加hadoop 配置文件地址

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

3.spark on yarn client模式 日志在本地输出，一班用于上线前测试

4.spark on yarn cluster模式 上线使用，不会再本地打印日志 减少io

将spark代码打成 jar 包提交到集群中运行

代码如下：

编写工具类，直接调用。

启动命令

运行结果如下：

任务使用client和cluster区别(重点)

client

cluster

Spark架构

公告

3.spark on yarn client模式日志在本地输出，一班用于上线前测试

4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io