第五章_Spark核心编程_Rdd_闭包检测&对象序列化

1. 说明

  /*闭包检查*/
  /*
  * 1. Scala的闭包
  *     如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包
  *     使用场景 :
  *         在嵌套函数中,内层函数可以 只用外层函数的任意变量
  *
  * 2. Spark的闭包
  *     1. 算子之外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行
  *     2. 在Spark中算子内的方法中经常用到 算子外的数据,这样就形参了闭包效果
  *
  * 3. Spark的闭包检查
  *     1. 当算子内的方法 使用算子外的数据时,会检查所用的数据是否可以被序列化
  *
  * 4. note
  *    由于Driver 需要将rdd的算子(计算规则)分发到不同的计算节点(Executor)上去执行
  *    ,如果被分发的计算规则中,使用到了Driver的对象,就需要将该对象序列化后也分发到
  *    相应的Executor上去
  *
  * 5. 对象怎样才能序列化？
  *    1.继承 Serializable
  *    2.case 修饰类(样例类)
  *
  * 6.关于 Serializable 和 Kryo 序列化框架
  *     Serializable : Java原生序列化框架,可以序列化任何类,但是比较重(序列化后字节数较多),
  *                    不利于网络io
  *     Kryo : Kryo 速度 是 Serializable 的 10 倍,从Spark2.0开始 shuffle数据时,简单的数据类型
  *            和数组和字符串类型已经使用Kryo
  *     note :
  *          1. 如果自定义的类也想使用Kryo,需要在Driver中注册
  *          2. 即是使用Kryo序列化,也要继承 Serializable接口
  *
  * */

2.示例

  /*Spark 闭包检查示例*/
  object foreachTest extends App {

    val sparkconf: SparkConf = new SparkConf()
      .setMaster("local")
      .setAppName("distinctTest")
      // 替换默认的序列化机制
      .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
      .registerKryoClasses(Array(classOf[comString]))

    // 注册需要使用 kryo 序列化的自定义类

    val sc: SparkContext = new SparkContext(sparkconf)

    //初始化一个Rdd
    val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "java"))

    //初始化comString 对象
    var com = new comString(10, "大王")

    //检查 参数 com对象是否能够被 序列化
    private val rdd1 = rdd.map(
      (_, com)
    )
    //检查 参数 com.id、com.name 可否被序列化
    private val rdd2 = rdd.map(
      (_, com.id, com.name)
    )

    rdd1.collect().foreach(println(_))

    sc.stop()
  }

  //1.继承 Serializable
  class comString(val id: Int, val name: String) extends Serializable

  case class comStringCase(val id: Int, val name: String)

posted @ 2022-04-01 07:38 学而不思则罔！阅读(137) 评论(0) 收藏举报

刷新页面返回顶部

私人小院

第五章_Spark核心编程_Rdd_闭包检测&对象序列化

1. 说明

2.示例

公告