1. 说明
/*闭包检查*/
/*
* 1. Scala的闭包
* 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包
* 使用场景 :
* 在嵌套函数中,内层函数可以 只用外层函数的任意变量
*
* 2. Spark的闭包
* 1. 算子之外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行
* 2. 在Spark中算子内的方法中经常用到 算子外的数据,这样就形参了闭包效果
*
* 3. Spark的闭包检查
* 1. 当算子内的方法 使用算子外的数据时,会检查所用的数据是否可以被序列化
*
* 4. note
* 由于Driver 需要将rdd的算子(计算规则)分发到不同的计算节点(Executor)上去执行
* ,如果被分发的计算规则中,使用到了Driver的对象,就需要将该对象序列化后也分发到
* 相应的Executor上去
*
* 5. 对象怎样才能序列化?
* 1.继承 Serializable
* 2.case 修饰类(样例类)
*
* 6.关于 Serializable 和 Kryo 序列化框架
* Serializable : Java原生序列化框架,可以序列化任何类,但是比较重(序列化后字节数较多),
* 不利于网络io
* Kryo : Kryo 速度 是 Serializable 的 10 倍,从Spark2.0开始 shuffle数据时,简单的数据类型
* 和数组和字符串类型已经使用Kryo
* note :
* 1. 如果自定义的类也想使用Kryo,需要在Driver中注册
* 2. 即是使用Kryo序列化,也要继承 Serializable接口
*
* */
2.示例
/*Spark 闭包检查示例*/
object foreachTest extends App {
val sparkconf: SparkConf = new SparkConf()
.setMaster("local")
.setAppName("distinctTest")
// 替换默认的序列化机制
.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
.registerKryoClasses(Array(classOf[comString]))
// 注册需要使用 kryo 序列化的自定义类
val sc: SparkContext = new SparkContext(sparkconf)
//初始化一个Rdd
val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "java"))
//初始化comString 对象
var com = new comString(10, "大王")
//检查 参数 com对象是否能够被 序列化
private val rdd1 = rdd.map(
(_, com)
)
//检查 参数 com.id、com.name 可否被序列化
private val rdd2 = rdd.map(
(_, com.id, com.name)
)
rdd1.collect().foreach(println(_))
sc.stop()
}
//1.继承 Serializable
class comString(val id: Int, val name: String) extends Serializable
case class comStringCase(val id: Int, val name: String)