1.说明
/*
* RDD 任务切分中间分为:Application、Job、Stage 和 Task
Application:初始化一个SparkContext即生成一个Application;
new SparkConf().setMaster("local").setAppName("distinctTest")
Job:一个Action算子就会生成一个Job
每触发一个Action算子,就会提交一个job
Stage:Stage等于宽依赖(ShuffleDependency)的个数加1;
将每个job,根据是否Shuffle 拆分成不同的Stage
Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。
note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。
*
* */
2.示例
object TaskTest extends App {
val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")
val sc: SparkContext = new SparkContext(sparkconf)
private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")
private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))
private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)
private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))
println("****rdd*********************")
println(rdd.toDebugString)
println("****rdd1*********************")
println(rdd1.toDebugString)
println("*****rdd2********************")
println(rdd2.toDebugString)
println("*****rdd3********************")
println(rdd3.toDebugString)
rdd3.collect().foreach(println(_))
sc.stop()
}