摘要:任务划分 RDD任务切分中间分为:Application,Job,Stage,Task Application:初始化一个SparkContext就生成一个ApplicationJob:一个行动算子生成一个JobStage:根据RDD之间的依赖关系的不同将Job划分为不同的Stage,遇到一个宽依赖
阅读全文
摘要:序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。 Spark是分布式执行引擎,其核心抽象是弹性分布式数据集RDD,其代表了分布在不同节点的数据。 Spark的计算是在execut
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //map(func) object sampleRDD { def main(args: Array[String]): Unit =
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object reduceRDD { def main(args: Array[String]): Unit = { val conf:
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object KeyValueRDD { def main(args: Array[String]): Unit = { val con
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object cogroupRDD { def main(args: Array[String]): Unit = { val conf
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object joinRDD { def main(args: Array[String]): Unit = { val conf: S
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object KeyValueRDD { def main(args: Array[String]): Unit = { val con
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object kv2RDD { def main(args: Array[String]): Unit = { val conf: Sp
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object kvRDD { def main(args: Array[String]): Unit = { val conf: Spa
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object UnionRDD { def main(args: Array[String]): Unit = { val conf:
阅读全文
摘要:行动算子 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object sortByRDD { def main(args: Array[String]): Unit = { val
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object zipRDD { def main(args: Array[String]): Unit = { val conf: Sp
阅读全文
摘要:Spark 中最基本的数据抽象是 RDD。 RDD:弹性分布式数据集 (Resilient Distributed DataSet)。 不可变,分区,并行 Spark的算子的分类 (1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Value数据类型
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object coalesceRDD { def main(args: Array[String]): Unit = { //本地模式
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object distinctRDD { def main(args: Array[String]): Unit = { //本地模式
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object filterRDD { def main(args: Array[String]): Unit = { //本地模式 va
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //按照传入函数的返回值进行分组,将相同key对应的值放入一个迭代器 object groupbyRDD { def main(args
阅读全文
摘要:import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //glom的作用是将同一个分区里的元素合并到一个array里 object glomRDD { def main(args: Arra
阅读全文
摘要:对比结果2与结果3,很容易得出结论:map函数后,RDD的值为 Array(Array("a","b"),Array("c","d"),Array("e","f"))flatMap函数处理后,RDD的值为 Array("a","b","c","d","e","f")即最终可以认为,flatMap会将
阅读全文