Spark - 随笔分类(第2页) - happygril3

DAG

摘要：任务划分 RDD任务切分中间分为：Application,Job,Stage,Task Application:初始化一个SparkContext就生成一个ApplicationJob:一个行动算子生成一个JobStage:根据RDD之间的依赖关系的不同将Job划分为不同的Stage，遇到一个宽依赖阅读全文

posted @ 2020-09-24 16:38 happygril3 阅读(371) 评论(0) 推荐(0)

序列化

摘要：序列化就是指将一个对象转化为二进制的byte流（注意，不是bit流），然后以文件的方式进行保存或通过网络传输，等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。 Spark是分布式执行引擎，其核心抽象是弹性分布式数据集RDD，其代表了分布在不同节点的数据。 Spark的计算是在execut 阅读全文

posted @ 2020-09-24 14:26 happygril3 阅读(177) 评论(0) 推荐(0)

sample

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //map(func) object sampleRDD { def main(args: Array[String]): Unit = 阅读全文

posted @ 2020-09-24 10:59 happygril3 阅读(170) 评论(0) 推荐(0)

行动算子

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object reduceRDD { def main(args: Array[String]): Unit = { val conf: 阅读全文

posted @ 2020-09-24 10:57 happygril3 阅读(139) 评论(0) 推荐(0)

mapValues

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object KeyValueRDD { def main(args: Array[String]): Unit = { val con 阅读全文

posted @ 2020-09-24 09:43 happygril3 阅读(294) 评论(0) 推荐(0)

cogroup

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object cogroupRDD { def main(args: Array[String]): Unit = { val conf 阅读全文

posted @ 2020-09-23 19:52 happygril3 阅读(137) 评论(0) 推荐(0)

join

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object joinRDD { def main(args: Array[String]): Unit = { val conf: S 阅读全文

posted @ 2020-09-23 19:41 happygril3 阅读(168) 评论(0) 推荐(0)

mapValues

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object KeyValueRDD { def main(args: Array[String]): Unit = { val con 阅读全文

posted @ 2020-09-23 19:40 happygril3 阅读(200) 评论(0) 推荐(0)

keyValue

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object kv2RDD { def main(args: Array[String]): Unit = { val conf: Sp 阅读全文

posted @ 2020-09-23 19:24 happygril3 阅读(178) 评论(0) 推荐(0)

partitionBy

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object kvRDD { def main(args: Array[String]): Unit = { val conf: Spa 阅读全文

posted @ 2020-09-21 18:58 happygril3 阅读(326) 评论(0) 推荐(0)

交并集合

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object UnionRDD { def main(args: Array[String]): Unit = { val conf: 阅读全文

posted @ 2020-09-21 17:55 happygril3 阅读(66) 评论(0) 推荐(0)

Sortby

摘要：行动算子 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object sortByRDD { def main(args: Array[String]): Unit = { val 阅读全文

posted @ 2020-09-21 17:54 happygril3 阅读(234) 评论(0) 推荐(0)

zip

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object zipRDD { def main(args: Array[String]): Unit = { val conf: Sp 阅读全文

posted @ 2020-09-21 17:18 happygril3 阅读(195) 评论(0) 推荐(0)

算子

摘要：Spark 中最基本的数据抽象是 RDD。 RDD：弹性分布式数据集 (Resilient Distributed DataSet)。不可变，分区，并行 Spark的算子的分类（1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Value数据类型阅读全文

posted @ 2020-09-18 19:20 happygril3 阅读(322) 评论(0) 推荐(0)

coalesce

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object coalesceRDD { def main(args: Array[String]): Unit = { //本地模式阅读全文

posted @ 2020-09-18 19:06 happygril3 阅读(260) 评论(0) 推荐(0)

distinct

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object distinctRDD { def main(args: Array[String]): Unit = { //本地模式阅读全文

posted @ 2020-09-18 18:58 happygril3 阅读(405) 评论(0) 推荐(0)

filter

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object filterRDD { def main(args: Array[String]): Unit = { //本地模式 va 阅读全文

posted @ 2020-09-18 16:48 happygril3 阅读(84) 评论(0) 推荐(0)

groupby

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //按照传入函数的返回值进行分组，将相同key对应的值放入一个迭代器 object groupbyRDD { def main(args 阅读全文

posted @ 2020-09-18 16:42 happygril3 阅读(171) 评论(0) 推荐(0)

glom

摘要：import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //glom的作用是将同一个分区里的元素合并到一个array里 object glomRDD { def main(args: Arra 阅读全文

posted @ 2020-09-18 16:32 happygril3 阅读(141) 评论(0) 推荐(0)

flatMap

摘要：对比结果2与结果3，很容易得出结论：map函数后，RDD的值为 Array(Array("a","b"),Array("c","d"),Array("e","f"))flatMap函数处理后，RDD的值为 Array("a","b","c","d","e","f")即最终可以认为，flatMap会将阅读全文

posted @ 2020-09-18 16:08 happygril3 阅读(297) 评论(0) 推荐(0)

happygril3

随笔分类 - Spark

导航

公告