随笔分类 - spark
摘要:https://blog.csdn.net/zuolovefu/article/details/79024899 https://www.cnblogs.com/stillcoolme/p/10576563.html
阅读全文
摘要:把超过某一个数的拿出来collect
阅读全文
摘要:join是根据key做两张表全连接
阅读全文
摘要:class GFG(Lname: String, Tname: String, article: Int) { def show() { println("Language name: " + Lname); println("Topic name: " + Tname); println("Tot
阅读全文
摘要:creates Map val weights = Map("cat" -> 10, "elephant" -> 200000) val weight = weights("elephant") println(weight) val colors = Map(("bird", "blue"), (
阅读全文
摘要://省略sc val arr = List(("A",1),("B",2),("A",2),("B",3)) val rdd = sc.parallelize(arr) val sortByKeyRDD = rdd.sortByKey() sortByKeyRDD.foreach(println) sc.stop # (A,1) # (A,2) # (B,2) # (B,3) #...
阅读全文
摘要:按Key进行分组, 输入 List(("A",1),("B",2),("A",2),("B",3)) 输出 然后对key进行个数统计 reduceByKeyt与groupByKey的区别? ,在对大数据进行复杂计算时,reduceByKey优于groupByKey。
阅读全文
摘要:按Key进行分组,使用给定的func函数聚合value值,
阅读全文
摘要:把一个pair里的values变成一个数组,然后k-v1 k-v2... 如果是mapValues会输出:【对比区别】 (mobin,List(22, male))(kpop,List(20, male))(lufei,List(23, male))
阅读全文
摘要:与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果 Array[Int] = Array( 1, 1, 2, 1, 2, 3, 1, 2, 3, 4)
阅读全文
摘要:从一个list变成 key value 自定义函数生成新的rdd 就是把key value变成另一个key value
阅读全文
摘要:需求: 对每个班级内的学生成绩,取出前3名。(分组取topn) 实现步骤: 遍历每组,获取每组的成绩 将一组成绩转换成一个数组缓冲 将数组缓冲按从大到小排序 对排序后的数组缓冲取其前三 打印输出
阅读全文
摘要:需求: 实现步骤:
阅读全文
摘要:案例需求: 1、对文本文件内的每个单词都统计出其出现的次数。2、按照每个单词出现次数的数量,降序排序。 步骤: 1.创建RDD 2.将文本进行拆分 (flatMap) 3.将拆分后的单词进行统计 (mapToPair,reduceByKey) 4.反转键值对 (mapToPair) 5.按键升序排序
阅读全文

浙公网安备 33010602011771号