spark - 随笔分类 - SENTIMENT_SONNE

spark调优总结1：内存溢出处理及优化

摘要：https://blog.csdn.net/zuolovefu/article/details/79024899 https://www.cnblogs.com/stillcoolme/p/10576563.html 阅读全文

posted @ 2019-09-24 12:55 SENTIMENT_SONNE 阅读(300) 评论(0) 推荐(0)

spark常用的算子总结（8）—— filter

摘要：把超过某一个数的拿出来collect 阅读全文

posted @ 2019-08-31 23:34 SENTIMENT_SONNE 阅读(963) 评论(0) 推荐(0)

spark常用的算子总结（7）—— join

摘要：join是根据key做两张表全连接阅读全文

posted @ 2019-08-31 23:32 SENTIMENT_SONNE 阅读(215) 评论(0) 推荐(0)

scala基础(2) --class constructor

摘要：class GFG(Lname: String, Tname: String, article: Int) { def show() { println("Language name: " + Lname); println("Topic name: " + Tname); println("Tot 阅读全文

posted @ 2019-08-24 19:11 SENTIMENT_SONNE 阅读(138) 评论(0) 推荐(0)

scala基础(1) -- map

摘要：creates Map val weights = Map("cat" -> 10, "elephant" -> 200000) val weight = weights("elephant") println(weight) val colors = Map(("bird", "blue"), ( 阅读全文

posted @ 2019-08-24 19:03 SENTIMENT_SONNE 阅读(255) 评论(0) 推荐(0)

spark常用的算子总结（6）—— sortByKey

摘要：//省略sc val arr = List(("A",1),("B",2),("A",2),("B",3)) val rdd = sc.parallelize(arr) val sortByKeyRDD = rdd.sortByKey() sortByKeyRDD.foreach(println) sc.stop # (A,1) # (A,2) # (B,2) # (B,3) #... 阅读全文

posted @ 2019-08-11 13:18 SENTIMENT_SONNE 阅读(196) 评论(0) 推荐(0)

Spark常用的算子总结（5）—— groupByKey

摘要：按Key进行分组，输入 List(("A",1),("B",2),("A",2),("B",3)) 输出然后对key进行个数统计 reduceByKeyt与groupByKey的区别？，在对大数据进行复杂计算时，reduceByKey优于groupByKey。阅读全文

posted @ 2019-08-11 12:28 SENTIMENT_SONNE 阅读(349) 评论(0) 推荐(0)

Spark常用的算子总结（4）—— reduceByKey

摘要：按Key进行分组，使用给定的func函数聚合value值, 阅读全文

posted @ 2019-08-11 12:26 SENTIMENT_SONNE 阅读(181) 评论(0) 推荐(0)

Spark常用的算子总结（3）—— flatMapValues

摘要：把一个pair里的values变成一个数组，然后k-v1 k-v2... 如果是mapValues会输出：【对比区别】 (mobin,List(22, male))(kpop,List(20, male))(lufei,List(23, male)) 阅读全文

posted @ 2019-08-11 12:24 SENTIMENT_SONNE 阅读(1593) 评论(0) 推荐(0)

Spark常用的算子总结（2）——flatMap

摘要：与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果 Array[Int] = Array( 1, 1, 2, 1, 2, 3, 1, 2, 3, 4) 阅读全文

posted @ 2019-08-11 12:17 SENTIMENT_SONNE 阅读(220) 评论(0) 推荐(0)

Spark常用的算子总结——Map

摘要：从一个list变成 key value 自定义函数生成新的rdd 就是把key value变成另一个key value 阅读全文

posted @ 2019-08-11 11:59 SENTIMENT_SONNE 阅读(1020) 评论(0) 推荐(0)

spark小案例实战3（scala + spark2 版本）

摘要：需求：对每个班级内的学生成绩，取出前3名。（分组取topn）实现步骤：遍历每组，获取每组的成绩将一组成绩转换成一个数组缓冲将数组缓冲按从大到小排序对排序后的数组缓冲取其前三打印输出阅读全文

posted @ 2019-08-11 11:00 SENTIMENT_SONNE 阅读(426) 评论(0) 推荐(0)

spark小案例实战2（scala + spark2 版本）：对两列排序

摘要：需求：实现步骤：阅读全文

posted @ 2019-08-11 10:59 SENTIMENT_SONNE 阅读(312) 评论(0) 推荐(0)

spark小案例实战1（scala + spark2 版本：wordcount+sort）

摘要：案例需求： 1、对文本文件内的每个单词都统计出其出现的次数。2、按照每个单词出现次数的数量，降序排序。步骤： 1.创建RDD 2.将文本进行拆分（flatMap) 3.将拆分后的单词进行统计 (mapToPair,reduceByKey) 4.反转键值对 (mapToPair) 5.按键升序排序阅读全文

posted @ 2019-08-11 10:57 SENTIMENT_SONNE 阅读(287) 评论(0) 推荐(0)

SENTIMENT_SONNE

随笔分类 - spark

公告