随笔分类 -  Spark学习

摘要:sortBy函数源码:接收三个参数,第一个参数必须,第二个和第三个参数非必要 def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implicit o 阅读全文
posted @ 2018-01-05 17:49 麻雀虽小五脏俱全 阅读(29372) 评论(1) 推荐(0)
摘要:sortByKey函数作用于Key-Value形式的RDD,并对Key进行排序。 阅读全文
posted @ 2018-01-05 16:20 麻雀虽小五脏俱全 阅读(6868) 评论(0) 推荐(0)
摘要:1、数据样本: 1 52 43 61 32 11 142 454 113 235 126 13 2、排序规则:先按照第一个字符排序,如果第一个相同,再按照第二个字符排序 3、排序后的结果 1 31 51 142 12 42 453 63 234 115 126 13 4、spark二次排序实现 4. 阅读全文
posted @ 2018-01-03 19:24 麻雀虽小五脏俱全 阅读(1281) 评论(0) 推荐(0)
摘要:1、sc.version2、集群对象:SparkContext;获得Spark集群的SparkContext对象,是构造Spark应用的第一步!SparkContext对象代表 整个 Spark集群,是Spark框架 功能的入口 ,可以用来在集群中创建RDD、累加器变量和广播变量。SparkCont 阅读全文
posted @ 2017-10-11 18:01 麻雀虽小五脏俱全 阅读(855) 评论(0) 推荐(0)