08 2017 档案

java 实现top N排序
摘要:用spark api 实现java top N 排序 测试数据: 12346778899987121121214556 阅读全文

posted @ 2017-08-31 17:08 ptbx 阅读(823) 评论(0) 推荐(0)

使用java 实现二次排序
摘要:二次排序工具类: 测试数据: 1 43 44 64 94 186 65 98 98 94 6 阅读全文

posted @ 2017-08-31 14:12 ptbx 阅读(1448) 评论(0) 推荐(0)

spark wordCount 按照出现次数排序
摘要:import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext;... 阅读全文

posted @ 2017-08-30 12:46 ptbx 阅读(1297) 评论(0) 推荐(0)

spark Broadcast Variable 和Accumulator
摘要:Broadcast Variable(广播变量) 仅为每个节点拷贝,更大的用处是优化性能减少网络以及内存消耗 Spark提供的Broadcast Variable,是只读的。并且在每个节点上只会有一份副本,而不会为每个task都拷贝一份副本。因此其最大作用,就是减少变量到各个节点的网络传输消耗,以及 阅读全文

posted @ 2017-08-29 15:42 ptbx 阅读(233) 评论(0) 推荐(0)

spark Transformation 和action 例子
摘要:包含算子有: Map、filter、flatMap、groupByKey、reduceByKey、SortByKey、join、cogroup 示例代码如下: 阅读全文

posted @ 2017-08-27 19:03 ptbx 阅读(260) 评论(0) 推荐(0)