文章分类 -  Spark

对于大数据spark等相关的内容学习总结
摘要:[toc] Spark集群搭建与运行流程 服务器准备 我使用的是ubuntu 16.04版本的4个虚拟主机,主机名为s200,s201,s202,s203 spark安装包spark 2.1.0 bin hadoop2.7.tgz,在这里我使用了root用户进行集群的搭建 集群规划 s200 : 用 阅读全文
posted @ 2019-03-09 10:52 刘丽刚 阅读(4141) 评论(0) 推荐(0)
摘要:[toc] Spark的shuffle分析 Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了 阅读全文
posted @ 2019-03-08 21:50 刘丽刚 阅读(509) 评论(0) 推荐(0)
摘要:[toc] Spark分组取topN与二次排序 分区取topN 将排序数据全部加载至内存 测试数据 方法一:将所有待排序的数据加载至内存,然后进行排序,取出前N个数据 方法二:对数据逐条过滤,将前三条选出 测试数据 方式一:全部加载至内存 方式二 java JavaRDD rdd = sc.text 阅读全文
posted @ 2019-03-08 19:41 刘丽刚 阅读(1065) 评论(0) 推荐(0)
摘要:[toc] Spark算子总结 RDD算子分类 value类transformation 输入分区与输出分区一对一 (1)map(func):生成一个新的RDD,新的RDD中每个元素均由父RDD通过作用func函数映射变换而来 (2)mapPartitions (3)flatMap 输入分区与输出分 阅读全文
posted @ 2019-03-07 16:44 刘丽刚 阅读(115) 评论(0) 推荐(0)