2016 年 12月 17 日随笔档案 - 蓝鲸王子

2016年12月17日

摘要：例如对一个JavaPairRDD<String, String>做遍历操作，常见的，我们可以通过先通过collect()操作将它转化为Map对象再进行遍历，也可以使用Spark提供的mapToPair方法进行遍历。然而两者的性能差距是非常显著的。仅仅遍历1500条长度为155的序列，前者需要消耗6 阅读全文

posted @ 2016-12-17 20:28 蓝鲸王子阅读(3144) 评论(0) 推荐(0)

配置Spark on YARN集群内存

摘要：参考原文：http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大，默认的spark的内存设置就不行了，需要重新设置。还没有看Spark源码，只能先搜搜相关的博客解决问题阅读全文

posted @ 2016-12-17 18:37 蓝鲸王子阅读(2496) 评论(0) 推荐(0)

公告