摘要:
例如对一个JavaPairRDD<String, String>做遍历操作,常见的,我们可以通过先通过collect()操作将它转化为Map对象再进行遍历,也可以使用Spark提供的mapToPair方法进行遍历。然而两者的性能差距是非常显著的。 仅仅遍历1500条长度为155的序列,前者需要消耗6 阅读全文
posted @ 2016-12-17 20:28
蓝鲸王子
阅读(3137)
评论(0)
推荐(0)
摘要:
参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默认的spark的内存设置就不行了,需要重新设置。还没有看Spark源码,只能先搜搜相关的博客解决问题 阅读全文
posted @ 2016-12-17 18:37
蓝鲸王子
阅读(2492)
评论(0)
推荐(0)