Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?
摘要:
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘,并且为下游的每个Task都生成一个单独的文件。这样解决了Shuff... 阅读全文
posted @ 2015-01-11 15:13 wu2198 阅读(694) 评论(0) 推荐(0)
浙公网安备 33010602011771号