spark shuffle:分区原理及相关的疑问
摘要:
一、分区原理 1.为什么要分区?(这个借用别人的一段话来阐述。) 为了减少网络传输,需要增加cpu计算负载。数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免 阅读全文
posted @ 2018-06-23 16:28 moonlight.ml 阅读(3619) 评论(0) 推荐(0)
浙公网安备 33010602011771号