文章分类 -  Spark

摘要:Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高效的同时,也就限定了自己的使用场景。如果Tungsten-sort 发现自己无法处理,则会自动使用 Sor 阅读全文
posted @ 2022-10-25 18:47 keep每天进步一点点 阅读(199) 评论(0) 推荐(0)
摘要:Spark 可以跑在很多集群上,比如跑在local上,跑在Standalone上,跑在Apache Mesos上,跑在Hadoop YARN上等等。不管你Spark跑在什么上面,它的代码都是一样的,区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行 阅读全文
posted @ 2021-12-03 17:17 keep每天进步一点点 阅读(206) 评论(0) 推荐(0)