spark UI 界面解释及数据倾斜处理办法

spark UI 界面:http://blog.csdn.net/u013013024/article/details/73498508
几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561

 

数据倾斜处理:

https://blog.csdn.net/kaede1209/article/details/81145560

https://www.cnblogs.com/frankdeng/p/9301695.html

 

 

 

 

总结
      数据倾斜无法避免,也有没有一劳永逸的解决方式,处理数据倾斜是一个长期的过程需要我们慢慢积累经验,基本思想就是

         1.首先从源头选择可以split的数据源,从源头避免倾斜

         2.shufle过程中,增加并行度,减少shuffle 在map-side进行数据合并,避免reduce fetch数据倾斜

         3.sample采样将倾斜的数据,特殊处理,这个方法可以适用于所有的数据倾斜问题, 另外,就是我们尽量使用spark-sql,spark-sql里面优化器提供很多基本CRO和CBO的优化策略,不仅帮我们从源头帮我们去除无关的数据减少计算数据量,其次在计算过程中会根据我们的table 的数据量,自动帮我们计算合适task partition数量,和选择合适join策略,从而提升计算性能,也避免shufle 数据倾斜


原文链接:https://blog.csdn.net/kaede1209/java/article/details/81145560

posted @ 2020-05-06 14:38  静悟生慧  阅读(1133)  评论(0编辑  收藏  举报