spark UI 界面解释及数据倾斜处理办法

spark UI 界面：http://blog.csdn.net/u013013024/article/details/73498508
几个概念的解释：http://blog.csdn.net/jiangwlee/article/details/50774561

数据倾斜处理：

https://blog.csdn.net/kaede1209/article/details/81145560

https://www.cnblogs.com/frankdeng/p/9301695.html

总结
数据倾斜无法避免，也有没有一劳永逸的解决方式，处理数据倾斜是一个长期的过程需要我们慢慢积累经验，基本思想就是

1.首先从源头选择可以split的数据源，从源头避免倾斜

2.shufle过程中，增加并行度，减少shuffle 在map-side进行数据合并，避免reduce fetch数据倾斜

3.sample采样将倾斜的数据,特殊处理,这个方法可以适用于所有的数据倾斜问题，另外，就是我们尽量使用spark-sql，spark-sql里面优化器提供很多基本CRO和CBO的优化策略，不仅帮我们从源头帮我们去除无关的数据减少计算数据量，其次在计算过程中会根据我们的table 的数据量，自动帮我们计算合适task partition数量，和选择合适join策略，从而提升计算性能，也避免shufle 数据倾斜

原文链接：https://blog.csdn.net/kaede1209/java/article/details/81145560

posted @ 2020-05-06 14:38 静悟生慧阅读(1249) 评论(0) 收藏举报

刷新页面返回顶部

静悟生慧

spark UI 界面解释及数据倾斜处理办法

公告