摘要: Spark SQL | 数据倾斜问题 问题: 数据倾斜,由于数据分区不均匀,某一task或一部分task承担数据量太大,导致整体任务卡死,或运行太长时间没有结果,一半在大表join中出现,具体可能有一下,group by维度过小 如几十亿数据分组维度只有几个值;空值过多某列数据不好,null或者空值 阅读全文
posted @ 2022-02-27 22:08 —清风碎心— 阅读(307) 评论(0) 推荐(0) 编辑
摘要: CDH | LinuxCentOS7挂载 CDH DataNode扩容 4T 问题: CDH集群因业务数据过多,HDFS使用率已经超过90%,需要给CDH的HDFS扩容 解决: 向运维部门给每台机器申请了4T硬盘,挂载小于2T硬盘空间使用fdisk即可,大于2T空间则使用parted,使用GPT分区 阅读全文
posted @ 2022-02-27 21:50 —清风碎心— 阅读(345) 评论(0) 推荐(0) 编辑