摘要:
Hive调优及优化的12种方式 请记住:在数据处理中,不怕数据量大,就怕数据倾斜! 针对于Hive内部调优的一些方式 01.请慎重使用COUNT(DISTINCT col); 原因: distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为 阅读全文
posted @ 2022-01-12 18:41
《彼岸花开》
阅读(2617)
评论(0)
推荐(0)
摘要:
HIVE-SQL优化 hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。 其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁); 避免数据倾斜(例如加参数、Key打散); 避免全表扫描(例如on添加加上分区等); 减少job数(例如相 阅读全文
posted @ 2022-01-12 17:09
《彼岸花开》
阅读(492)
评论(0)
推荐(0)