随笔分类 -  Hive

摘要:1、数据倾斜原因 数据倾斜主要表现在,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长。这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他 阅读全文
posted @ 2023-03-18 11:30 Solong1989 阅读(257) 评论(0) 推荐(0)
摘要:Hive:select count(distinct)优化以及hive.groupby.skewindata 原文链接:https://juejin.cn/post/6926536667877048333 问题引入 数据分析师小A接到需求,需要统计当日各个省份20岁以下的日活跃用户数(去重统计use 阅读全文
posted @ 2021-07-01 16:54 Solong1989 阅读(1487) 评论(0) 推荐(0)