摘要: 分组求最新视图 目前业界主流的求最新视图的方法有两种: 求最大值自连接 --假设现在有表T:user_id,update_time --分组求最大值自连接 select user_id, max(update_time) as max_time from t group by user_id joi 阅读全文
posted @ 2020-01-08 14:26 ~清风煮酒~ 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜 当某个job长时间运行没有结束,可能发生了数据倾斜。 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 hive 比如说在Hive中,经常遇到count(distinc 阅读全文
posted @ 2020-01-08 10:25 ~清风煮酒~ 阅读(231) 评论(0) 推荐(0) 编辑