会员
众包
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
零、
博客园
首页
新随笔
联系
订阅
管理
2017年8月10日
Hive SQL count(distinct)效率问题及优化
摘要: 上周拿到了我的第一个工作任务,统计一个按天分区每天都有百亿条数据条的hive表中account字段的非重用户数(大概两千万)。后来又更改为按id字段分别统计每个id的用户数。 按照我数据库老师的教导,我很轻易的跳出来了count(distinct account)这个句子。然后写上了一行查询,等待了
阅读全文
posted @ 2017-08-10 15:08 零、
阅读(4401)
评论(0)
推荐(0)
编辑
公告