摘要: kylin怎样转成scan查询 阅读全文
posted @ 2020-06-20 22:01 dretrtg 阅读(269) 评论(0) 推荐(0)
摘要: 用到了快速排序,但不仅仅只用了快速排序,还结合了插入排序和堆排序 搬运自https://blog.csdn.net/qq_35440678/article/details/80147601 阅读全文
posted @ 2020-06-20 21:43 dretrtg 阅读(161) 评论(0) 推荐(0)
摘要: 可以引申为当distinct 时的性能 阅读全文
posted @ 2020-06-20 21:38 dretrtg 阅读(754) 评论(0) 推荐(0)
摘要: 暂定https://blog.csdn.net/lzm1340458776/article/details/43306115 阅读全文
posted @ 2020-06-20 21:22 dretrtg 阅读(287) 评论(0) 推荐(0)
摘要: JavaUDF函数使用了两种类型,分别测试了一下 阅读全文
posted @ 2020-06-04 13:12 dretrtg 阅读(427) 评论(0) 推荐(0)
摘要: 挖坑 https://databricks.com/blog 阅读全文
posted @ 2020-04-30 19:51 dretrtg 阅读(463) 评论(0) 推荐(0)
摘要: 肯定是放在里面了,这样会大大减少join的数据量,增加效率 阅读全文
posted @ 2020-04-27 21:09 dretrtg 阅读(166) 评论(0) 推荐(0)
摘要: 这两天也是被left join整蒙了 尽量使用通俗的解释 left join左边的字段不变,右边的字段在左边有的,就续在左边字段的右侧,如果左边没有,就显示为NULL 阅读全文
posted @ 2020-04-27 21:08 dretrtg 阅读(225) 评论(0) 推荐(0)
摘要: hive有时执行速度很慢,若hive on spark 的话,在sparkUI上可以清楚看到是否数据倾斜 优化方法: 1、增加reduce数目 hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec. 阅读全文
posted @ 2020-04-20 20:08 dretrtg 阅读(156) 评论(0) 推荐(0)
摘要: 除解决数据倾斜问题外,还要开启推测执行,寻找另一个executor执行task,哪个先完成就取哪个结果,再kill掉另一个。 阅读全文
posted @ 2020-04-20 20:06 dretrtg 阅读(464) 评论(0) 推荐(0)