摘要: https://www.cnblogs.com/wxw16/p/6105624.html 阅读全文
posted @ 2020-07-05 21:09 dretrtg 阅读(227) 评论(0) 推荐(0)
摘要: kylin怎样转成scan查询 阅读全文
posted @ 2020-06-20 22:01 dretrtg 阅读(270) 评论(0) 推荐(0)
摘要: 用到了快速排序,但不仅仅只用了快速排序,还结合了插入排序和堆排序 搬运自https://blog.csdn.net/qq_35440678/article/details/80147601 阅读全文
posted @ 2020-06-20 21:43 dretrtg 阅读(163) 评论(0) 推荐(0)
摘要: 可以引申为当distinct 时的性能 阅读全文
posted @ 2020-06-20 21:38 dretrtg 阅读(766) 评论(0) 推荐(0)
摘要: 暂定https://blog.csdn.net/lzm1340458776/article/details/43306115 阅读全文
posted @ 2020-06-20 21:22 dretrtg 阅读(291) 评论(0) 推荐(0)
摘要: JavaUDF函数使用了两种类型,分别测试了一下 阅读全文
posted @ 2020-06-04 13:12 dretrtg 阅读(429) 评论(0) 推荐(0)
摘要: 挖坑 https://databricks.com/blog 阅读全文
posted @ 2020-04-30 19:51 dretrtg 阅读(467) 评论(0) 推荐(0)
摘要: 肯定是放在里面了,这样会大大减少join的数据量,增加效率 阅读全文
posted @ 2020-04-27 21:09 dretrtg 阅读(169) 评论(0) 推荐(0)
摘要: 这两天也是被left join整蒙了 尽量使用通俗的解释 left join左边的字段不变,右边的字段在左边有的,就续在左边字段的右侧,如果左边没有,就显示为NULL 阅读全文
posted @ 2020-04-27 21:08 dretrtg 阅读(226) 评论(0) 推荐(0)
摘要: hive有时执行速度很慢,若hive on spark 的话,在sparkUI上可以清楚看到是否数据倾斜 优化方法: 1、增加reduce数目 hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec. 阅读全文
posted @ 2020-04-20 20:08 dretrtg 阅读(159) 评论(0) 推荐(0)