dretrtg - 博客园

2020年7月5日

深入理解MySql子查询IN的执行和优化

摘要： https://www.cnblogs.com/wxw16/p/6105624.html 阅读全文

posted @ 2020-07-05 21:09 dretrtg 阅读(230) 评论(0) 推荐(0)

2020年6月20日

kylin的实现原理

摘要： kylin怎样转成scan查询阅读全文

posted @ 2020-06-20 22:01 dretrtg 阅读(280) 评论(0) 推荐(0)

sort by背后使用了什么排序算法

摘要：用到了快速排序，但不仅仅只用了快速排序，还结合了插入排序和堆排序搬运自https://blog.csdn.net/qq_35440678/article/details/80147601 阅读全文

posted @ 2020-06-20 21:43 dretrtg 阅读(174) 评论(0) 推荐(0)

有序数组和无序数组去重时间复杂度

摘要：可以引申为当distinct 时的性能阅读全文

posted @ 2020-06-20 21:38 dretrtg 阅读(781) 评论(0) 推荐(0)

cluster by 和 distribute by性能差异

摘要：暂定https://blog.csdn.net/lzm1340458776/article/details/43306115 阅读全文

posted @ 2020-06-20 21:22 dretrtg 阅读(295) 评论(0) 推荐(0)

2020年6月4日

stringbuilder和stringbuffer速度比较

摘要： JavaUDF函数使用了两种类型，分别测试了一下阅读全文

posted @ 2020-06-04 13:12 dretrtg 阅读(439) 评论(0) 推荐(0)

2020年4月30日

新挖个坑，准备学习一下databricks的spark博客

摘要：挖坑 https://databricks.com/blog 阅读全文

posted @ 2020-04-30 19:51 dretrtg 阅读(481) 评论(0) 推荐(0)

2020年4月27日

当涉及多个子查询或者多重连接，筛选条件是放在各查询内部还是统一放在外部？

摘要：肯定是放在里面了，这样会大大减少join的数据量，增加效率阅读全文

posted @ 2020-04-27 21:09 dretrtg 阅读(172) 评论(0) 推荐(0)

摘要：这两天也是被left join整蒙了尽量使用通俗的解释 left join左边的字段不变，右边的字段在左边有的，就续在左边字段的右侧，如果左边没有，就显示为NULL 阅读全文

posted @ 2020-04-27 21:08 dretrtg 阅读(227) 评论(0) 推荐(0)

2020年4月20日

hive的调优策略

摘要： hive有时执行速度很慢，若hive on spark 的话，在sparkUI上可以清楚看到是否数据倾斜优化方法： 1、增加reduce数目 hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G） hive.exec. 阅读全文

posted @ 2020-04-20 20:08 dretrtg 阅读(169) 评论(0) 推荐(0)