鲁边 - 博客园

摘要：今天有个小伙伴问我，什么是谓词下推，然后我就开启巴拉巴拉模式，说了好长一段时间，结果发现他还是懵的。最后我概述给他一句话：所谓谓词下推，就是将尽可能多的判断更贴近数据源，以使查询时能跳过无关的数据。用在SQL优化上来说，就是先过滤再做聚合等操作。看到这里的朋友可能就已经明白了什么是谓词下推，如果阅读全文

posted @ 2022-08-16 01:39 鲁边阅读(5040) 评论(0) 推荐(0)

2022年8月14日

Hive存储格式之RCFile详解，RCFile的过去现在和未来

摘要：我在整理Hive的存储格式和压缩格式，本来打算一篇发出来，结果其中一小节就有很多内容，于是打算写成Hive存储格式和压缩格式系列。本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile。综述 RCFile（Record Columnar File）文件格式是FaceBook开源的一种阅读全文

posted @ 2022-08-14 20:05 鲁边阅读(1630) 评论(0) 推荐(0)

2022年8月7日

什么是hive的静态分区和动态分区，它们又有什么区别呢？hive动态分区详解

摘要：

关于hive的静态分区和动态分区怎么用，又有什么区别呢， hive动态分区详解阅读全文

posted @ 2022-08-07 18:05 鲁边阅读(2749) 评论(0) 推荐(0)

2022年8月2日

关于hive分区，你知道多少呢？

摘要：文末查看关键字，回复赠书一、理论基础 1.Hive分区背景在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2.Hive分区实质因为Hive实际是存储在HDFS上的抽象，Hive 阅读全文

posted @ 2022-08-02 17:59 鲁边阅读(943) 评论(0) 推荐(0)

鲁边

公告