随笔档案「2019年8月」 - 行走的灵魂

HiveQL:文件格式和压缩方法

摘要：1.压缩/解压 /* 压缩：可以最小化所需要的磁盘存储空间，以及减小磁盘和网络I/O操作，但是文件压缩和解压过程会增加CPU开销。因此，对于压缩密集型的job最好使用压缩，特别是有额外的CPU资源或者磁盘存储空间比较稀缺的情况。 */ -- BZip2压缩率最高，但是消耗最多的CPU开销 -- GZ 阅读全文

posted @ 2019-08-22 17:18 行走的灵魂阅读(356) 评论(0) 推荐(0)

HiveQL:调优

摘要：1.使用EXPLAN/EXPLAN EXTENDED查看执行计划 -- 待补充 2.本地模式 /* 有时候hive查询数据量是非常小的，这种情况下，为查询触发执行任务对的时间消耗有可能比实际job执行时间要多得多。对于大多数这种情况，Hive可以通过本地模式在单台机器上(或某些时候在单个进程中)处理阅读全文

posted @ 2019-08-22 16:34 行走的灵魂阅读(148) 评论(0) 推荐(0)

HiveQL:模式设计

摘要：1.关于分区 1.HDFS用于设计存储数百万的大文件，而非数十亿的小文件，如果分区过多，会创建大量的小文件，最终会超出NameNode的处理能力。因为NameNode必须要将所有的系统文件的元数据信息保存到内存中。每个文件的元数据大小为150字节，但是会限制HDFS实例所能管理文件总数的上限。 2. 阅读全文

posted @ 2019-08-21 20:44 行走的灵魂阅读(179) 评论(0) 推荐(0)

HiveQL:视图

摘要：一.概念视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构，换言之，hive目前不支持物化视图。 1.使用视图降低查询复杂度 -- 创建一个视图 CREATE VIEW tb1 AS SELECT * FROM t1 JOIN t2 ON t1.id = t2.id; -- 阅读全文

posted @ 2019-08-21 19:47 行走的灵魂阅读(318) 评论(0) 推荐(0)

行走的灵魂

08 2019 档案

公告