08 2019 档案
摘要:1.压缩/解压 /* 压缩:可以最小化所需要的磁盘存储空间,以及减小磁盘和网络I/O操作,但是文件压缩和解压过程会增加CPU开销。因此,对于压缩密集型的job最好使用压缩,特别是有额外的CPU资源或者磁盘存储空间比较稀缺的情况。 */ -- BZip2压缩率最高,但是消耗最多的CPU开销 -- GZ
阅读全文
摘要:1.使用EXPLAN/EXPLAN EXTENDED查看执行计划 -- 待补充 2.本地模式 /* 有时候hive查询数据量是非常小的,这种情况下,为查询触发执行任务对的时间消耗有可能比实际job执行时间要多得多。对于大多数这种情况,Hive可以通过本地模式在单台机器上(或某些时候在单个进程中)处理
阅读全文
摘要:1.关于分区 1.HDFS用于设计存储数百万的大文件,而非数十亿的小文件,如果分区过多,会创建大量的小文件,最终会超出NameNode的处理能力。因为NameNode必须要将所有的系统文件的元数据信息保存到内存中。每个文件的元数据大小为150字节,但是会限制HDFS实例所能管理文件总数的上限。 2.
阅读全文
摘要:一.概念 视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构,换言之,hive目前不支持物化视图。 1.使用视图降低查询复杂度 -- 创建一个视图 CREATE VIEW tb1 AS SELECT * FROM t1 JOIN t2 ON t1.id = t2.id; --
阅读全文

浙公网安备 33010602011771号