hive - 随笔分类 - 兴风作浪

hive参数配置详细

摘要：hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，阅读全文

posted @ 2019-04-22 20:13 兴风作浪阅读(3636) 评论(0) 推荐(0)

hive中控制文件生产个数

摘要：在有些时候，想要控制hql执行的mapper,reducer个数,reducer设置过少，会导致每个reducer要处理的数据过多，这样可能会导致OOM异常，如果reducer设置过多，则会导致产生很多小文件，这样对任务的执行以及集群都不太好.通常情况下这两个参数都不需要手动设置，Hive会根据文件阅读全文

posted @ 2019-04-22 20:09 兴风作浪阅读(3315) 评论(0) 推荐(0)

hive动态分区

摘要：往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。 1.创建一个单一字段分区表 hive> creat 阅读全文

posted @ 2019-04-21 22:05 兴风作浪阅读(1732) 评论(0) 推荐(0)

hive小文件合并设置参数

摘要：Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个阅读全文

posted @ 2019-04-21 19:16 兴风作浪阅读(5664) 评论(0) 推荐(0)

hive新功能cube和rollup

摘要：1、cube简称数据魔方，可以实现hive多个任意维度的查询，cube(a,b,c)则首先会对(a,b,c)进行group by，然后依次是(a,b),(a,c),(a),(b,c),(b),(c),最后在对全表进行group by，他会统计所选列中值的所有组合的聚合 select device_i 阅读全文

posted @ 2019-04-16 16:19 兴风作浪阅读(1546) 评论(0) 推荐(0)

hive常用命令

摘要：一. 显示地展示当前使用的数据库 hive> set hive.cli.print.current.db=true; ̶ 切换当前的数据库 hive(default)> USE hduser4801; ̶ 使Hive显示列头 set hive.cli.print.header=true; ̶ 创建数阅读全文

posted @ 2019-04-16 16:03 兴风作浪阅读(1173) 评论(0) 推荐(0)

兴风作浪

随笔分类 - hive

公告