随笔分类 -  Hive

上一页 1 2
hive表管理
摘要:Hive 0.14.0版本,建表管理 https://blog.csdn.net/Thomson617/article/details/86153924 分桶表 分桶对应hdfs目录下的一个个文件,它是将1张大表进行hash(表行索引多分桶数hash,hash值相同的到同一个文件中去),将一份数据拆 阅读全文
posted @ 2020-09-07 16:12 架构艺术 阅读(321) 评论(0) 推荐(0)
5. hive ORC使用压缩
摘要:创建一个使用 Snappy 压缩的 ORC 格式的表 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id strin 阅读全文
posted @ 2020-09-07 11:34 架构艺术 阅读(502) 评论(0) 推荐(0)
4. hive parquet使用压缩
摘要:DROP TABLE IF EXISTS dm_xx.t_adl_daily_all_users_v1; USE dm_xx; CREATE TABLE IF NOT EXISTS dm_xx.t_adl_daily_all_users_v1( aa string COMMENT ' ' ,bb s 阅读全文
posted @ 2020-09-07 11:25 架构艺术 阅读(1262) 评论(0) 推荐(0)
3. 文件存储格式
摘要:Hive 支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 1 默认存储格式:TEXTFILEHive 在创建表的时候的时候如果没有使用row format 或者 stored as 子句, 那么这个时候 Hive 所使用的默认存储格式就是TEXTFIL 阅读全文
posted @ 2020-09-07 11:23 架构艺术 阅读(666) 评论(0) 推荐(0)
2. Reduce 输出压缩
摘要:当 Hive 将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。 用户可能需要保持默认设置文件中的默认值false,这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true,来在当前会话中开启输出 阅读全文
posted @ 2020-09-07 11:16 架构艺术 阅读(137) 评论(0) 推荐(0)
1. 开启 Map 输出阶段压缩(中间压缩)
摘要:1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i 阅读全文
posted @ 2020-09-07 11:00 架构艺术 阅读(338) 评论(0) 推荐(0)
hivesql常用set
摘要:hive常用参数设置 --并行 set hive.exec.parallel=true; --* 动态分区 set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=500 阅读全文
posted @ 2020-09-04 11:19 架构艺术 阅读(2806) 评论(0) 推荐(0)

上一页 1 2