上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 35 下一页
摘要: 1. count(distinct) 调优 说明 : count(distinct) 会启用一个 ReduceTask 来完成,当数据量巨大时,单个ReduceTask 无法完成 在对大量数据做 count(distinct)操作时, 可以使用 group by 后,再 count ,将任务拆分 示 阅读全文
posted @ 2022-02-11 11:02 学而不思则罔! 阅读(437) 评论(0) 推荐(0)
摘要: 1. 对group by的调优 (开启map端聚合) 说明 : 默认情况下 Map阶段相同的key 会被发送到同一个reduce中去聚合 当某个key数据量过大时,就造成了数据倾斜 什么是map端聚合? 并不是所有聚合操作,都需要在reduce端聚合,可以在map端先将部分数据,进行聚合,最终数据在 阅读全文
posted @ 2022-02-11 10:59 学而不思则罔! 阅读(1872) 评论(0) 推荐(0)
摘要: 1. hive 的三种join 1. reduceJoin 也叫 Common Join、Shuffle Join 2. MapJoin 3. Sort Merge Bucket Join(分桶表Join) 2. SMB(Sort Merge Bucket) Join 分桶表join 说明 : 大表 阅读全文
posted @ 2022-02-10 19:42 学而不思则罔! 阅读(2566) 评论(0) 推荐(0)
摘要: 1. key空值过多导致 任务异常(数据倾斜)处理方案 1. 空值过滤 说明 : 1. 当key的空值过多时,相同的key会被分配到同一个reduce中处理,导致此reduceTask内存不足,而任务失败 处理 : 在不影响业务的情况下将 key为null的数据处理掉 2. 空值转换 说明 : 大表 阅读全文
posted @ 2022-02-10 19:35 学而不思则罔! 阅读(526) 评论(0) 推荐(0)
摘要: 1.大小表join(MapJoin) 说明 : 当大表小表关联时,可以将小表读取到内存,在Map端进行数据关联 小表在左在右都会触发 Mapjoin2. 怎样判断大小表? 大表 > set hive.mapjoin.smalltable.filesize 小表 <= set hive.mapjoin 阅读全文
posted @ 2022-02-10 19:25 学而不思则罔! 阅读(1613) 评论(0) 推荐(0)
摘要: 1. 本地模式 1. 什么是本地模式 hive 默认会将所有任务,提交到yarn上执行,由yarn负责整个job的调度与监控 当数据集非常小时(只有一个block,只存在一个datanode节点上),提交job的时间 将远大于 job运行的时间, 此时可以开启本地模式,将job在本地运行,不提交到y 阅读全文
posted @ 2022-02-10 12:32 学而不思则罔! 阅读(1578) 评论(0) 推荐(0)
摘要: 1. 语法explain [extended | dependency | authorization] query2. 从执行计划中 可以获取那些信息? 1. Job任务的DAG(有向无环图) 2. 操作算子 示例 : Fetch Operator Select Operator Map Redu 阅读全文
posted @ 2022-02-10 12:22 学而不思则罔! 阅读(221) 评论(0) 推荐(0)
摘要: 1. 结论 存储格式一般选择 : orc 和 parquet 压缩方式一般选择 : snappy(不可切片)、lzo(可切片) 注意: 当读取单个大文件时,要选择lzo方式 2. hive 支持的文件存储格式 行式存储 : textfile、sequencefile 列式存储 : orc、parqu 阅读全文
posted @ 2022-02-08 17:58 学而不思则罔! 阅读(909) 评论(0) 推荐(0)
摘要: --(1) 如何设置 开启Map输出阶段压缩 1. 开启hive 中间传输数据压缩功能set hive.exec.compress.intermediate=true;--2. 开启mr 中mapTask 输出结果压缩set mapreduce.map.output.compress=true;-- 阅读全文
posted @ 2022-02-07 19:29 学而不思则罔! 阅读(157) 评论(0) 推荐(0)
摘要: 1. 01 Map输出设置压缩 案例 package ComMapOutPk { import java.lang import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import org.apac 阅读全文
posted @ 2022-02-07 17:23 学而不思则罔! 阅读(55) 评论(0) 推荐(0)
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 35 下一页