学而不思则罔！

2022年2月14日

摘要：源码第二章 Hive 常见属性配置 1. hive.log 默认存储路径 /tmp/root/hive.log (当前登入用户) 2. 修改 hive.log 存储目录 1. 将 hive/conf/hive-log4j2.properties.template 修改为 hive-log4j2.p 阅读全文

posted @ 2022-02-14 16:45 学而不思则罔！阅读(121) 评论(0) 推荐(0)

第一章_Hive 基本概念

摘要：源码第一章 Hive 基本概念 1. 什么是Hive 1. 由 Facebook 开源用于解决海量结构化日志的数据统计工具 2. 基于 Hadoop的数据仓库工具 , 可以将结构化的数据文件(HDFS) 映射成一张表并提供类sql的操作 2. Hive 的本质 1. 将 Hq 阅读全文

posted @ 2022-02-14 16:42 学而不思则罔！阅读(86) 评论(0) 推荐(0)

2022年2月13日

第三章_Hive 数据类型

摘要： 1. 基本类型 tinyint smalint int bigint boolean float double decimal string : 相当于varchar,可变字符串,不用指定长度,理论上可以存储2GB字符数 timestamp binary 2. 集合数据类型 struct map a 阅读全文

posted @ 2022-02-13 19:32 学而不思则罔！阅读(99) 评论(0) 推荐(0)

第十章 Hive调优【严格模式】

摘要： 1. 严格模式 1. 什么是严格模式 hive对sql语法的一些安全性的限制2. 分区表查询时必须指定分区 -- 开启限制(默认为 false) set hive.strict.checks.no.partition.filter=true; -- 测试 -- 测试 create table `pa 阅读全文

posted @ 2022-02-13 18:50 学而不思则罔！阅读(1313) 评论(0) 推荐(0)

第十章 Hive调优【任务并行设置】

摘要： 1. 任务并行设置说明 : hive会将sql 转化成DAG,阶段类型有 fetch阶段、MapReduce阶段、merge阶段、limit阶段默认情况下,hive一次只会执行一个阶段,但某些阶段可以并行执行,完全相互依赖参数设置: -- 开启任务并行执行 set hive.exec.para 阅读全文

posted @ 2022-02-13 18:49 学而不思则罔！阅读(669) 评论(0) 推荐(0)

第十章 Hive调优【合理设置Reduce数】

摘要： 1. 调整reduce个数(方式1) -- 每个reduce处理的数据量(默认为256M) set hive.exec.reducers.bytes.per.reducer=256000000; -- 每个job允许最大的reduce个数 set hive.exec.reducers.max=100 阅读全文

posted @ 2022-02-13 12:52 学而不思则罔！阅读(1844) 评论(0) 推荐(0)

第十章 Hive调优【小文件合并】

摘要： 1. 小文件合并位置 : 1. map输入端对小文件合并 2. map输出端对小文件合并 3. reduce输出端对小文件合并2. map输入时,对小文件合并参数设置 : -- CombineHiveInputFormat 按切片大小切分(多个小文件可归一个切片) -- 默认实现类为Com 阅读全文

posted @ 2022-02-13 12:48 学而不思则罔！阅读(1171) 评论(0) 推荐(0)

第十章 Hive调优【合理设置Map数】

摘要： 1. 合理设置Map数 1. MapTask任务数决定因素: 1. 文件个数 2. 文件大小 3. 集群设置的文件块大小 4. 指定的切片大小 5. 处理文件的inputfor的实现类 2. 切片个数 = MapTask个数 1. 确定 InputFormat的实现类 hive中主要使用 : Hi 阅读全文

posted @ 2022-02-13 12:26 学而不思则罔！阅读(1341) 评论(1) 推荐(0)

2022年2月11日

第十章 Hive调优【行列过滤及谓词下推】

摘要： 1. 列处理 : 说明 : 避免使用 select *,有分区时,要指定分区2. 行处理 : 关联原则 : 在关联操作时,能先where的尽量先where,减少数据集 3. hive底层优化策略-谓词下推(predicate pushdown) : 什么是谓词下推 ? 1. 将过滤表达式尽可能移动至阅读全文

posted @ 2022-02-11 16:07 学而不思则罔！阅读(641) 评论(0) 推荐(0)

第十章 Hive调优【笛卡尔积】

摘要： 1. 笛卡尔积 1. 触发笛卡尔积条件 1. join 时,没有on条件或 on 条件无效 2. 为什么要尽量避免笛卡尔积? hive 只会使用一个reduce来完成笛卡尔积,当数据量过大时,容易内存不足 3. 如果必须使用笛卡尔积时,可以使用MapJoin,关联操作在Map端完成 4. 测试 - 阅读全文

posted @ 2022-02-11 11:07 学而不思则罔！阅读(1264) 评论(0) 推荐(0)

私人小院

公告