上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 35 下一页
摘要: 源码 第二章 Hive 常见属性配置 1. hive.log 默认存储路径 /tmp/root/hive.log (当前登入用户) 2. 修改 hive.log 存储目录 1. 将 hive/conf/hive-log4j2.properties.template 修改为 hive-log4j2.p 阅读全文
posted @ 2022-02-14 16:45 学而不思则罔! 阅读(119) 评论(0) 推荐(0)
摘要: 源码 第一章 Hive 基本概念 1. 什么是Hive 1. 由 Facebook 开源 用于解决 海量 结构化 日志的 数据统计 工具 2. 基于 Hadoop的 数据仓库工具 , 可以将 结构化的数据文件(HDFS) 映射成一张表 并提供 类sql的 操作 2. Hive 的本质 1. 将 Hq 阅读全文
posted @ 2022-02-14 16:42 学而不思则罔! 阅读(81) 评论(0) 推荐(0)
摘要: 1. 基本类型 tinyint smalint int bigint boolean float double decimal string : 相当于varchar,可变字符串,不用指定长度,理论上可以存储2GB字符数 timestamp binary 2. 集合数据类型 struct map a 阅读全文
posted @ 2022-02-13 19:32 学而不思则罔! 阅读(94) 评论(0) 推荐(0)
摘要: 1. 严格模式 1. 什么是严格模式 hive对sql语法的一些安全性的限制2. 分区表查询时必须指定分区 -- 开启限制(默认为 false) set hive.strict.checks.no.partition.filter=true; -- 测试 -- 测试 create table `pa 阅读全文
posted @ 2022-02-13 18:50 学而不思则罔! 阅读(1301) 评论(0) 推荐(0)
摘要: 1. 任务并行设置 说明 : hive会将sql 转化成DAG,阶段类型有 fetch阶段、MapReduce阶段、merge阶段、limit阶段 默认情况下,hive一次只会执行一个阶段,但某些阶段可以并行执行,完全相互依赖 参数设置: -- 开启任务并行执行 set hive.exec.para 阅读全文
posted @ 2022-02-13 18:49 学而不思则罔! 阅读(661) 评论(0) 推荐(0)
摘要: 1. 调整reduce个数(方式1) -- 每个reduce处理的数据量(默认为256M) set hive.exec.reducers.bytes.per.reducer=256000000; -- 每个job允许最大的reduce个数 set hive.exec.reducers.max=100 阅读全文
posted @ 2022-02-13 12:52 学而不思则罔! 阅读(1832) 评论(0) 推荐(0)
摘要: 1. 小文件合并位置 : 1. map输入端 对小文件合并 2. map输出端 对小文件合并 3. reduce输出端 对小文件合并2. map输入时,对小文件合并 参数设置 : -- CombineHiveInputFormat 按切片大小切分(多个小文件可归一个切片) -- 默认实现类 为Com 阅读全文
posted @ 2022-02-13 12:48 学而不思则罔! 阅读(1158) 评论(0) 推荐(0)
摘要: 1. 合理设置Map数 1. MapTask任务数决定因素: 1. 文件个数 2. 文件大小 3. 集群设置的文件块大小 4. 指定的 切片大小 5. 处理文件的inputfor的实现类 2. 切片个数 = MapTask个数 1. 确定 InputFormat的实现类 hive中主要使用 : Hi 阅读全文
posted @ 2022-02-13 12:26 学而不思则罔! 阅读(1335) 评论(1) 推荐(0)
摘要: 1. 列处理 : 说明 : 避免使用 select *,有分区时,要指定分区2. 行处理 : 关联原则 : 在关联操作时,能先where的尽量先where,减少数据集 3. hive底层优化策略-谓词下推(predicate pushdown) : 什么是谓词下推 ? 1. 将过滤表达式尽可能移动至 阅读全文
posted @ 2022-02-11 16:07 学而不思则罔! 阅读(636) 评论(0) 推荐(0)
摘要: 1. 笛卡尔积 1. 触发笛卡尔积条件 1. join 时,没有on条件 或 on 条件无效 2. 为什么要尽量避免笛卡尔积? hive 只会使用一个reduce来完成笛卡尔积,当数据量过大时,容易内存不足 3. 如果必须使用笛卡尔积时,可以使用MapJoin,关联操作在Map端完成 4. 测试 - 阅读全文
posted @ 2022-02-11 11:07 学而不思则罔! 阅读(1255) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 35 下一页