摘要: 1. 基本类型 tinyint smalint int bigint boolean float double decimal string : 相当于varchar,可变字符串,不用指定长度,理论上可以存储2GB字符数 timestamp binary 2. 集合数据类型 struct map a 阅读全文
posted @ 2022-02-13 19:32 学而不思则罔! 阅读(94) 评论(0) 推荐(0)
摘要: 1. 严格模式 1. 什么是严格模式 hive对sql语法的一些安全性的限制2. 分区表查询时必须指定分区 -- 开启限制(默认为 false) set hive.strict.checks.no.partition.filter=true; -- 测试 -- 测试 create table `pa 阅读全文
posted @ 2022-02-13 18:50 学而不思则罔! 阅读(1301) 评论(0) 推荐(0)
摘要: 1. 任务并行设置 说明 : hive会将sql 转化成DAG,阶段类型有 fetch阶段、MapReduce阶段、merge阶段、limit阶段 默认情况下,hive一次只会执行一个阶段,但某些阶段可以并行执行,完全相互依赖 参数设置: -- 开启任务并行执行 set hive.exec.para 阅读全文
posted @ 2022-02-13 18:49 学而不思则罔! 阅读(661) 评论(0) 推荐(0)
摘要: 1. 调整reduce个数(方式1) -- 每个reduce处理的数据量(默认为256M) set hive.exec.reducers.bytes.per.reducer=256000000; -- 每个job允许最大的reduce个数 set hive.exec.reducers.max=100 阅读全文
posted @ 2022-02-13 12:52 学而不思则罔! 阅读(1832) 评论(0) 推荐(0)
摘要: 1. 小文件合并位置 : 1. map输入端 对小文件合并 2. map输出端 对小文件合并 3. reduce输出端 对小文件合并2. map输入时,对小文件合并 参数设置 : -- CombineHiveInputFormat 按切片大小切分(多个小文件可归一个切片) -- 默认实现类 为Com 阅读全文
posted @ 2022-02-13 12:48 学而不思则罔! 阅读(1158) 评论(0) 推荐(0)
摘要: 1. 合理设置Map数 1. MapTask任务数决定因素: 1. 文件个数 2. 文件大小 3. 集群设置的文件块大小 4. 指定的 切片大小 5. 处理文件的inputfor的实现类 2. 切片个数 = MapTask个数 1. 确定 InputFormat的实现类 hive中主要使用 : Hi 阅读全文
posted @ 2022-02-13 12:26 学而不思则罔! 阅读(1335) 评论(1) 推荐(0)