文章分类 - Hive
摘要:[TOC] hive的数据倾斜 hadoop(广义,包括hadoop以及所有依赖hadoop的组件(hive,hbase))不怕数据量大,怕数据倾斜; 数据倾斜:在进行数据计算的时候,由于数据分布不均匀,造成某一个节点上分配的数据量很多,造成这个节点的计算任务很大;也就是说压力放到了一个节点上; 负
阅读全文
摘要:[TOC] hive的shell 进入hive的客户端之后的 进入hive的客户端之前的 bash 语法结构 hive [ hiveconf x=y] [] [|
阅读全文
摘要:[TOC] hive的函数 内置函数 数值类型 字符串 字符串截取 字符串的起始下标从1开始;从左侧向右侧 字符串也可以从右向左访问;下标从 1开始的 字符串拼接 字符串切分 返回的类型是数组类型 是获取数组类型的一种方式 ; 字符串查找 用于判断某一个字段只能够是否包含关键字 存在则返回子字符串第
阅读全文
摘要:[TOC] hive的beeline连接 之前直接用hive命令直接进入hive客户端 但是这种方式在生产中不适用; 此时我们需要另外一种连接方式,就是远程连接; hive的远程连接方式:将hive的服务端开启 在远程通过第三方的工具连接; beeline beeline:就是hive的远程连接的客
阅读全文
摘要:[TOC] 内部表和外部表的区别 概念本质上 内部表数据自己管理的,自己对数据有删除的权利的 在进行表删除的时候,数据和元数据一并删除的 外部表只是对hdfs的一个目录的数据进行关联,仅仅有使用权利,没有删除的权利;外部表在进行删除的时候,只删除元数据,原始数据(表中的数据)是不会删除的; 外部表的
阅读全文
摘要:[TOC] 课程回顾 yarn的产生背景 hadoop1.0 mapreduce存在严重的缺陷 1. 扩展性不足 2. 资源利用率低 3. 存在单点故障 yarn的架构 主从 主:resourcemanager ASM:applicationsmanager 管理MRAppMaster
阅读全文
摘要:[TOC] hive 数据仓库 产生的背景 处理结构化数据;数据量小的时候,使用sql是最好的解决方案;但是一旦数据量变大,那么此时就需要使用Mapreduce了,而Mapreduce开发的成本高;用人成本;时间成本; 此时如果有一个组件,提供sql编程和分布式运行计算程序;name就是hive了;
阅读全文


浙公网安备 33010602011771号