随笔分类 - Hive
摘要:hive—high Avaliable hive的搭建方式有三种,分别是 1、Local/Embedded Metastore Database (Derby) 2、Remote Metastore Database 3、Remote Metastore Server 一般情况下
阅读全文
摘要:Hive优化 Hive的存储层依托于HDFS,Hive的计算层依托于MapReduce,一般Hive的执行效率主要取决于SQL语句的执行效率,因此,Hive的优化的核心思想是MapReduce的优化。 1、查看Hive执行计划(小白慎用) Hive的SQL语句在执行之前需要将SQL语句转换成
阅读全文
摘要:压缩和存储 1、 Hadoop压缩配置 1) MR支持的压缩编码 | 压缩格式 | 工具 | 算法 | 文件扩展名 | 是否可切分 | | | | | | | | DEFAULT | 无 | DEFAULT | .deflate | 否 | | Gzip | gzip | DEFAULT | .gz
阅读全文
摘要:Hive权限管理 1、hive授权模型介绍 (1)Storage Based Authorization in the Metastore Server 基于存储的授权 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。 (2)SQL Standa
阅读全文
摘要:Hive动态分区和分桶 1、Hive动态分区 1、hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在使用的时候会导致数据只能插入到某一个指定分区,无法让数据散列分布,因此更好的方式是当数据在进行插入的
阅读全文
摘要:Hive的视图和索引 1、Hive Lateral View 1、基本介绍 Lateral View用于和UDTF函数(explode、split)结合来使用。 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在select使用UDTF做查询过程中,查询只能包
阅读全文
摘要:Hive参数操作和运行方式 1、Hive参数操作 1、hive参数介绍 hive当中的参数、变量都是以命名空间开头的,详情如下表所示: | 命名空间 | 读写权限 | 含义 | | | | | | hiveconf | 可读写 | hive site.xml当中的各配置变量例:hive hive
阅读全文
摘要:Hive函数 Hive中提供了非常丰富的运算符和内置函数支撑,具体操作如下: 1.内置运算符 1.1关系运算符 | 运算符 | 类型 | 说明 | | | | | | A = B | 所有原始类型 | 如果A与B相等,返回TRUE,否则返回FALSE | | A == B | 无 | 失败,因为
阅读全文
摘要:HiveServer2 基本概念介绍 1、HiveServer2基本介绍 HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC,是HiveServer的提高版本,它被设计用来提供更好的支持对于open
阅读全文
摘要:Hive Serde 目的: Hive Serde用来做序列化和反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。 应用场景: 1、hive主要用来存储结构化数据,如果结构化数据存储的格式嵌套比较复杂的时候,可以使用serde的方式,利用正则表达式匹配的方法来读取数据,例如,表字段如下
阅读全文
摘要:人员表 id,姓名,爱好,住址 1,小明1,lol book movie,beijing:mashibing shanghai:pudong 2,小明2,lol book movie,beijing:mashibing shanghai:pudong 3,小明3,lol book movie,bei
阅读全文
摘要:Hive基本SQL操作 Hive DDL(数据库定义语言) 1、数据库的基本操作 注意:当进入hive的命令行开始编写SQL语句的时候,如果没有任何相关的数据库操作,那么默认情况下,所有的表存在于default数据库,在hdfs上的展示形式是将此数据库的表保存在hive的默认路径下,如果创建了数据库
阅读全文
摘要:03 Hive的安装搭建 Hive可以从源码中编译安装,也可以直接使用官网下载的安装包,在此处我们选择安装包解压安装的方式。 Hive中最最重要的角色就是metastore 因此按照metastore的管理共有四种hive的安装搭建方式:官网参考地址如下: https://cwiki.apache.
阅读全文
摘要:02 Hive的架构 1、Hive的架构图 2、Hive的服务(角色) 1、用户访问接口 CLI(Command Line Interface):用户可以使用Hive自带的命令行接口执行Hive QL、设置参数等功能 JDBC/ODBC:用户可以使用JDBC或者ODBC的方式在代码中操作Hi
阅读全文
摘要:01 Hive的基本介绍 1、hive产生的原因 · a) 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 b) 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析 2、hive是什么? Hive经常被大数据企业用作企业级数据仓库。 Hive在使用过程中是使用
阅读全文
摘要:1.Hive简介 数据仓库 解释器、编译器、优化器等 运行时,元数据存储在关系型数据库里面 1.1数据库和数据仓库的区别 数据库需要立即返回结果,数据仓库不需要 数据仓库能收纳各种数据源,而数据库只能保持产品线 数据库可修改,数据仓库不可修改 1.2Hive的产生 非java编程者对hdfs的数据做
阅读全文

浙公网安备 33010602011771号