随笔分类 - Hive系列
基于Hadoop的数据仓库工具,以HDFS为存储,以mapreduce为计算工具
摘要:1. Hive的架构 Hive的体系结构可以分为以下几部分: 用户接口主要有三个:CLI,JDBC/ODBC和 Web UI。 ①其中,最常用的是CLI,即Shell命令行; ②JDBC/ODBC Client是Hive的Java客户端,与使用传统数据库JDBC的方式类似,用户需要连接至Hive S
阅读全文
摘要:1. 概述 UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来
阅读全文
摘要:1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe
阅读全文
摘要:1. Hive的分区作用 命令:创建分区 往分区中插入数据:load data local inpath '/home/hadoop/sz.dat' into table t_sz_part partition(country = 'China'); 说明:首先,创建分区表的时候,需要通过关键字pa
阅读全文
摘要:1. Hive简介 1.1 什么是Hive Hives是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.2 为什么使用Hive ① 直接使用Hadoop面临人员学习成功太高、项目周期要求太短、MapReduce实现复杂查询逻辑开发难度太大等
阅读全文

浙公网安备 33010602011771号