优雅的将hbase的数据导入hive表

背景

Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce.

HBase是一种Key/Value系统，它运行在HDFS之上。和Hive不一样，Hbase的能够在它的数据库上实时运行，而不是运行MapReduce任务。

hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的，同时，它也能够和现存的SQL工具整合在一起。HBase通过存储key/value来工作。它支持四种主要的操作：增加或者更新行，查看一个范围内的cell，获取指定的行，删除指定的行、列或者是列的版本。

由于hive目前不支持更新操作（非实时性）。所以在生产环境上不能直接将数据写入hive表，一般都是先将数据写到hbase上，而在大数据的计算及统计的时候，hive的读写速率大大优于hbase表，在处理大数据时（几TB的数据量），将会大大的提高挖掘的效率。

所以，比较常规的做法都是在生产环境下，将数据写入hbase表，再在数据挖掘的时候，将数据导入hive表，进行数据分析统计操作。

那怎么将数据从hbase表转入hive表里面呢,本文将介绍以下几种办法。

转换

将hbase的数据转换成hive，笔者知道的就有以下几种转换方式，下面一一道来。

创建hive外部关联表

在创建hive表的时候，指定与hbase某个表做为关联，如下所示的建表语句：

CREATE TABLE hive_table_hbase(key int, value1 string, value2 int, value3 int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (  "hbase.columns.mapping"=":key,a:b,a:c,d:e"  )

TBLPROPERTIES("hbase.table.name" = "some_existing_table");;

上面的语句翻译为：创建一个hive_table_hbase为名称的hive表，与hbase的some_existing_table表作关联，具体关联方式为字段对应：

hive_table_hbas	some_existing_table
key	:key
value1	a:b
value2	a:c
value3	d:e

此种关联的好处是，将hbase与hive实时关联，hbase只要有数据更新，hive表当然就有了更新，不过要说明的时，此时，hive并没有分配空间去存储数据，仅仅只是做了一个映射。当然了，在使用大数据分析的时候，效率是很不好的。

从hbase将数据导入hive

此种实现思路是将hbase表的数据转成RDD（可查看上篇文章）模型，在将RDD转成DataFrame模型，注册Shark临时表，在就数据一次从临时表中，导入到hive表中

如下所示

<![endif]><![if !vml]><![endif]><![ !><!<![if !vml]><>![f<!

此种转换，只是在hbase表数据导入到hive表的时候，会花费一定时间，但为后面的密集的hive表查询，大大增加了效率。

结论

在数据量比较小的时候，比如只有10几个G以下时，第一种效率比较高，因为没有转换的时间，当数据量超过10几个G后，且后续需要很密集的查询，当然要选第二种转换方式，一次转换，终生无忧！！

极点科技

诚信专注创新

posted @ 2016-04-02 23:28 分歧者阅读(9616) 评论(1) 收藏举报

刷新页面返回顶部

分歧者

优雅的将hbase的数据导入hive表

优雅的将hbase的数据导入hive表

背景

转换

创建hive外部关联表

从hbase将数据导入hive

结论

公告