Hbase介绍

1、hbase的基本介绍：
google三篇论文： bigtable ==》 HBase
hbase也是一个nosql数据库，基于hadoop上面的一个nosql数据库
hbase主要是用于存储结构和和半结构化松散数据

hbase支持的所有的数据类型都是：byte[]

hbase的特点：
大：一个表可以有上十亿行，上百万列
面向列:面向列(族)的存储和权限控制，列(族)独立检索。
稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

hbase是一个nosql非关系型数据库，hbase是基于hdfs的数据存储
数据库：肯定要支持频繁的增删改查
hbase是基于hdfs的数据存储：hbase的数据存储在hdfs上面
hdfs能不能够支持频繁的增删改查？？？
hdfs设计支持：面向一次写入，多次读出。不适合频繁的增删改查

hbase与hadoop关系：紧耦合关系，hbase的数据都是存储在hdfs上面的

hdfs：适合存储大文件，支持一次写入，多次读取
hbase：使用key，value对来存储数据，支持随机读写操作

hbase依赖于hdfs，注意：如果要操作hbase，一定要保证hadoop正常启动

RDBMS与hbase的对比：
RDBMS：关系型数据库
HBase：nosql非关系型数据库
关系型数据库：例如mysql或者oracle。主要是字段个数一定，字段类型也一定了。使用标准sql语句来进行查询操作
面向行式存储，具有acid的特性，支持事务的操作
插入一张表数据，更新一张表数据，删除一张表数据，这三个操作可以放到一个事务里面去执行

非关系型数据库nosql：
使用wal来存储日志：write ahead log
使用行键 rowkey来进行查询数据：类似于mysql主键，但是与主键不太一样
使用行，列，列族，单元格cell来进行存储以及区分数据
hbase不支持ACID特性，但是hbase支持单行数据操作事务
hbase是支持单行数据的事务性，不支持多条数据一起操作的事务性
不支持表的join操作

hbase简要特征：
1、适合存储海量数据每天上亿条数据轻松搞定
2、面向列式存储
3、极易扩展：hbase的扩展性来源于hdfs的
4、支持高并发的访问请求
5、稀疏表：如果某些字段为空值，并不会占用磁盘存储空间，所以hbase可以轻松的做到上百万列

HBase的架构：
HMaster：主节点，主要负责集群的管理，分配region给RegionServer，还包括从节点的上线和下线
HRegionServer：从节点，主要负责客户端的数据存储与读取，管理region
HRegionServer：1个HLog + 多个Region
HLog：预写日志，将数据的操作记录给保存下来，便于数据的恢复
Region：一个region里面有多个store模块
store模块：1个memoryStore 128M + 多个StoreFile
多个storeFile会合并成为一个大的HFile存储在hdfs上面

hbase数存储在hdfs上面，需要依赖于hadoop，hbase还需要使用zk来存储一些元数据信息（包括节点的信息）

如果需要搭建hadoop的时候，我们要保证hadoop与zookeeper正常启动

HBase的集群环境安装：
下载安装包解压
更改配置文件
分发到其他机器上
其他机器更改一些特殊配置
启动集群即可

HBase的表模型：
表名：tableName
columnFamily：列族
创建一张表，最少需要两个条件：表名 + 列族名

column：列。每一个列都是归属于某一个列族下面的
列族有一点类似于某一些列归放到一起
columnFamily1：专门存放用户属性
columnFamily2：专门存放订单数据

HBase当中列族不宜过多：一般创建一个hbase表，列族大概在1-5个范围之内
rowkey：rowkey是唯一标识我们一条数据的
timeStamp：时间戳，操作数据的时间戳
versionnum：数据的版本号

rowkey + 列名 + 列值 + timestamp + versionum这些都是我们在插入数据的时候动态生成的

注意：插入一条数据的时候，需要指定rowkey，指定属于哪一个列族，
指定列族下面的列名（如果列名不存在，那么久动态进行创建），r
然后再指定列值（cell）
hbase的稀疏表
一个列族下面，可以动态的创建上百万个列

hbase的数据添加操作：

hbase的数据查询操作：查询hbase当中的数据

有三种方式的查询：
第一种方式：通过rowkey直接获取数据
get rowkey

第二种：全表扫描，这种方式没有人用
scan tableName

第三种方式：指定rowkey的扫描范围
scan startRowy endRowkey
hbase的rowkey有一个特性，所有的rowkey都是按照字典的顺序进行排列

使用过滤器来进行查询，查询value值为'zhangsan'数据
get 'user', 'rk0001', {FILTER => "ValueFilter(=, 'binary:zhangsan')"}

查询列名包含 a

get 'user', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}

scan可以加上各种限制条件：限制列名包含a
限制列值为 zhangsan
限制rowkey以 rk开头的

hbase当中的更新操作：更新操作与hbase的插入操作命令一模一样，只不过有这个rowkey就更新，没有rowkey就进行插入保存

drop:删除表，需要先手动禁用表，删除了表之后，表就不存在了
truncate：只清空表数据，表还存在，先是自动禁用表，删除表，再创建表

hbase的查询操作：
get biaoming rowkek

scan biaoming 限制条件

hbase当中的过滤器查询:
比较过滤器：主要就是用于比较一些值的情况
专用过滤器：主要就是用于过滤一些条件不符合的数据

rowFilter：专门用于过滤hbase数据的rowkey作用的
familyFilter：专门用于过滤列族名称
QualifierFilter：专门用于过滤列名
valueFilter：对我们列值进行比较过滤

SingleColumnFilter：用于单列值的过滤，满足条件的数据的所有字段都会返回给客户端
prefixFilter:前缀的过滤器，过滤某些前缀开头的数据
PageFilter：分页的过滤器

HBase当中的数据，实际上是存在这么几个地方的
memoryStore：内存空间
storeFile：也会存储数据
HFile：hdfs上面的数据存储
Hlog：预写日志

region与store都是逻辑划分，里面再进一步划分，才到数据真实的存储的物理位置

HBase的数据写入过程
第一步：客户端发起请求，请求写入数据
第二步：客户端连接zk，获取一张特殊表hbase:meta表位置
第三步：客户端连接meta所在的regionServer，读取meta表的数据信息
第四步：客户端与对应的regionServer通信，准备写入数据
第五步：数据先写入到HLog，然后再写入到memoryStore里面去，以上两步操作成功，就认为数据已经写入成功

A Store is the same thing as a ColumnFamily
一个store模块对应一个列族
compcat：主要是将数据从storeFile到HFile的过程
split的过程：当HFile达到10GB的时候，就会进行分裂

flush：从memoryStore到StoreFile
compact：从StoreFile到HFile ==》丢掉删除掉的数据，合并数据的历史版本
split：当HFile达到10Gb的时候，region就会进行切分

课程总结：
1、hbase的基本介绍：hbase是大数据领域一个nosql的非关系型数据库，主要是用于快速的存取数据的
hbase基于hdfs上面的
hbase里面所有的存储的数据数据类型：byte[]

2、hbase与hadoop关系：紧耦合关系

3、HBase的特征：稀疏表：HBase当中的列可以达到上百万个，如果列没有值，不占用磁盘空间

4、HBase的基本架构：知道
HMaster：主节点，主要负责集群的管理，分配region给RegionServer，还包括从节点的上线和下线
HRegionServer：从节点，主要负责客户端的数据存储与读取，管理region
一个HRegionServer： 1个HLog + 多个Region
一个Region：多个store模块一个store模块对应一个列族
1个store模块：1个memoryStore+ 多个StoreFile

6、HBase的集群环境搭建搞定

7、HBase的shell操作以及高级shell管理命令知道

8、hbase的JavaAPI开发：hbase的增删改查，以及过滤器查询
9、HBase的底层原理：
列族
列
列值
versionnum
timestamp

HBase的读写过程：知道

HBase三个机制：知道
flush：从memoryStore到StoreFile
compact：从StoreFile到HFile
split的过程：当HFile达到10GB的时候，就会进行分裂

1、hbase基本介绍：
hbase是一个大数据领域nosql非关系型数据库，稀疏表
2、hbase与hadoop的关系：紧耦合的关系，hbase基于hdfs的数据存储
3、RDBMS与HBase对比了解一下
rdbms：支持事务，支持多行数据操作事务性的问题
hbase：支持事务，只不过支持单行数据操作的事务性问题
4、HBase的简要特征：
海量数据存储
列式存储
易于扩展
支持高并发请求读写
稀疏表：hbase当中存储的数据可以很容易的到达上亿行，上百万列。如果有些字段为空值，不会占用磁盘空间

5、hbase的基本架构：
HMaster：主节点。负责集群管理，以及region分配
HRegionServer：从节点。管理region
一个HRegionServer = 1个 HLog + 多个region
1个region = 多个store模块=一个store模块对应一个列族
1个store模块 = 1个memoryStore：内存空间128M + 多个storeFile
多个storeFile最后会进行合并，合并成为一个大的HFile存放到HDFS上面去

6、hbase的集群环境搭建

7、hbase的shell操作以及高级shell管理命令
8、hbase的Java代码开发主要就是对hbase的增删改查
9、hbase的底层实现原理：
系统架构：主从结构主备架构
hbase的表模型：
rowkey：行键，类似于mysql主键
列族ColumnFamily：列族
column：列
cell：存放数据值
versionNum：版本号
timestamp：时间戳
创建hbase表的时候，最少需要两个条件：表名 + 列族名
column，cell值，rowkey，versionNum，timestamp ==》都是在插入数据的时候动态指定的

hbase数据的物理存储结构：
HLog：预写日志
memoryStore：内存空间128M
StoreFile：memoryStore溢写之后的数据文件
HFile：hdfs的存储文件
hbase的读写请求过程：
写请求：
第一步：客户端发起请求写入数据
第二步：客户端连接zookeeper寻找一张特殊表hbase:meta表
第三步：确定了hbase:meta表位置之后，与对应的HRegionServer服务器进行通信，读取hbase:meta表的元数据信息
第四步：与对应的region所在的regionServer进行通信，将数据写入到对应的region里面去
第五步：首先将数据写入到HLog里面去，然后将数据写入到memoryStore里面去
第六步：以上两步写入成功，就直接给客户端返回写入成功状态

读请求：BloomFilter
第一步：客户端发起读数据请求
第二步：客户端连接zookeeper寻找一张特殊表hbase:meta
第三步：确定了hbase:meta表位置之后，与对应的HRegionServer服务器进行通信，读取hbase:meta表的元数据信息
第四步：get scan 如果是get操作，根据rowkey的值，直接与对应的region进行通信，获取数据
，如果使用的scan操作，需要所有的region都进行数据扫描，然后返回符合条件的数据
第五步：将获取的数据返回给客户端即可

region管理：主要是依靠HMaster的管理
regionServer的上线和下线都是依靠zookeeper
master的工作机制：依靠zookeeper进行选举

HBase的三个机制：
flush：数据从memoryStore到storeFile
compat：数据从storeFile到HFile
split：切分HFile的过程

hbase与mr的集成
需求：通过mr的程序，读取hbase一张表的数据，然后写入到另外一张表里面去
这里我们将myuser这张表当中f1列族的name和age字段写入
到myuser2这张表的f1列族当中去

如果需要从HBase当中读取数据，那么我们的mapper类需要继承 TableMapper
如果需要将数据写入到hbase里面去，那么我们的reduce需要继承 TableReducer

将hdfs的数据写入到hbase里面去
0007 zhangsan 18
0008 lisi 25
0009 wangwu 20

线上的HBase的数据库，现在有大量的数据需要快速的插入到hbase表里面去

将数据放到hdfs上面去，然后使用mr的程序读取hdfs的数据，写入到hbase里面去

可以通过bulk load的方式批量的加载数据到hbase里面来
其实底层原理很简单：就是将数据文件的格式转换成为HFile这种格式，直接被HBase识别

/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-client-1.2.0-cdh5.14.0.jar
:/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-server-1.2.0-cdh5.14.0.jar
:/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-prefix-tree-1.2.0-cdh5.14.0.jar
:/export/servers/hbase-1.2.0-cdh5.14.0/lib/htrace-core-3.2.0-incubating.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-common-1.2.0-cdh5.14.0.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/zookeeper-3.4.5-cdh5.14.0.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/guava-12.0.1.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-hadoop-compat-1.2.0-cdh5.14.0.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/netty-all-4.0.23.Final.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-protocol-1.2.0-cdh5.14.0.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/protobuf-java-2.5.0.jar:/export/servers/hbase-1.2.0-cdh5.14.0/lib/metrics-core-2.2.0.jar

hbase与hive对比：
hive依赖于hadoop ：数存储在hdfs上面，数据的计算使用MR，hive是一个数据仓库的工具，主要用于数据分析工作
hbase依赖于hadoop：数据存储在hdfs上面，hbase也可以与mr集成，hbase是一个nosql数据库

数据仓库：主要是用于数据分析
数据库：主要是用于支持业务系统的增删改查

hbase不支持sql语句的查询

hive与hbase的整合：
第一个方向：数据在hive当中，将hive分析的结果，保存到hbase表里面去
第二个方向：数据在hbase当中，在hive当中建表，映射hbase的表数

创建hive表并加载数据：
create external table if not exists course.score(id int,cname string,score int)
row format delimited fields terminated by '\t' stored as textfile ;

查询score表里面所有的数据，结果保存到hbase表里面去

insert overwrite table xxxx select from xxx

在hive当中创建的一个表course.hbase_score
stored by：指定表的存储格式 textfile orc parquet
with serdeproperties类似于 row format delimited fields terminated by '\t'
tblproperties("hbase.table.name" = "hbase_score")指定hbase的表名称

create table course.hbase_score(id int,cname string,score int)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties("hbase.columns.mapping" = "cf:name,cf:score")
tblproperties("hbase.table.name" = "hbase_score");

insert overwrite table course.hbase_score select id,cname,score from course.score;

需求二：数据已经存在了hbase当中，需要对hbase当中的数据进行分析，可以写mr的程序
可以创建hive表，映射hbase表数据，使用hql语句的方式来分析hbase当中的数据，就不用写MR的程序了

hive当中创建表，映射hbase表数据，数据实际上在hbase里面了
CREATE external TABLE course.hbase2hive(id int, name string, score int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:name,cf:score")
TBLPROPERTIES("hbase.table.name" ="hbase_hive_score");

sqoop导入数据

bin/sqoop import \
--connect jdbc:mysql://192.168.29.22:3306/library \
--username root \
--password 123456 \
--table book \
--columns "id,name,price" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_book" \
--num-mappers 1 \
--split-by id

将hbase表数据导出到mysql里面去

sqoop不支持直接导出hbase的表到mysql里面去
将hbase表搞到hive里面去
hbase存储数据 ==》 hive表table2 映射hbase表数据 ==》 insert overwrite table table3 select from table2 ==> 使用sqoop导出table3 表数据

CREATE EXTERNAL TABLE course.hbase2mysql (id int,name string,price int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" =":key,info:name, info:price"
)
TBLPROPERTIES( "hbase.table.name" = "hbase_book",
"hbase.mapred.output.outputtable" = "hbase2mysql");

bin/sqoop export -connect jdbc:mysql://192.168.29.22:3306/library -username root -password 123456 -table book -export-dir /user/hive/warehouse/course.db/hbase2mysqlin --input-fields-terminated-by '\001' --input-null-string '\\N' --input-null-non-string '\\N';

hbase的预分区：
如果创建hbase表，没有指定有多少个region，默认一个region，所有的数都会写入到这一个region里面来，
等到region里面的数据写入到10Gb的时候，region就会进行分裂
region变成两个：

1、手动指定预分区
create 'staff','info','partition1',SPLITS => ['1000','2000','3000','4000']

2、使用16进制算法生成预分区
create 'staff2','info','partition2',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

3、将分区规则保存在文件里面
create 'staff3','partition2',SPLITS_FILE => '/export/servers/splits.txt'

4、使用JavaAPI创建预分区

HBase的rowkey设计至关重要，
第一个原因：hbase的数据查询比较脆弱，不支持sql语句的查询 scan + 过滤器
第二个原因：rowkey对数据的负载均衡比较重要
第三个原因：rowkey是我们数据检索重要条件

设计原则：
长度原则：rowkey设计不要太长，不能超过64KB，一般每个rowkey都是10-100个字节左右的长度
散列原则：尽量将rowkey的数据进行均衡的散列
order表数据需要存储
lsdjflsf_orderId_timestamp
唯一原则：数据的rowkey不能重复，rowkey重复，会产生数据相互覆盖问题。将进场访问的数据存储到一块，将相同类型的数据存储到一块
，加快数据检索的速度

rowkey的热点问题：大量的数据都在同一个region里面，其他的region里面没有什么数据
后果：数据倾斜

加盐：给rowkey的高位添加随机散列值
哈希：取hashcode码值
反转：对rowkey进行反转

使用手机号进行查询：158 137 159
13391508745 反转 54780519331 可以避免数据热点问题
时间戳的反转：使用时间戳来进行反转

一个月50亿，一年12个月 600亿条数据

改成了HBase：

13391506445 2019-02-22 12:04:59 5MB754KB 无线上网(4G) 115.170.79 0.18 非定向; 套外资费-飞young19云卡（线下）

进行查询：
rowkey的设计：
查询条件：手机号，查询类型，起始时间，结束时间

手机号反转_查询业务类型_数据发生时间

scan ：使用复合键来设计hbase的rowkey
54460519331_网络流量（类型）_2019:02:01 起始rowkey
54460519331_网络流量（类型）_2019:02:28 结束rowkey

hbase的协处理器：主要有两大类：observer endpoint
协处理器作用：可以帮助我们做一些数据的操作，以及数值统计的统计

一级索引：就是按照rowkey进行检索查询限制非常大
不支持
select * from user where name ='zhangsan' and age >28 and sex = 'male'

二级索引：将需要查询字段的保存到易于查询的数据库里面去，例如mysql，oracle，solr，es

observer：主要是类似于关系型数据库当中的触发器，出现某些特定时间的时候，就会触发调用
endpoint：主要是用于hbase当中求平均值，最大值，最小值等等

动态的挂载协处理器：
alter 'proc1',METHOD => 'table_att','Coprocessor'=>'hdfs://node01:8020/processor/process.jar|cn.itcast.hbasemr.demo4.MyProcessor|1001|'

二级索引：主要是为了解决hbase的数据查询比较脆弱的问题

说白了：就是以空间换时间的思想

hbase的调优:了解

posted on 2019-10-21 13:54 你好！Mr陈阅读(629) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

导航

公告

Hbase介绍