随笔分类 - Hbase
摘要:HBase的RowKey设计 HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的
阅读全文
摘要:面对百亿数据,HBase为什么查询速度依然非常快? HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。 那么HBase是如何做到的呢? 接下来,简单阐述一下数据的查询思路和过程。 查询过程 第1步: 项目有100亿业务数据,存
阅读全文
摘要:Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho
阅读全文
摘要:MapReduce读写HBase架构图及其示例代码 1、MapReduce读写HBase架构图 2、MapReduce读HBase代码示例 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apac
阅读全文
摘要:布隆过滤器 1、布隆过滤器的介绍 Bloom Filter(布隆过滤器) (1)它实际上是一个很长的二进制向量(字节数组)和一系列随机映射函数。 (2)布隆过滤器可以用于检索一个元素是否在一个集合中。 (3)它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。 在计算
阅读全文
摘要:HBase过滤器及其代码示例 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白, 只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤
阅读全文
摘要:Hive整合HBase(操作HBase中的数据) # Hive整合HBase,必须建立外部表 #在Hive建立外部表 create external table students_hbase ( id string, name string, age string, gender string, c
阅读全文
摘要:HBase特点、数据模型概念、Region分裂策略、Compaction合并 一、HBase的特点 大:一个表可以有上亿行,上百万列。 面向列:面向列族(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 无模式(no Schem
阅读全文
摘要:IDEA代码操作Hbase(2) 程序案例 电信数据 用户mdn 进入时间 离开时间 地区编号 经纬度 47BE1E866CFC071DB19D5E1C056BE28AE24C16E7,20180503211049,20180503210349,8320113,118.908,32 47BE1E86
阅读全文
摘要:IDEA代码操作Hbase 1、操作Hbase的基本流程 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor
阅读全文
摘要:HBase JAVA API 1、几个主要 Hbase API 类和数据模型之间的对应关系: 2、HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供了一个接口来管理 HBase 数据库的表信息。 它提供的方法包括:创建表,删 除表
阅读全文
摘要:Hbase的数据模型 一 、数据的存储介绍 1、HRegion是HBase中分布式存储和负载均衡的最小单元。 存储的时候,每个Region会有一个目录(命名空间目录/表名目录/Region目录/列簇目录) 最小单元就表示不同的HRegion可以分布在不同的HRegionserver上 2、HRegi
阅读全文
摘要:Hbase系统架构 一、Hbase是主从结构 主节点:HMaster (1)为Regionserver分配region(创建表默认有一个region) (2)负责Regionserver的负载均衡 (3)发现失效的Regionserver并重新分配其上的region (4)管理用户对table结构的
阅读全文
摘要:Hbase常用shell命令 1、操作Hbase数据的方式 1、通过shell操作 2、Hive建立外部表操作 3、通过MapReduce操作 4、通过Phoenix操作 5、通过Java API(使用最多) 2、操作Hbase的shell命令 进入到hbase的命令栏 [root@master ~
阅读全文
摘要:hbase 中的 regions(分区) Hbase的数据以HFile的格式存在于HDFS 手动切分表来生成多个regions split '表名','rowkey' 就会按照 指定的 rowkey 切分这张表 例如 split 'test','10' 将 test 表 按10 切分,生成两个reg
阅读全文
摘要:Hbase分布式集群搭建 前提:hadoop和zk都要启动 1、启动hadoop start-all.sh 验证 http://master:50070 2、启动zookeeper 需要在在三台中分别启动 zkServer.sh start zkServer.sh status 搭建hbase 1、
阅读全文
摘要:Hbase的特点及其生态系统 在Hive中主要做的:传入一条交互式的SQL,在海量数据中查询分析(主要是分析计算) 交互式(REPL):传入一条SQL,返回结果 Read:读,Eval:执行,Print:输出,Loop:循环 1、Hbase的特点 1、适用于实时查询,不能做分析 2、NoSQL,非关
阅读全文

浙公网安备 33010602011771号