随笔分类 -  HBase

摘要:布隆过滤器是一位名叫Bloom的人提出的一种用于检索元素是否存在给定的大集合中的数据结构,这种数据结构由二进制向量(或者说位数组)和一系列随机映射函数(哈希函数)两部分组成。它只需占用极小的空间,便可以给出“可能存在”和“肯定不存在”的存在性判断。 实现原理 布隆过滤器由一个长度为N的0-1数组ar 阅读全文
posted @ 2021-06-25 15:41 有心有梦 阅读(163) 评论(0) 推荐(0)
摘要:HBase的体系结构借鉴了BigTable论文,是典型的Master-Slave模型。 1.HBase客户端 HBase客户端提供了Shell命令行接口、原生Java API编程接口、Thrift/REST API编程接口以及MapReduce编程接口。HBase客户端支持所有常见的DML操作以及D 阅读全文
posted @ 2021-06-24 22:58 有心有梦 阅读(349) 评论(0) 推荐(0)
摘要:本文非原创,转载于小米运维的HBase复制详解一文。 ​ 复制,指的是持续的将同一份数据拷贝到多个地方进行存储,是各种存储系统中常见而又重要的一个概念,可以指数据库中主库和从库的复制,也可以指分布式集群中多个集群之间的复制,还可以指分布式系统中多个副本之间的复制。它的难点在于数据通常是不断变化的,需 阅读全文
posted @ 2021-05-16 22:45 有心有梦 阅读(1287) 评论(0) 推荐(0)
摘要:HBase客户端开发API 建立连接 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org. 阅读全文
posted @ 2021-04-25 00:09 有心有梦 阅读(433) 评论(1) 推荐(0)
摘要:存储文件的合并(StoreFile Compaction) 由于memstore每次刷写都会生成一个新的Hfile文件,那么当刷写的次数过多的时候就会产生大量的HFile小文件,我们知道,对于某一个字段的数据来说,它可能有多个版本的数据,这个版本是由时间戳决定的,那么可能在不同的时间对同一字段进行更 阅读全文
posted @ 2020-08-17 09:19 有心有梦 阅读(756) 评论(0) 推荐(0)
摘要:写流程: 具体流程: Client进行写操作的时候,会先查询Meta缓存中是否含有目标table的region信息以及Meta表位置信息,如果有就不再去访问zookeeper,而是直接进行下一步的操作。如果没有则会去访问zookeeper,获取hbase:meta表位于哪个Region Server 阅读全文
posted @ 2020-08-15 06:34 有心有梦 阅读(1465) 评论(0) 推荐(0)
摘要:内存数据刷写(MemStore Flush) 同一个Region上的不同Store代表了不同的列族,最终刷写到HDFS上的时候,会形成不同的文件夹。每一个Store都有一个MemStore,刷写数据正是从将MemStore的数据刷写到磁盘形成存储文件store file的。那么何时开始进行刷写呢?H 阅读全文
posted @ 2020-08-14 09:25 有心有梦 阅读(661) 评论(0) 推荐(1)
摘要:使用HBase API删除数据的时候需要注意的地方有很多,需要分成几种情况进行分别的讨论,进行删除操作之前,首先需要构建删除对象,即org.apache.hadoop.hbase.client包下的Delete,然后根据实际情况进行具体的操作,下面一一介绍: 1、只传rowKey rowKey这个参 阅读全文
posted @ 2020-08-10 08:37 有心有梦 阅读(2161) 评论(0) 推荐(0)