随笔分类 -  HBase

转:HBase 之 HTable 分析
摘要:HTable是HBase提供的一个主要客户端接口, 通过它可以实现与HBase集群连接, 进而实现CRUD等一系列功能。 1. HTable如何实现与HBase集群的连接?HTable是如何知道HBase集群中的HMaser和HRegionServer, 答案是通过Zookeeper, zookeeper是一个分布式协调系统, HMaser,HRegionServer在启动后会自动在zookeeper中注册自己的地址。 HTable实例构造后会查找zookeeper配置, 与zookeeper取的连接, 进而获取HMaser,HRegionServer信息加载zookeeper配置流程如下:. 阅读全文
posted @ 2012-05-25 09:54 booming1236 阅读(485) 评论(0) 推荐(0)
转: hbase bulkload
摘要:bulkload的方式导入数据是hbase的一项相当好的数据导入工具,特别适合做为新系统的历史数据导入工具!hbase本身也封装了相关的类importtsv,官网有简单的介绍http://hbase.apache.org/bulk-loads.html。 这里我要说明的是如何去快速定制一些适合自己应用的bulkload。 我们一般需要运行的数据有几种格式,txt的用的最普遍,采用lzo压缩过的txt更专业一些,这里举例lzo格式的源文件。以下代码生成hfile[java]view plaincopypackagecom.sina.hbase.mr;importjava.io.IOEx... 阅读全文
posted @ 2012-05-16 15:02 booming1236 阅读(442) 评论(0) 推荐(0)
转:HBase的二级索引
摘要:二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,ITHbase, Facebook方案和官方Coprocessor的介绍。理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索。2,数据的低冗余(存储所占的数据量)。3,数据的一致性。性能与数据冗余,一致性是相互制约的关系。如果你实现了高性能地范围检索,必然需要靠冗余索 阅读全文
posted @ 2012-05-16 14:57 booming1236 阅读(171) 评论(0) 推荐(0)