HBase - 随笔分类 - booming1236

转：HBase 之 HTable 分析

摘要：HTable是HBase提供的一个主要客户端接口，通过它可以实现与HBase集群连接，进而实现CRUD等一系列功能。 1. HTable如何实现与HBase集群的连接?HTable是如何知道HBase集群中的HMaser和HRegionServer, 答案是通过Zookeeper, zookeeper是一个分布式协调系统， HMaser,HRegionServer在启动后会自动在zookeeper中注册自己的地址。 HTable实例构造后会查找zookeeper配置，与zookeeper取的连接，进而获取HMaser,HRegionServer信息加载zookeeper配置流程如下:. 阅读全文

posted @ 2012-05-25 09:54 booming1236 阅读(488) 评论(0) 推荐(0)

转： hbase bulkload

摘要：bulkload的方式导入数据是hbase的一项相当好的数据导入工具，特别适合做为新系统的历史数据导入工具！hbase本身也封装了相关的类importtsv，官网有简单的介绍http://hbase.apache.org/bulk-loads.html。这里我要说明的是如何去快速定制一些适合自己应用的bulkload。我们一般需要运行的数据有几种格式，txt的用的最普遍，采用lzo压缩过的txt更专业一些，这里举例lzo格式的源文件。以下代码生成hfile[java]view plaincopypackagecom.sina.hbase.mr;importjava.io.IOEx... 阅读全文

posted @ 2012-05-16 15:02 booming1236 阅读(446) 评论(0) 推荐(0)

转：HBase的二级索引

摘要：二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性，RDBMS早已支持，NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,ITHbase, Facebook方案和官方Coprocessor的介绍。理论目标在HBase中实现二级索引与索引Join需要考虑三个目标：1，高性能的范围检索。2，数据的低冗余（存储所占的数据量）。3，数据的一致性。性能与数据冗余，一致性是相互制约的关系。如果你实现了高性能地范围检索，必然需要靠冗余索阅读全文

posted @ 2012-05-16 14:57 booming1236 阅读(171) 评论(0) 推荐(0)

随笔分类 - HBase