摘要: bulkload的方式导入数据是hbase的一项相当好的数据导入工具,特别适合做为新系统的历史数据导入工具!hbase本身也封装了相关的类importtsv,官网有简单的介绍http://hbase.apache.org/bulk-loads.html。 这里我要说明的是如何去快速定制一些适合自己应用的bulkload。 我们一般需要运行的数据有几种格式,txt的用的最普遍,采用lzo压缩过的txt更专业一些,这里举例lzo格式的源文件。以下代码生成hfile[java]view plaincopypackagecom.sina.hbase.mr;importjava.io.IOEx... 阅读全文
posted @ 2012-05-16 15:02 booming1236 阅读(442) 评论(0) 推荐(0)
摘要: 二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,ITHbase, Facebook方案和官方Coprocessor的介绍。理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索。2,数据的低冗余(存储所占的数据量)。3,数据的一致性。性能与数据冗余,一致性是相互制约的关系。如果你实现了高性能地范围检索,必然需要靠冗余索 阅读全文
posted @ 2012-05-16 14:57 booming1236 阅读(171) 评论(0) 推荐(0)