忠义两难全

2013年1月14日

摘要：当生成完成一个HFile后，如果你不想因为出错而重做数据，建议在bulkimport之前，查看一下hfilehbase提供了一个查看HFile属性的包org.apache.hadoop.hbase.io.hfile.HFile$hbase org.apache.hadoop.hbase.io.hfile.HFileusage: HFile [-a] [-b] [-e] [-f <arg>] [-j] [-k] [-m] [-p] [-r <arg>] [-s <arg>] [-v]-a,--checkfamily Enable family check-b, 阅读全文

posted @ 2013-01-14 18:22 忠义两难全阅读(171) 评论(0) 推荐(0)

Streaming中获取conf参数（python版）

摘要：通过-D设置的参数在streaming中可以通过读取系统参数的方式获得，这里必须把 "."替换成"_";启动参数设置 -DSPLIT.PV.THRESHOLD=600python文件中加入如下代码：tmp = os.popen('echo $SPLIT_PV_THRESHOLD').readlines()Threshold = int(tmp[0]) 阅读全文

posted @ 2013-01-14 17:34 忠义两难全阅读(106) 评论(0) 推荐(0)

2013年1月11日

Hbase多版本使用技巧

摘要： Hbase数据导入是在日常工作中经常要处理的问题，在数据量超大时，有事会成为一个非常棘手的问题。通常我们选用BulkImport的方式完成数据的批量导入：一般其情况下这是非常高效的处理方式：这种方式在预处理（即生成HFile）时不需要对HBase本身做IO操作，导入方式是一个mv操作，并可以实现多线程导入然而在处理依赖原数据的插入操作时，生成HFile时需要一次get操作，尽管在mapreduce中，将靠近的rowkey放在一个reduce中处理，但是get操作任然会受到各种不可预知的因素影响，例如regionserver本身的问题等，这使得生成HFile的时间成为不可预知的因素。针对这类问题阅读全文

posted @ 2013-01-11 13:54 忠义两难全阅读(934) 评论(0) 推荐(0)

公告