摘要: 当生成完成一个HFile后,如果你不想因为出错而重做数据,建议在bulkimport之前,查看一下hfilehbase提供了一个查看HFile属性的包org.apache.hadoop.hbase.io.hfile.HFile$hbase org.apache.hadoop.hbase.io.hfile.HFileusage: HFile [-a] [-b] [-e] [-f <arg>] [-j] [-k] [-m] [-p] [-r <arg>] [-s <arg>] [-v]-a,--checkfamily Enable family check-b, 阅读全文
posted @ 2013-01-14 18:22 忠义两难全 阅读(170) 评论(0) 推荐(0)
摘要: 通过-D设置的参数在streaming中可以通过读取系统参数的方式获得,这里必须把 "."替换成"_";启动参数设置 -DSPLIT.PV.THRESHOLD=600python文件中加入如下代码:tmp = os.popen('echo $SPLIT_PV_THRESHOLD').readlines()Threshold = int(tmp[0]) 阅读全文
posted @ 2013-01-14 17:34 忠义两难全 阅读(102) 评论(0) 推荐(0)
摘要: Hbase数据导入是在日常工作中经常要处理的问题,在数据量超大时,有事会成为一个非常棘手的问题。通常我们选用BulkImport的方式完成数据的批量导入:一般其情况下这是非常高效的处理方式:这种方式在预处理(即生成HFile)时不需要对HBase本身做IO操作,导入方式是一个mv操作,并可以实现多线程导入然而在处理依赖原数据的插入操作时,生成HFile时需要一次get操作,尽管在mapreduce中,将靠近的rowkey放在一个reduce中处理,但是get操作任然会受到各种不可预知的因素影响,例如regionserver本身的问题等,这使得生成HFile的时间成为不可预知的因素。针对这类问题 阅读全文
posted @ 2013-01-11 13:54 忠义两难全 阅读(931) 评论(0) 推荐(0)