2017 年 5月 9 日随笔档案 - 呢喃的歌声

sqoop的数据抽取过程记录

摘要：今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟开了两个map。模型是oracle hdfs（hive）。以前只抽过几十万级别，所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了ove 阅读全文

posted @ 2017-05-09 23:46 呢喃的歌声阅读(784) 评论(0) 推荐(0)

2017年5月9日

公告