摘要:
今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了ove 阅读全文
posted @ 2017-05-09 23:46
呢喃的歌声
阅读(782)
评论(0)
推荐(0)
浙公网安备 33010602011771号