nutch batchid
摘要:
问题:nutch默认在fetch的时候batchid是-all。这样导致只要有batchid的记录都会被从新抓取,从新parse。记录比较多的时候会非常慢,而且没有必要。代码:fetchJob public Map run(Map args) throws Exception { checkConfiguration(); String batchId = (String)args.get(Nutch.ARG_BATCH); Integer threads = (Integer)args.get(Nutch.ARG_THREADS); Boolean shouldRes... 阅读全文
posted @ 2014-02-25 19:27 fengjiaoan 阅读(414) 评论(0) 推荐(0) 编辑