摘要: nutch抓取流程注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)1:注入起始url(inject) org.apache.nutch.crawl.Injector 注入待抓取URL,因为Nutch 阅读全文
posted @ 2016-10-11 08:25 SummerChill 阅读(1579) 评论(0) 推荐(0) 编辑