随笔分类 - Apache Nutch
摘要:Nutch Crawler工作流程: Injector - 注入 Generator - 产生抓取列表 Fetcher - 从网上抓取网页 Parse Segment - 对抓取的网页进行解析 CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB L...
阅读全文
摘要:Nutch 当前两个版本 : 1.6 - Nutch1.6使用Hadoop Distributed File System (HDFS)来作为存储,稳定可靠。 2.1 - 通过gora对存储层进行了扩展,可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFi...
阅读全文
浙公网安备 33010602011771号