随笔分类 -  Apache Nutch

摘要:Nutch Crawler工作流程: Injector - 注入 Generator - 产生抓取列表 Fetcher - 从网上抓取网页 Parse Segment - 对抓取的网页进行解析 CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB L... 阅读全文
posted @ 2013-04-19 17:47 Kyle_Java 阅读(886) 评论(0) 推荐(0)
摘要:Nutch 当前两个版本 : 1.6 - Nutch1.6使用Hadoop Distributed File System (HDFS)来作为存储,稳定可靠。 2.1 - 通过gora对存储层进行了扩展,可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFi... 阅读全文
posted @ 2013-04-18 15:14 Kyle_Java 阅读(10039) 评论(0) 推荐(0)