2011 年 2月文章档案 - Jiangwzh

02 2011 档案

〔转〕Nutch 1.0源代码分析(1): Crawl初始化与Injector

摘要：从今天开始陆续对Nutch 1.0的工作过程进行分析。从Crawl为起点，先分析爬虫从爬行到索引的过程，再分析查询检索的过程。如有错误，欢迎批评指正！ Crawl类是Nutch爬虫中的一个核心类，它的主要方法就是该类中的main方法，该方法包含了爬虫的整个运行阶段，包括Inject(将初始URL加入到网页库CrawlDb中)，Generate（产生待爬行队列），Fetch（抓取网页）和Index（索引）。这里通过分析main方法的执行过程分析nutch爬虫从建立网页库到建立索引的全过程。Crawl类位于org.apache.nutch.crawl包中，接下来就对main方法进行分析。 1.初阅读全文

posted @ 2011-02-12 10:48 Jiangwzh 阅读(699) 评论(0) 推荐(0)

SkylineSoft

公告

02 2011 档案

〔转〕Nutch 1.0源代码分析(1): Crawl初始化与Injector