摘要: 参考http://wiki.apache.org/nutch/RunNutchInEclipse一、环境准备1、下载nutch2.3源代码wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开... 阅读全文
posted @ 2015-01-28 16:41 lujinhong2 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。From the point of view of ... 阅读全文
posted @ 2015-01-28 11:20 lujinhong2 阅读(129) 评论(0) 推荐(0) 编辑