2013年5月6日

摘要: 最近,因为未来工作的需要,我尝试安装部署了分布式爬虫系统Nutch,并配置了伪分布式的Hadoop来存储爬取的网页结果,用solr来对爬下来的网页进行搜索。我主要通过参考网上的相关资料进行安装部署的。但网上的资料很多比较乱,我也走了一些弯路。下面将我的安装过程记录下来,供大家参考。不足之处,请大家批评指正。环境:操作系统是Ubuntu10.04,jdk是openjdk-7-jdk。一、安装nutch1.6 我曾直接下载部署nutch1.6的二进制文件,虽然可以成功爬取网页,但用solr来搜索下载好的网页时,总是无法成功。后来选择下载nutch1.6的源文件自己编译,则可以很好的和solr结.. 阅读全文
posted @ 2013-05-06 17:17 eaglec 阅读(2710) 评论(0) 推荐(0)

导航