2013 年 5月 6 日随笔档案 - eaglec

2013年5月6日

摘要：最近，因为未来工作的需要，我尝试安装部署了分布式爬虫系统Nutch，并配置了伪分布式的Hadoop来存储爬取的网页结果，用solr来对爬下来的网页进行搜索。我主要通过参考网上的相关资料进行安装部署的。但网上的资料很多比较乱，我也走了一些弯路。下面将我的安装过程记录下来，供大家参考。不足之处，请大家批评指正。环境：操作系统是Ubuntu10.04，jdk是openjdk-7-jdk。一、安装nutch1.6 我曾直接下载部署nutch1.6的二进制文件，虽然可以成功爬取网页，但用solr来搜索下载好的网页时，总是无法成功。后来选择下载nutch1.6的源文件自己编译，则可以很好的和solr结.. 阅读全文

posted @ 2013-05-06 17:17 eaglec 阅读(2710) 评论(0) 推荐(0)

eaglec

导航

公告