【爬虫3】爬虫相关链接

参考1:https://www.zhihu.com/question/31427895?rf=37152899

参考2:https://www.cnblogs.com/huhx/p/usepythongithubspider.html

1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。而且这玩意儿还包括了一个开箱即用的搜索引擎,安装好就可以搜索了。

2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

当然,上面说的nutch有的功能比如数据存储不代表Heritrix没有,反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~

还有比如JSpiderWebEaterJava Web CrawlerWebLechEx-CrawlerJoBo等等,这些没用过,不知道。。。

 

 

posted @ 2018-05-12 11:10  念槐聚  阅读(94)  评论(0)    收藏  举报