随笔分类 -  网络爬虫

摘要:本文列举了一些较为常用的JAVA开源爬虫框架: 1.Apache Nutch 官方网站:http://nutch.apache.org/ 是否支持分布式:是 可扩展性:中。Apache Nutch并不是一个可扩展性很强的爬虫,它是一个专门为搜索引擎定制的网络爬虫,虽然Apache Nutch具有一套 阅读全文
posted @ 2019-09-05 14:59 今天早点睡 阅读(1299) 评论(0) 推荐(0)
摘要:加入 jsoup 和 htmlunit 的依赖 代码: 这样我们就可以得到一个包含运行 JavaScript 之后的完整源网页了 阅读全文
posted @ 2019-05-17 11:27 今天早点睡 阅读(1117) 评论(0) 推荐(0)