WebMagic-Java爬虫框架

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。

 

一、WebMagic的四个组件

1.Downloader

  Downloader负责从互联网上下载页面,默认使用apache HttpClient作为下载工具

2.PageProcessor

  负责解析页面,抽取有用的信息,以及发现新的链接,默认使用Jsoup作为HTML解析工具,并基于其开发了

  解析XPath的工具Xsoup。

3.Scheduler

  负责管理抓取待抓取的URL,并做一些去重的工作,默认使用JDK内存队列来管理URL,并用集合进行去重。也支持redis的分布式管理。

4.Pipeline

  负责抽取结果的处理,包括计算,持久化到文件,数据库等。如要要保存到指定数据库,则需要编写对应的Pipeline。

 

 

文档:http://webmagic.io/

 

END.

posted @ 2019-03-26 17:03  杨岂  阅读(220)  评论(0)    收藏  举报