介绍一个java爬虫项目--webmagic
记得很多年前,自已用HttpClient抓取了淘宝网的数据。写得比较累,对网页特整的分析要花很多时间,基本就是在一堆HTML代码里找特殊字符串,然后慢慢调试。
后来用到Jsoup,这就不用自已写HttpCilent了,最方便的是Jsoup有强大的选择器功能,定位页面元素就省力多了,但一番分析在所难免。
今天要介绍一款开源java的爬虫项目,Git地址为:https://github.com/code4craft/webmagic.git,还有一个简单的在线文档:http://webmagic.io/docs/zh/
这个抓网页就方便多了,利用Xpath定位要抓取的内容也非常轻松,其它不用多说,看文档,然后自已实践吧

浙公网安备 33010602011771号