介绍一个java爬虫项目--webmagic

  记得很多年前,自已用HttpClient抓取了淘宝网的数据。写得比较累,对网页特整的分析要花很多时间,基本就是在一堆HTML代码里找特殊字符串,然后慢慢调试。

  后来用到Jsoup,这就不用自已写HttpCilent了,最方便的是Jsoup有强大的选择器功能,定位页面元素就省力多了,但一番分析在所难免。

  今天要介绍一款开源java的爬虫项目,Git地址为:https://github.com/code4craft/webmagic.git,还有一个简单的在线文档:http://webmagic.io/docs/zh/

  这个抓网页就方便多了,利用Xpath定位要抓取的内容也非常轻松,其它不用多说,看文档,然后自已实践吧

posted @ 2018-11-19 11:06  武林旧人  阅读(390)  评论(0)    收藏  举报