jsoup爬虫实战心得

1.heder很重要,一切尽在header中。尤其cookie,useragent。

2.对于加密的连接,查看js加密过程并试着通过java或你正在使用的语言去实现

3.查看在跳转之前前端发起的关键请求,所谓关键请求乃指包含查询关键字的链接。

4.发送关键字请求是为了与服务器进行交互通信握手言和,取得信任。

5.这样再跳转过去真正请求的时候就不会往验证码页面跳转了。

6.一切ok!你需要的就在眼前!

7.为防止反爬,后台需要间隔N秒模仿多种浏览器(useragent)去请求。

8.有些网站根据ip反爬,需要变换ip(代理ip)

9.有些网站对浏览器版本有要求,这需要您关注useragent

 

posted @ 2019-11-17 17:32  许洪涛  阅读(440)  评论(0编辑  收藏  举报