python之路--爬虫经验

1.简单的反防爬虫:模拟浏览器登录

在发送请求是带上请求头headers:

常用请求头中的内容有headers={User-Agent:...“host”:“...”,referer:....,自定义的,等等}

2.爬虫经验

经验一:当获取页面内容返回被防火墙拦截的时候,应当考虑在get/post请求中带上请求头(为了伪装成浏览器访问):headers={User-Agent:...}

经验二:登录等不成功的时候考虑不能直接登录,而是要像浏览器一样先访问获取一个未授权的cookies,再登录的时候带上此cookies。有些需要在请求头中直接拿它的cookies而非自己获取;有些需要获取并带上登录成功后给的cookies。

posted @ 2018-07-04 20:01  Aberwang  阅读(88)  评论(0)    收藏  举报