python之路--爬虫经验

在发送请求是带上请求头headers:

常用请求头中的内容有headers={“User-Agent”:”...”，“host”：“...”，”referer”:”....”，自定义的，等等}

2.爬虫经验

经验一：当获取页面内容返回被防火墙拦截的时候，应当考虑在get/post请求中带上请求头(为了伪装成浏览器访问)：headers={“User-Agent”:”...”}

经验二：登录等不成功的时候考虑不能直接登录，而是要像浏览器一样先访问获取一个未授权的cookies，再登录的时候带上此cookies。有些需要在请求头中直接拿它的cookies而非自己获取；有些需要获取并带上登录成功后给的cookies。

posted @ 2018-07-04 20:01 Aberwang 阅读(88) 评论(0) 收藏举报

刷新页面返回顶部

Aberwang