python之路--爬虫经验
1.简单的反防爬虫:模拟浏览器登录
在发送请求是带上请求头headers:
常用请求头中的内容有headers={“User-Agent”:”...”,“host”:“...”,”referer”:”....”,自定义的,等等}
2.爬虫经验
经验一:当获取页面内容返回被防火墙拦截的时候,应当考虑在get/post请求中带上请求头(为了伪装成浏览器访问):headers={“User-Agent”:”...”}
经验二:登录等不成功的时候考虑不能直接登录,而是要像浏览器一样先访问获取一个未授权的cookies,再登录的时候带上此cookies。有些需要在请求头中直接拿它的cookies而非自己获取;有些需要获取并带上登录成功后给的cookies。