爬虫:模拟浏览器对网站内容进行爬取

对于一些保护比较好的网站,他能识别你是用requests库对其进行访问,所以有些网站会禁止你用python对其进行访问

所以我们可以修改发送给网站的头部信息,伪造浏览器对网站进行访问

查看我们发送给网站的头部信息:r.request.headers

kv={'user-agent':'Mozilla/5.0'}     // 修改访问的user-agent信息

url="你要爬取的网站的链接"

r=requests.get(url,headers=kv)  //修改你访问发送过去的headers
 

posted @ 2018-11-17 22:06  yorkmass  阅读(329)  评论(0)    收藏  举报