爬虫：模拟浏览器对网站内容进行爬取

对于一些保护比较好的网站，他能识别你是用requests库对其进行访问，所以有些网站会禁止你用python对其进行访问

所以我们可以修改发送给网站的头部信息，伪造浏览器对网站进行访问

查看我们发送给网站的头部信息：r.request.headers

kv={'user-agent':'Mozilla/5.0'} // 修改访问的user-agent信息

url="你要爬取的网站的链接"

r=requests.get(url,headers=kv) //修改你访问发送过去的headers

posted @ 2018-11-17 22:06 yorkmass 阅读(331) 评论(0) 收藏举报

刷新页面返回顶部

yorkmass