摘要:
网络爬虫的限制 1,来源审查:判断user-agent进行限制,只响应浏览器和友好爬虫 2,发布公告:robots协议(相当于告示牌),告知爬虫网站的爬取策略,要求爬虫遵守。什么能爬取,什么不能爬取。是否遵守,有爬虫自己决定。
阅读全文
摘要:
requests库(自动爬取HTML页面,自动网络请求提交) 七个主要方法: requests.request() request.get() request.head() request.post() request.put() request.patch() request.delete() 五
阅读全文