爬虫中常见的反爬策略
1、通过user-agent客户端标识来判断是不是爬虫
解决::在请求头中封装user-agent
2、禁止ip访问
解决::设置代理ip,封ip主要的原因是请求太频繁。
3、通过访问频率来判断是正常请求还是爬虫
解决::设置爬取间隔和爬取策略,例如每隔几秒爬取一次,在固定的时间段爬取
4、访问时设置验证码
解决::验证码的识别
5、页面数据不再直接渲染,通过前端js异步获取
解决::通过selenium+phantomjs(chrome)来获取数据,通过ajax找到数据来源
规避措施:
6、能获取列表页,就不获取详情页,为了避免增加请求的数量。
将详情页放到每条数据中心,第一次爬取先爬取列表。
第二次在从数据库中拿出详情页链接,在做第二次爬取。
7、能一次性获取,就不分页获取,正对ajax请求。可以将每一页获取数量调大

浙公网安备 33010602011771号