爬虫中常见的反爬策略

 

  1、通过user-agent客户端标识来判断是不是爬虫

      解决::在请求头中封装user-agent

  2、禁止ip访问

      解决::设置代理ip,封ip主要的原因是请求太频繁。

  3、通过访问频率来判断是正常请求还是爬虫

      解决::设置爬取间隔和爬取策略,例如每隔几秒爬取一次,在固定的时间段爬取

  4、访问时设置验证码

      解决::验证码的识别

  5、页面数据不再直接渲染,通过前端js异步获取

      解决::通过selenium+phantomjs(chrome)来获取数据,通过ajax找到数据来源

  规避措施:

    6、能获取列表页,就不获取详情页,为了避免增加请求的数量。

      将详情页放到每条数据中心,第一次爬取先爬取列表。
      第二次在从数据库中拿出详情页链接,在做第二次爬取。

    7、能一次性获取,就不分页获取,正对ajax请求。可以将每一页获取数量调大

posted @ 2020-02-18 20:25  F来日可期  阅读(254)  评论(0)    收藏  举报