爬虫中常见的反爬策略

　　　　　　解决：：在请求头中封装user-agent

　　　　　　解决：：设置代理ip，封ip主要的原因是请求太频繁。

　　　　　　解决：：设置爬取间隔和爬取策略，例如每隔几秒爬取一次，在固定的时间段爬取

　　　　　　解决：：验证码的识别

　　　　　　解决：：通过selenium+phantomjs（chrome）来获取数据，通过ajax找到数据来源

　　规避措施：

　　　　6、能获取列表页，就不获取详情页，为了避免增加请求的数量。

　　　　　　将详情页放到每条数据中心，第一次爬取先爬取列表。
　　　　　　第二次在从数据库中拿出详情页链接，在做第二次爬取。

　　　　7、能一次性获取，就不分页获取，正对ajax请求。可以将每一页获取数量调大

posted @ 2020-02-18 20:25 F来日可期阅读(257) 评论(0) 收藏举报

刷新页面返回顶部