摘要: 网站反爬虫的原因 常见反爬虫手段 设置账号的登录限制,只有登录才能展现内容 设置账号登录的时长,时间一到则自动退出 爬虫访问次数过多,弹出验证码要求输入 每天限制一个登录账户后端 api 接口的调用次数 对后台 api 返回信息进行加密处理 反反爬的策略 将爬虫伪装成自然人的浏览行为 访问频率不会非 阅读全文
posted @ 2019-10-25 15:24 淡然。 阅读(2659) 评论(0) 推荐(0) 编辑
摘要: 配置 settings.py 启用自定义 IP 代理中间件 DOWNLOADER_MIDDLEWARES 设置自定义 IP 代理中间件优先级高于系统 IP 代理中间件 收集可用的 IP 代理,构建 IP 代理池 在 settings.py 中定义IP代理数组 这些IP可以从这个几个网站获取:快代理、 阅读全文
posted @ 2019-10-25 14:56 淡然。 阅读(2719) 评论(0) 推荐(0) 编辑