摘要: 1 user-agent 2 referer 3 cookie(cookie池,先访问一次) 4 频率限制(代理池,延迟) 5 js加密(扣出来,exjs模块指向) 6 css加密 7 验证码(打码平台),半手动 8 图片懒加载 阅读全文
posted @ 2020-08-07 00:25 耗油炒白菜 阅读(115) 评论(0) 推荐(0)
摘要: 一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul 阅读全文
posted @ 2020-08-07 00:23 耗油炒白菜 阅读(165) 评论(0) 推荐(0)