随笔分类 - scrapy
摘要:scrapy 本身不能作为js engine 可以利用splash项目动态解析js: 使用docker启动scrapinghub/splash项目并且监听8050端口, 命令如下: docker run -p 8050:8050 scrapinghub/splash POST参数{"url": ur
阅读全文
摘要:scrapy中内置了许多不错的下载中间件,可以按照需求合理使用在爬虫中,很简单 也可以自己编写,其中有方法process_request,process_response,process_exception可以在请求前,请求后与抛出异常时做处理 例如在请求前过滤url,加入黑名单,判断请求返回是否满
阅读全文
摘要:这篇文章http://blog.csdn.net/Bone_ACE/article/details/50989104中的描述十分详细明了,所以直接引用,仅作记录: 策略一: Slaver端从Master端拿任务(Request/url/ID)进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给M
阅读全文
摘要:scrapy-redis使用的爬虫策略: Slaver端从Master端拿任务进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时,会在redis中创建两个key,一个是(sp
阅读全文

浙公网安备 33010602011771号