随笔分类 -  scrapy

摘要:scrapy 本身不能作为js engine 可以利用splash项目动态解析js: 使用docker启动scrapinghub/splash项目并且监听8050端口, 命令如下: docker run -p 8050:8050 scrapinghub/splash POST参数{"url": ur 阅读全文
posted @ 2016-05-19 16:46 z_hong7 阅读(1286) 评论(0) 推荐(0)
摘要:scrapy中内置了许多不错的下载中间件,可以按照需求合理使用在爬虫中,很简单 也可以自己编写,其中有方法process_request,process_response,process_exception可以在请求前,请求后与抛出异常时做处理 例如在请求前过滤url,加入黑名单,判断请求返回是否满 阅读全文
posted @ 2016-05-19 16:43 z_hong7 阅读(256) 评论(0) 推荐(0)
摘要:这篇文章http://blog.csdn.net/Bone_ACE/article/details/50989104中的描述十分详细明了,所以直接引用,仅作记录: 策略一: Slaver端从Master端拿任务(Request/url/ID)进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给M 阅读全文
posted @ 2016-05-19 16:28 z_hong7 阅读(4354) 评论(3) 推荐(1)
摘要:scrapy-redis使用的爬虫策略: Slaver端从Master端拿任务进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时,会在redis中创建两个key,一个是(sp 阅读全文
posted @ 2016-05-19 16:16 z_hong7 阅读(576) 评论(0) 推荐(0)