scrapy - 随笔分类 - z_hong7

scrapy抓取js动态生成页面

摘要：scrapy 本身不能作为js engine 可以利用splash项目动态解析js：使用docker启动scrapinghub/splash项目并且监听8050端口，命令如下： docker run -p 8050:8050 scrapinghub/splash POST参数{"url": ur 阅读全文

posted @ 2016-05-19 16:46 z_hong7 阅读(1286) 评论(0) 推荐(0)

scrapy下载中间件

摘要：scrapy中内置了许多不错的下载中间件，可以按照需求合理使用在爬虫中，很简单也可以自己编写，其中有方法process_request，process_response，process_exception可以在请求前，请求后与抛出异常时做处理例如在请求前过滤url，加入黑名单，判断请求返回是否满阅读全文

posted @ 2016-05-19 16:43 z_hong7 阅读(256) 评论(0) 推荐(0)

三种分布式爬虫策略

摘要：这篇文章http://blog.csdn.net/Bone_ACE/article/details/50989104中的描述十分详细明了，所以直接引用，仅作记录：策略一： Slaver端从Master端拿任务（Request/url/ID）进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给M 阅读全文

posted @ 2016-05-19 16:28 z_hong7 阅读(4354) 评论(3) 推荐(1)

scrapy-redis详解

摘要：scrapy-redis使用的爬虫策略： Slaver端从Master端拿任务进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时，会在redis中创建两个key，一个是(sp 阅读全文

posted @ 2016-05-19 16:16 z_hong7 阅读(576) 评论(0) 推荐(0)

z_hong7

有时决定了要走，却总是徘徊留恋。有时决定留下，眼神却总望着远方的山水。没关系，唱首歌，走走停停地看看风景。一条路始终有个尽头。

随笔分类 - scrapy

公告