随笔分类 -  爬虫

摘要:- 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等 - 增量式爬虫就是通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据 - 如何进行增量式的 阅读全文
posted @ 2019-03-05 20:27 阵浊秀
摘要:- 为什么原生的scrapy不能实现分布式 - 调度器不能被共享 - 管道无法被共享 - scrapy-redis组件的作用是什么 - 提供了可以被共享的调度器和管道 - 分布式爬虫实现流程 - 爬取抽屉网 标题和作者 # -*- coding: utf-8 -*- import scrapy fr 阅读全文
posted @ 2019-03-05 17:12 阵浊秀
摘要:- 一 什么是scrapy? - Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 - 安装 - linux: pip3 install scra 阅读全文
posted @ 2019-03-01 20:03 阵浊秀