爬虫 - 随笔分类 - 阵浊秀

增量式爬虫

摘要：- 当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等 - 增量式爬虫就是通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新出的新数据 - 如何进行增量式的阅读全文

posted @ 2019-03-05 20:27 阵浊秀

分布式爬虫(scrapy-redis)

摘要：- 为什么原生的scrapy不能实现分布式 - 调度器不能被共享 - 管道无法被共享 - scrapy-redis组件的作用是什么 - 提供了可以被共享的调度器和管道 - 分布式爬虫实现流程 - 爬取抽屉网标题和作者 # -*- coding: utf-8 -*- import scrapy fr 阅读全文

posted @ 2019-03-05 17:12 阵浊秀

scrapy框架学习

摘要：- 一什么是scrapy? - Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。 - 安装 - linux: pip3 install scra 阅读全文

posted @ 2019-03-01 20:03 阵浊秀

一观一寺一宗二层楼

随笔分类 - 爬虫

公告