摘要: 请求传参实现的深度爬取 深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据) 在scrapy中如果没有请求传参我们是无法进行持久化存储数据的 实现方式: scrapy.Request(url,callback,meta) meta是一个字典,可以将meta传递给callback callb 阅读全文
posted @ 2020-08-31 00:25 gemoumou 阅读(594) 评论(0) 推荐(0)
摘要: scrapy的五大核心组件 引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由 阅读全文
posted @ 2020-08-31 00:06 gemoumou 阅读(147) 评论(0) 推荐(0)