摘要:
请求传参实现的深度爬取 深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据) 在scrapy中如果没有请求传参我们是无法进行持久化存储数据的 实现方式: scrapy.Request(url,callback,meta) meta是一个字典,可以将meta传递给callback callb 阅读全文
posted @ 2020-08-31 00:25
gemoumou
阅读(594)
评论(0)
推荐(0)
摘要:
scrapy的五大核心组件 引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由 阅读全文
posted @ 2020-08-31 00:06
gemoumou
阅读(147)
评论(0)
推荐(0)

浙公网安备 33010602011771号