2020 年 8月 31 日随笔档案 - gemoumou

2020年8月31日

摘要：请求传参实现的深度爬取深度爬取：爬取的数据没有在同一张页面中（首页数据+详情页数据）在scrapy中如果没有请求传参我们是无法进行持久化存储数据的实现方式： scrapy.Request(url,callback,meta) meta是一个字典，可以将meta传递给callback callb 阅读全文

posted @ 2020-08-31 00:25 gemoumou 阅读(632) 评论(0) 推荐(0)

17-爬虫之scrapy框架五大核心组件工作流程及下载中间件介绍04

摘要： scrapy的五大核心组件引擎(Scrapy) 对整个系统的数据流进行处理, 触发事务(框架核心). 调度器(Scheduler) 用来接受引擎发过来的请求. 由过滤器过滤重复的url并将其压入队列中, 在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由阅读全文

posted @ 2020-08-31 00:06 gemoumou 阅读(148) 评论(0) 推荐(0)

gemoumou

公告