摘要:
阅读目录 一 介绍 二、scrapy-redis组件 一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写 阅读全文
posted @ 2021-10-03 13:04
Laity-J哥
阅读(187)
评论(0)
推荐(0)
摘要:
阅读目录 一 介绍 二 安装 三 命令行工具 四 项目结构以及爬虫应用简介 五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Middeware 十 Spider Middleware 十一 自定义扩展 十二 settings.py 阅读全文
posted @ 2021-10-03 12:58
Laity-J哥
阅读(322)
评论(0)
推荐(2)

浙公网安备 33010602011771号