2023 年 3月 22 日随笔档案 - 冰柠檬檬

2023年3月22日

爬取的数据，存到mysql中、爬虫和下载中间件、加代理，cookie，header，加入selenium、去重规则源码分析（布隆过滤器）、scrapy-redis实现分布式爬虫

摘要： # 1 scrapy架构 -爬虫：写的一个个类 -引擎： -调度器：排队，去重 -下载器 -pipline -下载中间件 -爬虫中间件 # 2 命令 -scrapy startproject 项目名 -scrapy gensipder 爬虫名网址 -scrapy crawl 爬虫名字 -run.p 阅读全文

posted @ 2023-03-22 19:04 冰柠檬檬阅读(96) 评论(0) 推荐(0)

bnmm

公告