2024 年 2月 26 日随笔档案 - 拆尼斯、帕丁顿

2024年2月26日

爬虫__crapy框架__ 爬虫中间件和下载中间件的了解，，请求头的一些内容，， scrapy集成selenium__使用步骤，，源码去重规则（布隆过滤器），，分布式爬虫

摘要： # 1 scrapy 框架架构 -爬虫：我们写爬取起始地址，解析数据的位置 -引擎：控制数据流向 -调度器：控制爬取的先后 -下载器：负责下载，建立在twisted 之上 -pipline：持久化 # 2 目录结构 -创建爬虫命令：scrapy gensipder 名字网址 -运行爬虫：scra 阅读全文

posted @ 2024-02-26 15:29 拆尼斯、帕丁顿阅读(51) 评论(0) 推荐(0)

公告