异步并发爬虫的框架(分布式也可)

#异步并发爬虫的框架
#网址池:用于过滤重复的网址(因为会出现转发、或者不同页面出现相同商品的链接的情况)
#网址池:突然断网等,因为其他原因下载器出现错误。网址池需要记录下来。设置失败三次之后就不再下载,标记为有问题的网址
#多个下载器  这里可以使用异步(协程aiohttp)并发的下载
#HTML数据库,存储网页信息,因为防止以后解析更多的字段。另外再提取网址,放入到王志池中
#提取器(解析器)
# 然后存放到目标数据库


#分布式爬虫
#网址池
#多个爬虫
posted @ 2021-10-06 01:28  山水无期  阅读(54)  评论(0)    收藏  举报