异步并发爬虫的框架(分布式也可)
#异步并发爬虫的框架 #网址池:用于过滤重复的网址(因为会出现转发、或者不同页面出现相同商品的链接的情况) #网址池:突然断网等,因为其他原因下载器出现错误。网址池需要记录下来。设置失败三次之后就不再下载,标记为有问题的网址 #多个下载器 这里可以使用异步(协程aiohttp)并发的下载 #HTML数据库,存储网页信息,因为防止以后解析更多的字段。另外再提取网址,放入到王志池中 #提取器(解析器) # 然后存放到目标数据库 #分布式爬虫 #网址池 #多个爬虫
#异步并发爬虫的框架 #网址池:用于过滤重复的网址(因为会出现转发、或者不同页面出现相同商品的链接的情况) #网址池:突然断网等,因为其他原因下载器出现错误。网址池需要记录下来。设置失败三次之后就不再下载,标记为有问题的网址 #多个下载器 这里可以使用异步(协程aiohttp)并发的下载 #HTML数据库,存储网页信息,因为防止以后解析更多的字段。另外再提取网址,放入到王志池中 #提取器(解析器) # 然后存放到目标数据库 #分布式爬虫 #网址池 #多个爬虫