摘要: 背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时间复杂度为O(n)+O(n),每次执行完深度为2,则时间复杂度为O(n).效率会明显提高,非常适合整 阅读全文
posted @ 2019-12-17 23:39 King~~~ 阅读(460) 评论(0) 推荐(0)
摘要: # 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文
posted @ 2019-12-17 22:31 King~~~ 阅读(236) 评论(0) 推荐(0)