爬虫的url去重策略

以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。

如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。

Scrapy的去重策略为将URL使用md5加密后存入set。

 

posted @ 2021-06-09 20:15  何哈哈哈  阅读(86)  评论(0)    收藏  举报