爬虫的url去重策略
以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。
如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。
Scrapy的去重策略为将URL使用md5加密后存入set。

以一亿条URL为例,存到set里占用空间为9个G,如果将URL使用md5加密后存入set占用内存为1-2个G。
如果将访问过的url使用hash函数映射到某一位,那么一亿条URL仅仅占用几十兆的空间。
Scrapy的去重策略为将URL使用md5加密后存入set。
