大量的URL 字符串,如何从中去除重复的,优化时间空间复杂度

1、内存够用,将URL存入hash链表,每个URL读入到hash链表中,遇到重复的就舍弃,否则加入到链表里面,最后遍历得到所有不重复的URL。

2、如果受内存限制,构造一个hash函数,把url适当散列到若干个比如1000个小文件中,然后在每个小文件中去除重复的url,再把他们合并。

原理是相同的url,hash之后的散列值仍然是相同的。

posted @ 2020-05-26 09:58  燕十三丶  阅读(516)  评论(0编辑  收藏  举报
AmazingCounters.com