摘要: 1、内存够用,将URL存入hash链表,每个URL读入到hash链表中,遇到重复的就舍弃,否则加入到链表里面,最后遍历得到所有不重复的URL。 2、如果受内存限制,构造一个hash函数,把url适当散列到若干个比如1000个小文件中,然后在每个小文件中去除重复的url,再把他们合并。 原理是相同的u 阅读全文
posted @ 2020-05-26 09:58 燕十三丶 阅读(516) 评论(0) 推荐(0) 编辑
AmazingCounters.com