(需要知道某个元素在另外一个集合中是否存在,有一定的误伤率)
1、蜘蛛爬行需要判断此URL是否已经爬过
2、2个比较大的文件需要知道重复的数据有哪些?(第一个文件存到hash_set中,遍历一遍第二个文件即可)
PHP的 Bloom-filter
http://code.google.com/p/php-bloom-filter/
大海航行靠舵手
1、蜘蛛爬行需要判断此URL是否已经爬过
2、2个比较大的文件需要知道重复的数据有哪些?(第一个文件存到hash_set中,遍历一遍第二个文件即可)
PHP的 Bloom-filter