(需要知道某个元素在另外一个集合中是否存在,有一定的误伤率)
 

 

1、蜘蛛爬行需要判断此URL是否已经爬过

 

2、2个比较大的文件需要知道重复的数据有哪些?(第一个文件存到hash_set中,遍历一遍第二个文件即可)

 

PHP的 Bloom-filter

http://code.google.com/p/php-bloom-filter/