网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用
摘要:        
前言: 最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。 如果,你说URL去重嘛,有什么难的。那么你可以看完下面的一些问题再说这句话。 ...    阅读全文
        posted @ 2015-08-25 22:45 王峰炬 阅读(550) 评论(0) 推荐(0)
 
                    
                 
 浙公网安备 33010602011771号
浙公网安备 33010602011771号