摘要: 笔记-爬虫-去重/bloomfilter 1. 去重 为什么要去重? 在爬虫中新页面或页面更新称为增量,爬取就叫增量爬取了。 识别增量,有以下几种可能的方法: 目前主要的方法是url过滤,大体上是哈希后匹配。至于说哈希什么内容(一般是url),怎么匹配(set,内存数据库)则需要视情况而定。 2. 阅读全文
posted @ 2018-12-29 17:45 木林森__𣛧 阅读(488) 评论(0) 推荐(0)