会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
木林森__𣛧
博客园
首页
新随笔
联系
订阅
管理
2018年12月29日
笔记-爬虫-去重/bloomfilter
摘要: 笔记-爬虫-去重/bloomfilter 1. 去重 为什么要去重? 在爬虫中新页面或页面更新称为增量,爬取就叫增量爬取了。 识别增量,有以下几种可能的方法: 目前主要的方法是url过滤,大体上是哈希后匹配。至于说哈希什么内容(一般是url),怎么匹配(set,内存数据库)则需要视情况而定。 2.
阅读全文
posted @ 2018-12-29 17:45 木林森__𣛧
阅读(488)
评论(0)
推荐(0)
公告