会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
SE
博客园
首页
新随笔
联系
订阅
管理
2020年6月27日
simhash
摘要: simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 原理 simhash值的生成图解如下: 大概花三分钟看懂这个图就差不多怎么实现
阅读全文
posted @ 2020-06-27 15:38 yeahle
阅读(340)
评论(0)
推荐(0)