会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
阿凡卢
If you never try, you will never know.
博客园
首页
新随笔
联系
订阅
管理
2023年6月27日
局部敏感哈希LSH(SimHash与MinHash)
摘要: SimHash 1.算法思想 假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本去重,这就对算法的效率有着很高的要求。 而局部敏感hash算法可以将原始的文本内容映射为数字(hash
阅读全文
posted @ 2023-06-27 16:46 阿凡卢
阅读(627)
评论(0)
推荐(0)
编辑
公告