会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hungry & foolish
虚竹
博客园
首页
新随笔
联系
订阅
管理
2020年2月19日
由浅入深弄懂simhash来比较文本的相似度
摘要: 背景 彻底搞懂simhash原理,及如何进行文本相似度的比较。 simhash原理 概括的说即是:将文本向量化后,进行向量间的距离计算,卡某个阈值来判定两个文本是否相似。 涉及关键点 文本向量化操作 切词,并赋权重值 bin(hash(切词)).zfill(64); 转成定长01向量 向量乘权重;遇
阅读全文
posted @ 2020-02-19 20:48 威威后花园
阅读(1247)
评论(0)
推荐(0)
公告