摘要: 最近工作中要求实现相似文本查询的功能,我于是决定用SimHash实现。 常规思路通常分为以下四步: 1、实现SimHash算法。 2、保存文章时,同时保存SimHash为倒排索引。 3、入库时或使用定时任务,在倒排索引中找到碰撞的SimHash,保存为结果表。 4、需要查询一篇文章的相似文章时,根据 阅读全文
posted @ 2021-06-10 11:14 Jockey_Wang 阅读(4417) 评论(4) 推荐(1)