文本相似度

最近有个客户需要导入大量数据,但是excel中的多列数据,跟数据库里面的基础数据是不一样的。普通的字符串比较肯定是不能用的,所以需要用到相似度算法进行匹配

注:有一种简单方法就是把所有无法匹配到的数据在匹配界面中展示出来,让后让用户选择数据库的数据生成对应关系。本人想突破一下技术所以忽略此方法。

经过查找有以下资料

参考1、https://cloud.tencent.com/developer/article/1088325(比较详细的说明)

参考2、http://www.catalysoft.com/articles/StrikeAMatch.html(英文版算法文章,感觉跟基础的编辑距离算法是一样的,只是把一个字符换成2个字符而已)

参考3、https://www.cnblogs.com/lcq529/archive/2018/03/21/8618287.html(编辑距离算法的变种)

参考4、https://www.cnblogs.com/shikyoh/p/4995078.html(用的基础的编辑距离算法)

其中参考3和参考4里对于客户名称这种短语的匹配是够用的

参考1中还提到句子的匹配,该匹配用参考3和参考4不够用

 

猜测:机器学习或许也能实现该功能,用大量数据进行训练之后或许匹配结果更高

 

posted @ 2019-07-05 11:57  问你点儿事  阅读(112)  评论(0)    收藏  举报