摘要: 词语相似性比较,最容易想到的就是编辑距离,也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的,不过代码也很简单,我这边就用scala实现了一版。 编辑距离 编辑距离是指一个字符串改编成另一个字符串的最短距离,它描述了两个字符串的相近程度。比如: 因此所 阅读全文
posted @ 2017-12-12 17:38 xingoo 阅读(2659) 评论(0) 推荐(2) 编辑