摘要: 中文的文本相似度的计算是基于分词来的余弦定理: 提取两段文本中所有词(事先需用空格分割好) 计算每个词在两段文本中分别出现的次数(用BSD tree.h里的RBTREE保存) 用词频做为A、B的分量 使用余弦公式计算AB夹角的余弦值jaccard: 大体差不多代码如下,分词用的是mmseg[代码]阅读全文