2010年12月23日

文本的相似度

摘要：中文的文本相似度的计算是基于分词来的余弦定理：提取两段文本中所有词(事先需用空格分割好) 计算每个词在两段文本中分别出现的次数(用BSD tree.h里的RBTREE保存) 用词频做为A、B的分量使用余弦公式计算AB夹角的余弦值jaccard：大体差不多代码如下，分词用的是mmseg[代码] 阅读全文

posted @ 2010-12-23 15:01 twelfthing 阅读(977) 评论(0) 推荐(1) 编辑

导航

2010年12月23日