摘要:
转自:http://blog.chinaunix.net/uid-26548237-id-3541783.html1、向量空间模型 向量空间模型作为向量的标识符,是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及相关规则。 文档和问题都用向量来表示。 每一维都相当于一个独立的词组。如果这个术语出现在文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值叫做(词组)权重。其中一种广为人知的算法就是tf_idf权重。我们是根据应用来定义词组的。典型的词组就是一个单一词、关键词、或者较长的短语。如果字被选为词组,那么向量的维数就是出现在词汇表中不同字的个数... 阅读全文
posted @ 2013-04-10 10:14
孤独剑客zzy
阅读(1044)
评论(0)
推荐(0)