文章分类 - 算法
摘要:目前,真正在搜索引擎等实际应用中广泛使用的是tf-idf模型。tf-idf模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。该模型主要包含了两个因素:1) 词w在文档d中的词频tf (Term Frequ...
阅读全文
摘要:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档 内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例 如一篇文档中有a、b、c、...
阅读全文
摘要:浅析PageRank算法PageRank算法 Google的PageRank算法无所不能?
阅读全文

浙公网安备 33010602011771号