文章分类 -  算法

摘要:搜索之BM25和BM25F模型 BM25算法浅析 阅读全文
posted @ 2015-06-15 14:35 勿妄 阅读(311) 评论(0) 推荐(0)
摘要:目前,真正在搜索引擎等实际应用中广泛使用的是tf-idf模型。tf-idf模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。该模型主要包含了两个因素:1) 词w在文档d中的词频tf (Term Frequ... 阅读全文
posted @ 2015-06-15 10:59 勿妄 阅读(327) 评论(0) 推荐(0)
摘要:在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档 内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例 如一篇文档中有a、b、c、... 阅读全文
posted @ 2015-06-10 17:45 勿妄 阅读(270) 评论(0) 推荐(0)
摘要:浅析PageRank算法PageRank算法 Google的PageRank算法无所不能? 阅读全文
posted @ 2015-05-04 16:22 勿妄 阅读(77) 评论(0) 推荐(0)