2010 年 1月 7 日随笔档案 - Myhsg

2010年1月7日

摘要：向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d)；…；tn, ωn(d))，其中ti(i=1,2, …,n)为一列互不雷同的词条项，ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数，即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数，其中N为所有文档的数目，ni为含有词条ti的文档数... 阅读全文

posted @ 2010-01-07 14:24 Myhsg 阅读(406) 评论(0) 推荐(0) 编辑

改进向量空间模型[转]

摘要：直接使用词的个数在比较词数很多和词数很少的文档时存在着问题。例如文档I中含有10000个词，而词a出现了10次；文档II中含有100个词，而a出现了5次。这样在相似度计算时，文档I中a对最后结果的影响比文档II中的a要大。这显然是不合理的，因为a只点文档I的0.1%而却占文档II的5%。为了解决这类问题，我们引入词频（TF）和反词频（IDF）两个概念。其中TF = f/m，其中f表示当前词在当前文... 阅读全文

posted @ 2010-01-07 10:59 Myhsg 阅读(248) 评论(0) 推荐(0) 编辑

向量空间模型(转)

摘要：一：不同区域的权重计算1. 对出现在文档的不通区域的term赋予不同的权值，例如title，author，body等，这样需要在倒排表中记录term每一次出现的位置2. 对不同的区域赋予不通的权值，Gi，使得 Sum(Gi) = 13. 对于这个Gi的值，可以通过机器学习的方法来确定：给定一个文档集合和query，以及query与文档之间的相似性，然后假定一个表达式，采用这个样本来计算各种系数... 阅读全文

posted @ 2010-01-07 10:54 Myhsg 阅读(312) 评论(0) 推荐(0) 编辑

公告