摘要:
几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。 贝叶斯最优决策原理,基于最小损失风险作... 阅读全文
posted @ 2015-10-18 17:28
Yuki_i
阅读(1385)
评论(0)
推荐(0)
摘要:
VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量。 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core... 阅读全文
posted @ 2015-10-18 14:48
Yuki_i
阅读(1050)
评论(0)
推荐(0)
摘要:
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现的。 4.在某一主题下文档中不经常出现的词语,这个词语在这个主题中也是不经常出现的。 5.由... 阅读全文
posted @ 2015-10-18 13:45
Yuki_i
阅读(1119)
评论(0)
推荐(0)

浙公网安备 33010602011771号