2012年8月28日

信息检索笔记(9)-再论文档评分

摘要: 考虑从文档集的所有文档中找出K 个离查询最近的文档的过程:对每个文档评分(如计算余弦相似度),按照评分高低排序,选出前K个结果。显然对大文档集,评分、排序都是非常耗时的操作,那么如何加速评分及排序呢? 思路1:能否加快每个余弦相似度的计算? 思路2:能否不对所有文档的评分结果排序而直接选出Top K篇文档? 思路3:能否不需要计算所有N篇文档的得分? 快速计算余弦相似度 一般而言,在... 阅读全文

posted @ 2012-08-28 11:33 God bless you 阅读(3357) 评论(1) 推荐(3) 编辑

导航