随笔分类 - IR
摘要:一. 搜索引擎 组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideration: 1.Economics 2.Scalability 3. Legal issue二. 网络爬虫(...
阅读全文
摘要:相关反馈的两种类型:“真实”的相关反馈: 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈,返回一些不同的,更好的结果“假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. 系统根据这些结果改善query 3. 根据改善后的query得到结果并返回Rocchio's Modi...
阅读全文
摘要:两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接。 注...
阅读全文
摘要:主要目的: 在网络信息检索中,对每个文档的重要性作出评价。Basic Idea: 如果有许多网页链接到某一个网页,那么这个网页比较重要。 如果某个网页被一个权重较大的网页链接,那么这个网页比较重要。随机游走模型: 过程:1.在所有网页中,随机选择一个网页作为游走的开端。 2.然后在当前网...
阅读全文
摘要:几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。 贝叶斯最优决策原理,基于最小损失风险作...
阅读全文
摘要:VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量。 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core...
阅读全文
摘要:Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现的。 4.在某一主题下文档中不经常出现的词语,这个词语在这个主题中也是不经常出现的。 5.由...
阅读全文

浙公网安备 33010602011771号