IR - 随笔分类 - Yuki_i

[IR课程笔记]Web search

摘要：一. 搜索引擎组成部分： 1. 网络爬虫（web crawler） 2. 索引系统（indexing system） 3. 搜索系统（searching system） consideration: 1.Economics 2.Scalability 3. Legal issue二. 网络爬虫（... 阅读全文

posted @ 2015-11-23 21:25 Yuki_i 阅读(387) 评论(0) 推荐(0)

[IR课程笔记]Query Refinement and Relevance Feedback

摘要：相关反馈的两种类型：“真实”的相关反馈： 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈，返回一些不同的，更好的结果“假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. 系统根据这些结果改善query 3. 根据改善后的query得到结果并返回Rocchio's Modi... 阅读全文

posted @ 2015-10-31 23:07 Yuki_i 阅读(419) 评论(0) 推荐(0)

[IR课程笔记]Hyperlink-Induced Topic Search(HITS)

摘要：两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接。注... 阅读全文

posted @ 2015-10-31 14:45 Yuki_i 阅读(557) 评论(0) 推荐(0)

[IR课程笔记]Page Rank

摘要：主要目的：在网络信息检索中，对每个文档的重要性作出评价。Basic Idea: 如果有许多网页链接到某一个网页，那么这个网页比较重要。如果某个网页被一个权重较大的网页链接，那么这个网页比较重要。随机游走模型：过程：1.在所有网页中，随机选择一个网页作为游走的开端。 2.然后在当前网... 阅读全文

posted @ 2015-10-28 17:42 Yuki_i 阅读(545) 评论(1) 推荐(0)

[IR课程笔记]概率检索模型

摘要：几个符号意义： R：相关文档集 NR：不相关文档集 q:用户查询 dj：文档j1/0风险情况 PRP（probability ranking principle）：概率排序原理，利用概率模型来估计每篇文档和需求相关概率，然后对结果进行排序。贝叶斯最优决策原理，基于最小损失风险作... 阅读全文

posted @ 2015-10-18 17:28 Yuki_i 阅读(1393) 评论(0) 推荐(0)

[IR课程笔记]向量空间模型（Vector Space Model）

摘要：VSM思想把文档表示成R|v|上的向量，从而可以计算文档与文档之间的相似度（根据欧氏距离或者余弦夹角）那么，如何将文档将文档表示为向量呢？首先，需要选取基向量/dimensions，基向量须是线性独立的或者正交的向量。在IR系统中，有两种方式决定基向量： 1.核心概念的思想（core... 阅读全文

posted @ 2015-10-18 14:48 Yuki_i 阅读(1062) 评论(0) 推荐(0)

[IR课程笔记]统计语言模型

摘要：Basic idea 1.一个文档（document）只有一个主题（topic） 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语，这个词语在这个主题中也是经常出现的。 4.在某一主题下文档中不经常出现的词语，这个词语在这个主题中也是不经常出现的。 5.由... 阅读全文

posted @ 2015-10-18 13:45 Yuki_i 阅读(1121) 评论(0) 推荐(0)

yuki_lee

啦啦啦

随笔分类 - IR

公告