随笔分类 -  comp6714

班课5
摘要:1. ranked retrieval 是free text queries形式,不需要query语言,直接输入要找的单词就可以 2. 做rank的前提是可以进行排序,如Jaccard Coefficient jaccard(A, B) =|A∩B|/|A∪B|,即两者重复的单词数量比上二者总共的单 阅读全文

posted @ 2020-10-28 19:08 Eleni 阅读(147) 评论(0) 推荐(0)

班课4
摘要:1. non-word spelling errors error指任何不在字典中的word,修正的方式是产生一系列候选名单,选择其中最好的 选择方式有两种,第一个是shortest weighted edit distance,另一个是highest noisy channel probabili 阅读全文

posted @ 2020-10-16 20:27 Eleni 阅读(183) 评论(0) 推荐(0)

班课3
摘要:1. data structure包含term,document frequency以及pointer to postings list 对dictionary的存储首先考虑hashtable,给每一个term一个integer,查找时的复杂度为O(1) 问题是不能进行模糊查询(minor vari 阅读全文

posted @ 2020-10-07 20:38 Eleni 阅读(197) 评论(1) 推荐(0)

班课2
摘要:1. galloping search 搜索的时候在找到目标之前成倍数的加快搜索进度,如指针所指的第一个不是目标,就往后跳一位,依然不是跳两位,然后四位,依此类推,直到比目标数更大时停止,使用binary search在现在所指的数与前一位数之间寻找目标值 目标值所在的位置称为n,所需跳的步数为lo 阅读全文

posted @ 2020-09-30 13:22 Eleni 阅读(134) 评论(0) 推荐(0)

班课1
摘要:1. information retrieval:为了从大量资料中寻找满足条件的unstructured nature的文件(非结构化)的文件 举例来讲,从电脑中的很多文件中寻找含有某个单词的文件,可以使用Unix中的grep,经过逐行扫描,寻找目标单词并将含有该单词的文件返回。为了加速可以预先进行 阅读全文

posted @ 2020-09-23 13:20 Eleni 阅读(202) 评论(0) 推荐(0)

导航