摘要: k gram索引的通配符查询处理技术称为k gram索引。 一个k gram代表由k个字符组成的序列。对于词项 来说, 、`ast stl $`来标识词项的开始或者结束,因此对于castle来说,所有的3 gram包括 、`cas ast stl tle $` . 在k gram索引结构中,其词典由 阅读全文
posted @ 2016-12-23 16:58 Mr-cc 阅读(1089) 评论(0) 推荐(0)
摘要: 我们需要更好地确定词典中的词项表,提供一个能够容忍拼写错误以及产讯和文档中词语表达不一致时的检索方法。 对能够表示某概念的复合词或者短语(如“operating system”)进行搜索是非常有用的。正如上面Westlaw的例子所示,有时我们希望能够执行诸如“Gates NEAR Microsoft 阅读全文
posted @ 2016-12-23 16:56 Mr-cc 阅读(178) 评论(0) 推荐(0)
摘要: 术语信息检索(Information Retrieval,简称IR) 。information retrieval广义上是获取信息的意思。然而学术意义上的信息检索定义为:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 非结构 阅读全文
posted @ 2016-12-23 16:55 Mr-cc 阅读(875) 评论(0) 推荐(0)