Tekkaman

导航

 

2014年2月28日

摘要: [拼写校正] 对于大多数拼写校正 (spelling correction)算法而言,存在以下两个基本的原则。 (1) 对于一个拼写错误的查询,在其可能的正确拼写中,选择距离“最近” 的一个。这就要求在查询之间有距离或者邻近度的概念。 (2) 当两个正确拼写查询邻近度相等(或相近)时,选择更常见的那个。例如,grunt 和 grant都是查询 grnt 的可能的正确拼写。算法将会从它们之中选择更常见的那个作为最后的拼写结果。最简单的情况下, "更常见”可以通过统计各词项在文档集中出现的次数来获得。因此,如果grunt 在文档集中比 grant 出现得更多,则选择 grunt 作为校正 阅读全文
posted @ 2014-02-28 17:20 Tekkaman 阅读(2838) 评论(0) 推荐(0)
 
摘要: [词典搜索的数据结构] 本篇描述的倒排索引对普通倒排索引中的词典部分再进行了一层索引,通过本章的倒排索引结构可以找到词项,然后通过普通倒排索引最终定位到文档。词汇表的查找操作往往采用一种称为词典(dictionary)的经典数据结构,并且主要有两大类解决方案:哈希表方式和搜索树方式。在数据结构相关的文献中,词汇表中的每个条目(这里是词项)常常称为关键字或键(key)。 哈希表方式已在某些搜索引擎中用于词典查找。这种方式下,每个词项通过哈希函数映射成一个整数,映射函数的目标空间需要足够大,以减少哈希结果冲突的可能性。当然,这种方式很难避免冲突的发生,此时需要精心维护一个辅助结构来解决冲突问题.. 阅读全文
posted @ 2014-02-28 16:24 Tekkaman 阅读(1127) 评论(0) 推荐(0)