摘要: 这篇就说一个信息检索里面理解最简单的一个东西吧,它就叫做倒排表或者倒排索引。但是这只是个名字,我想大家都知道它是什么就行了,不必纠结于名称。先说说倒排表张什么样子吧!倒排表以词做索引,内容为包含该词的文档编号。对于上图可知,文档1、3、5、7、9包含词"Cat",文档2、5、8、10包含词"Dog"。你可能问这么简单的东西能干啥?其实他就是搜索引擎中的最关键的核心数据结构。那么搜索引擎如何根据用户的查询来找到相关的文档呢?如果用户查询“Cat”,那么只要顺着Cat链把文档1、3、5、7、9返回给用户就行了。如果用户想得到同时包含“Cat”与“Dog“的文 阅读全文
posted @ 2013-01-06 17:11 haolujun 阅读(3927) 评论(3) 推荐(1)
摘要: 前记:本人是一个初学者,新手其实都算不上。没做过信息检索,所以别人怎么做的也不知道。很想知道Google,百度这样的大公司怎么做搜索引擎的,但是没机会也不会知道。凭着自己的理解就写了这么几篇随笔,这样能督促自己思考,也希望得到大神们的指点。这个系列叫做“新手学信息检索”。这个系列说白了,就是把自己看过的东西总结了一下,加入了自己对信息检索一些概念的理解,没什么理论,也不注重于实现,更没有创新。但是当时让我费劲心思才能想明白的东西我会按照自己的意思把它讲出来。不知道自己将会写多少篇,可能总结完一些就会写一些,自己水平有限,概念如果理解有误的话,还请大家拍砖不要拍太狠,在此先谢过了。我想,大家对信 阅读全文
posted @ 2013-01-06 13:55 haolujun 阅读(1975) 评论(1) 推荐(0)