白菜芯的菜田

《走进搜索引擎》读书笔记1

最近准备学习一下搜索引擎方面的技术。找到一本很好的入门书籍,梁斌写的《走进搜索引擎》。粗略地看一下,这本书对于像我这样的新手详略得当,介绍的很全面,是一本很好的入门书籍。

 

在引言中,作者提到了公认的搜索引擎的三种服务方式:

1.目录是搜索引擎

这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍。因为人工编排,搜索信息准确,导航质量高;不足时数据量有限,更新不及时,人工维护成本高。总之,这类搜索引擎好比一本书的目录,或者索引。

2.全文搜索引擎

它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这类搜索引擎通过以网络爬虫等形式的下载系统,自动从网络中爬去资源,加入索引库。优点是信息量大、更新及时,无需人工干预;缺点是返回信息过多,有很多无关信息。

3.元搜索引擎

 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

 

接下来搜索引擎的发展历史以及一些知名搜索引擎就略过吧。

 

第二章 搜索引擎概貌

搜索引擎的主要需求可以分为4种

查得快、查得全、查得准、查得稳

 

查得快是搜索引擎的一项基本需求,调查表明,公开的搜索引擎查询速度在秒这个量级,而商用搜索引擎的查询速度达到毫秒级,并能支持大规模用户同时访问。影响速度原因有很多,例如索引库的效率、分布查询的处理能力和查询缓存的命中率。

 

查得全是指检索出的网页占所有相关网页比率高。对于当今海量信息的web查询,这个并不是重要的要求,因为用户需要的不是全部的相关信息,而是其中最重要最关心的几个检索结果。但对于如网站查询,和一些小规模搜索,查全率仍然是重要的指标。

 

查得准用查准率来衡量,即检索出的相关文档占检索出的总文档的比率。查得准是能否把握用户需求的核心所在,也是搜索引擎能力几乎最重要的方面。是否查得准主要取决于网页排序,如Google著名的pageRank排序。

 

查得稳指搜索引擎能够7*24长期稳定提供服务。

 

搜索引擎公认地被分为下载、分析、索引、查询四大系统。这四大系统相互配合,共同满足搜索引擎快、全、准、稳的四大需求。

 

下载系统负责从万维网上下载各种类型的网页,并且保持对万维网变化的同步。

 

分析系统抽取下载系统得到的网页数据,进行pageRank和分词计算。

 

索引系统将分析系统处理后的网页对象索引入库。

 

查询系统负责分析用户提交的查询请求,从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。

 

前三个系统组成了搜索引擎的数据制作部分,被称为“离线部分”;查询系统为搜索引擎的数据服务部分,要求快速响应,被称为在线部分。

posted on 2010-06-21 19:23  白菜芯  阅读(431)  评论(0)    收藏  举报