搜索引擎

1.概述

     搜索引擎是指网络上专门提供查询服务的一类网站,这些网站通过网络搜索软件或网站登录等方式,将网络上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索。

 

2.分类

目前,网络上的搜索引擎可分为以下两大类:

a 自由词或关键词检索搜索引擎。

b 分类搜索引擎。

当然这两类搜索引擎的功能是互相借鉴和渗透的。

 

3.检索功能

     除分类浏览或自由词检索外等基本功能外,提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。在进行词的检索时,应具有以下功能。

a  多个关键词之间只需用空格分开。

b 没有空格切割的关键词相当于或者。

c 在结果中再搜索。

d 英文字母不区分大小写。

e 网页查询时可以直接用网址进行查询。

f 在对词的检索过程中,排除一些无关的信息,这样有助于搜索到更准确的内容,使搜索结果绝对忠实于用户的检索提问。

g  在英文关键词搜索中,一些标点符号如“_”、“\”、“+”、“=”、“,”“'”也可作为短语连接符。

 

4.搜索显示结果

     搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。

 

5.页面组织

     大多数搜索引擎本身就是web站点,其页面组织就如同用户的使用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。

 

6.搜索引擎的特点

    由于语言、文化上的差异,中文搜索引擎必然会与国外的搜索引擎有所有同,如果不首先认识到中文搜索引擎的特点,就不能正确地作出比较。

(1) 内码处理

      在中文语言中,主要分为GB码与BIG5码字符集格式,为了在计算机中解决这个问题,需奥在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如GBK)等。

(2) 分词处理

     英文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此造成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每个汉字都做进索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。通常情况下,这种处理方法较容易返回符合用户检索词概念意义的检索结果,但是分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。

     中文分词的另一层意义是指的是,对于用户输入的查询语句进行自动分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和查准率。由于各搜索引擎在建库时是否分词及如何分词,这在检索界面上很难以作出判断。

(3) 分类处理

    除了专门的分类搜索引擎(如Yahoo等)之外,大量的关键词搜索引擎也采用了以分类目录进行导览的方法。在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。因此,在处理中文词汇的分类时,需要更加完美的处理。

posted @ 2016-06-09 08:58  柯南&  阅读(353)  评论(0编辑  收藏  举报