桌面搜索引擎设计

 

桌面搜索引擎设计

Design Of Desktop Search Engine

关键词:互联网 搜索引擎 桌面搜索

摘要

         桌面搜索包含两个重要概念,一、搜索服务的入口改变了,不再需要登陆某个站点,这点比较容易理解,因为现在大的搜索服务提供商都推出了自己的桌面版搜索引擎;二、搜索服务的重心改变了,不再是由爬虫全权负责,内容由每个站点的程序(或该站点的爬虫)提供,受站点管理员管理,包括分类、添加关键字、添加注解等,然后由搜索服务提供商聚合呈现给用户,这样才可能精确定位。

Abstract

         Desktop Search Engine(DSE) Contains two Important define,the first,the portal of search service has changed,it would be not enter one of search sites,it’s easy to understand, Becouse of lots of Search Service Provider(SSP) had their desktop production; the second,Central Task of search service had changed, it would be not finished by robot, Content Provider(CP) by site management, Task contains find calagory, add keywork and comment, then SSP render to user by geather these content, so that,we will find out information that we want to search.

背景:

         现在我们查阅电子资料,几乎都会借助搜索引擎,可它返回的结果却与我们期望有很大差距,甚至有时翻过十页不见得能找到我们想要的信息,当然也不排除通过修改关键字可以获得优化,比如我们查找通信技术中有关“ATM”的信息,它一定会连同自动取款机的信息返回给你,这时你需要花费很多的时间去过滤这部分无用信息,可你如果输入“通信技术 ATM”,返回的信息因该不会出现自动取款机,但是我们可以分析出,我们许多有用的信息将因为通信技术被过滤掉了,也许就是这些被过滤掉的信息对我们非常重要,到这里,我想大家都知道目前流行的这几个完全基于自动机的搜索引擎的缺陷了吧,因为它对网页没有分类,试图用最模糊的算法(相关度、出现位置等)来寻找答案,按照这条路研究下去,研究者会发现越走越远。

主要内容:

         了解了以上背景之后,我们来设计我们的桌面搜索,我们的设计结合了第一代搜索引擎[]和第二代搜索引擎[],就是既有目录也有关键字搜索,比如先选择通信领域,然后输入关键字ATM,这样就不会出现自动取款机的信息了,那么接下来的问题又来了,搜索引擎怎样知道它目前搜索到的这个网页属于什么类别,这也是我们这个设计的重点。

         我们可以大胆的设想,如果这个任务不用自动机来完成(自动机也根本无法完成),由我们每个站点的管理员来做,那么这个任务将变得非常轻松,如果是专业站点那么它几乎就是一个分类,比如讲通信技术的站点那么它的分类就是通信技术,如果是综合性的站点,那么它的每个频道就是一个分类,由此我们可以看到将任务交给站点自己处理才是最简单的办法,当然也可以由站点管理员在页面加注记,然后由自动机识别分类。

         基于以上设想我们将搜索引擎分为三个部分,第一部分,桌面部分,他的主要任务就是提交,而且基于桌面我们可以加入丰富的用户体验,还可以搜集用户的使用习惯,使用偏好来优化搜索的结果;第二部分,站点内容提供,这个功能由站点自己完成,像现在流行的基于windows2003WSS[]SPS[]站点都支持站内搜索,搜索由我们定义,这样我们搜索到的数据就是具有分类的结构化的数据;第三部分,聚合,现在我们每个站点都能提供独立的搜索服务了,可是我们的用户是要搜索整个互联网,所以聚合的任务还是需要SSPSSP定时向登录的站点获取更新的数据或由我们的站点主动提交数据,我们可以设计增量更新或是完全更新,这样的建立的数据库远远优于爬虫爬来的数据库,搜索的精确度可想而知。

结论:

         第一代搜索引擎提出了分类目录,在当时站点比较少的环境下的确比较成功,可是在站点爆炸式增长的今天,搜索就一定要精确到页面。第二代搜索引擎确是把内容提供的任务交给了爬虫,爬虫只能找回网页,没办法分析没有协议的网页,就更没办法提供网页的分类了。那么我们设计的桌面搜索引擎就是要解决这样一个问题,让网页的内容提供从被动变为主动,这样也抛弃了不成熟的自动机协议[]

         下图是根据我们的设计画出的桌面搜索结构图

    图的左边是各种搜索终端设备包括电脑,智能手机等,它们通过发送http Request将搜索请求提交给SSP,它的功能除了提交还应该包括搜索偏好、搜索历史等,图的右边上方是SSPSSP根据分类以及关键字搜索数据库并返回结果给终端。SSP功能大致分成三部分,除了响应终端的请求外,还应包括站点的目录服务和站点内容的聚合服务。图的右边的下方是两个站点,它们通过自己的站内搜索工具进行站点内容的整理,然后将整理的内容提交SSP



[] 第一代搜索引擎是基于目录的搜索引擎,以yahoo为代表。

[] 第二代搜索引擎是基于自动机(俗称蜘蛛或爬虫)的搜索引擎,以google为代表。

[] Windows Sharepoint Service

[] Sharepoint Portal server

[] 站点根目录下的robot.txt文件,当自动机搜索到该站点时会先访问该文件,文件中写有许可的目录或禁止访问的目录。

posted on 2005-12-17 02:49  LuckPanda  阅读(753)  评论(0)    收藏  举报