兰斌专栏
Be the change you want to see in the world.Things are always as hard as you think but always as easy as you do.
博客园
首页
新随笔
新文章
联系
订阅
管理
posts - 14,comments - 78,trackbacks - 0
2005年12月16日
搜索引擎的系统结构
一直以来对搜索引擎很有兴趣,但杂事繁多,不能定下心来好好学学这方面。现在正值毕业阶段,有家公司正好想做搜索引擎,顿时挑起了我的兴趣,很想用ASP.NET自己实现一个。如果有志同道合的朋友请加我MSN:xbfu@asiatom.com(原留QQ因糊涂而被骗),大家多交流交流。
在网上查了不少搜索引擎的资料,发现搜索引擎还真的是牵涉到不少技术,纷繁复杂。看了一些后,对关于搜索引擎体系结构方面的东西做个整理。
搜索引擎大体上可分为三类:全文检索搜索引擎、目录搜索引擎和元搜索引擎。具体不介绍了,主要是全文检索搜索引擎,它可称是严格意义上的搜索引擎。我主要还是学习这种类型的搜索引擎。
全文检索搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。
具体地说这个过程是这样的。"网络蜘蛛"(一个能自动从互联网上收集网页,并沿URL"爬行"的程序)从互联网上抓取网页,把网页送入"网页数据库",从网页中"提取URL",把URL送入"URL数据库","蜘蛛控制"得到网页的URL,控制"网络蜘蛛"抓取其它网页,反复循环直到把所有的网页抓取完成。系统从"网页数据库"中得到文本信息,送入"文本索引"模块建立索引,形成"索引数据库"。同时进行"链接信息提取",把链接信息(包括锚文本、链接本身等信息)送入"链接数据库",为"网页评级"提供依据。"用户"通过提交查询请求给"查询服务器",服务器在"索引数据库"中进行相关网页的查找,同时"网页评级"把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过"查询服务器"按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给"用户"。
以上这些可以让我们了解一个搜索引擎的整体结构了,接下来是动手时间了哦
2005年12月16日14:33:08
posted @ 2005-12-16 14:37 小笨笨 阅读(307) 评论(0)
编辑