WWW上信息检索概述 ̄
——— 信息检索原理和技术
海南大学 徐华 (99714049)
摘要 计算机处理的数据量不断地呈指数增长,随着数据信息库积累的数据和主题越来越多,怎样快速、有效、经济地检索某个主题的所有信息,就成了一个十分热门的课题。解决这一难题的方法之一是采用智能搜索技术。本文中给出了自然语言处理的结构梗概,以及最终有助于网络用户查找信息的检索技术。
关键词 信息检索 模型和系统结构 搜索引擎 作用与特点
1 查找信息
信息检索主要研究信息的表示、存储、组织和访问。即根据用户的查询要求,从信息数据库中检索出与之相关的信息资料。信息检索已从手工建立关键字索引,发展到计算机自动索引的全文信息检索、自动信息文摘、自动信息分类,并正朝着自然语言处理的方向发展。在信息检索领域,英语信息检索的发展较为迅速。英语信息检索系统,可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息查询的准确性。(过程如附图)中文信息检索系统的发展相对较慢,目前已有的中文检索系统绝大部分仍为关键词检索,甚至许多系统还处于“字”索引阶段。不仅效率较低,而且信息检索的精度和准确性很差。究其原因,是因为中文信息检索有自身的特点,比如中文语词之间没有空格,因此在索引前需要进行语词切分。另一方面,与英语相比,汉语句法分析和语义理解更为困难,造成中文信息检索的发展较为缓慢。
2 信息检索模型
信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息中,筛选出符合用户需求的信息。例如,用户希望从信息库中查询有关计算机网络产品销售方面的信息,如果查询出的结果为计算机软件产品方面的信息,则不能满足用户的需求。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、向量空间模型以及概率模型等。
布尔型信息检索模型,是最简单的信息检索模型,用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎根据事先建立的倒排文件结构,确定查询结果。标准布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。如查询“计算机”,只要文档中出现关键词“计算机”,则全部包含在查询结果中。为了克服布尔型信息检索模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。例如,查询“计算机”,那么出现“计算机”较多的文档将排列在较前的位置。
与布尔型信息检索模型不同,向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。根据向量空间的相似性,排列查询结果。向量空间模型不仅可方便地产生有效的查询结果,而且能提供相关文档的文摘,并进行查询结果分类,为用户提供准确定位所需的信息。
基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法,获取匹配函数。
虽然不同检索模型使用的方法不同,但所要达到的目标是相同的,既按照用户要求,提供用户所需的信息。实际上,大多数检索系统往往将上述各种模型混合在一起,以达到最佳的检索效果。
3 信息检索系统结构
搜索引擎构成信息检索系统的核心。然而,信息检索系统还包括对索引信息文档格式的预处理、索引信息的分析、信息索引和用户信息检索等几个阶段。
3.1 信息预处理
信息预处理包括信息格式转换和过滤两个不同层次。信关作为访问不同信息的机构,能够访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络Web页面等。同时,信息预处理也能够过滤不同格式的文档。如Microsoft Word、WPS、Text和 HTML等。这使得搜索引擎不仅能够检索正文文档,而且能够检索原始格式的文档信息。
3.2 信息索引
信息索引就是创建文档信息的特征记录,它使用户能很容易地检索到所需信息。建立索引需要进行下列处理:
3.2.1 信息语词切分和语词词法分析
语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符(空格),因此需要进行语词切分。汉语语词切分中存在切分歧异,如句子“使用户满意”可切分为“使/用户/满意”,也可能被错误地切分为“使用/户/满意”。因而需要利用各种上下文知识解决语词切分歧异。此外,还需要对语词进行词法分析,识别出各个语词的词干,以便根据词干建立信息索引。
3.2.2 进行词性标注及相关的自然语言处理
在切分的基础上,利用基于规则和统计(马尔科夫链)的方法进行词性标注。基于马尔科夫链随机过程的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。在此基础上,还要利用各种语法规则,识别出重要的短语结构。
3.2.3 建立检索项索引
一般使用倒排文件的方式建立检索项相关信息,如表1所示。相关信息一般包括“检索项”、“检索项所在文件位置信息”以及“检索项权重”。例如,检索项“计算机”的位置信息为“文档D中第n段第m句第w词”。这样,在信息检索时,用户可以要求在查询中,检索项T1和检索项T2位于同一语句或同一段落中。检索项索引的建立准则是要易于文档信息的更新处理。
表1: 典型倒排检索项列表
TERM1 DOCi, WTi1; DOCj, WTj1; _ ;DOCm, WTm1 TERM2 DOCi, WTi2; DOCk, WTk2; _ ;DOCn, WTn2 TERMs DOCj, WTjs; DOCm, WTms; _ ;DOCp, WTps
3.3 查询扩展处理
信息检索评价的标准是信息检索的精度和召回率。信息检索的精度为检索结果中相关信息文档数与查询结果总数之比。信息检索的召回率为实际检索出的相关信息文档数与信息库中总的相关信息文档数之比。
为了提高信息检索的召回率,需要进行查询扩展处理。这种处理根据同义词词典和语义蕴涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同一概念;因而查询“计算机”同时也要查询“电脑”,反之亦然。主题蕴涵扩展是指不但要查询检索词,而且还要查询其中所包含的子概念。比如,主题词“艺术”包括“电影”、“舞蹈”、“绘画”等等。“电影”又包括“故事片”、“记录片”等。因此,查询“艺术”当然包括“电影”、“舞蹈”、“绘画”以及其下的子概念。
提高信息检索的精度,可利用向量空间模型实行相关查询反馈处理。即用户从初次查询的结果中,选择内容重要的文档或文档片断,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查询精度。
3.4 信息分类和摘要
为了方便用户从查询结果中选择所需信息,搜索引擎可将提供给用户的文档信息按照文档内容进行分类,并为每一篇文档产生简短摘要。
搜索引擎根据文本检索项的统计特征,对查询结果进行分类和摘要。例如,用户查询检索项“计算机”,相应的结果分类也许为“分类1”:“网络”、“系统”、“路由器”等;“分类2”:“市场”、“产品”、“销售”等;以及其它分类。分类的目的是便于用户找到相关信息。
3.5 智能代理
搜索引擎除了被动搜索外,也可利用智能代理技术进行主动信息检索。信息检索系统智能用户代理,可根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件、数据库信息变化等。并将用户所需的信息,通过电子邮件或其它方式,主动提供给用户。用户无须反复搜索所需信息,这样将大大减少用户检索信息的时间。
目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。
4 搜索引擎的主要作用及工作过程
搜索引擎是Internet上的一个网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。
对于各种搜索引擎,它们的工作过程基本一样,包括以下三个方面:
4.1. 派出“网页搜索程序”在网上搜寻所有信息,并将它们带回搜索引擎每个搜索引擎都派出绰号为“蜘蛛(Spider)”或“机器人(robots)”的网页搜索软件在各网址中爬行,访问网络中公开区域的每一个站点并记录其网址,从而创建出一个详尽的网络目录。各搜索引擎工作的最初步骤大致都是如此。
4.2.将信息进行分类整理,建立搜索引擎数据库
在进行信息分类整理阶段,不同的系统会在搜索结果的数量和质量上产生明显的不同。有的系统是把“网页搜索软件"发往每一个站点,记录下每一页的所有文本内容;其他系统则首先分析数据库中的地址,以判别哪些站点最受欢迎(一般都是通过测定该站点的链接数量),然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点所有文本内容以及经过算法处理后的摘要。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。
4.3.通过Web服务器端软件,为用户提供浏览器界面下的信息查询
每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,并按“Search”按钮(或其他类似的按钮)。搜索引擎就会根据用户输入的提问,在索引中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链形式)。用户只需通过搜索引擎提供的链接,马上就可以访问到相关信息。有些搜索引擎将搜索的范围进行了分类,查找可以在用户指定的类别中进行,这样可以提高查询效率,搜索结果的“命中率”较高,从而节省了搜寻时间。
5 优秀搜索引擎的特点
目前各种各样的中西文搜索引擎有十几种或更多,比较著名的搜索引擎有Yahoo!、Google、Sohu等。每个搜索引擎都有其各自的特点,有的以查询速度快见长,有的以数据库容量大占优,但总而言之,一个优秀的搜索引擎应具有以下几个特点:
5.1.支持全文检索
全文搜索引擎的优点是查询全面而充分,用户能够对各网站的每篇文章中的每个词进行搜索。当全文搜索引擎遇到一个网站时,会将该网站上所有的文章(网页)全部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库的某篇文章中出现过,则这篇文章就会作为匹配结果返回给用户。从这点上看,全文搜索真正提供了用户对Internet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果。但全文搜索的缺点是提供的信息虽然多而全,但由于没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁多而杂乱的感觉。
5.2.支持目录式分类结构
分类搜索引擎的优点是将信息系统地分门归类,当遇到一个网站时,它并不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍。最具代表性的目录式分类搜索引擎是Yahoo网站。 分类搜索引擎可以使用户清晰方便地查找到某一大类信息,这符合传统的信息查找方式,尤其适合那些“希望了解某一方面/范围内信息,并不严格限于查询关键字”的用户。但目录式搜索引擎的搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,这样有可能遗漏某些重要的信息源。
5.3.能够区分搜索结果的相关性
搜索引擎应该能够找到与搜索要求相对应的站点,并按其相关程度将搜索结果排序。这里的相关程度是指搜索关键字在文档中出现的频度,最高为1。当频度越高时,则认为该文档的相关程度越高。但由于目前的搜索引擎还不具备智能,除非你知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户更需要的文档。
5.4.检索方法多样、查找手段完备
有些性能完善的搜索引擎不仅能检索Internet上的文献,还能查找公司和个人的信息;不仅能检索Web页面,还提供对新闻组内文章的查找;不仅能输入单词、词组或句子进行检索,还能指定多个单词之间的逻辑组配及其位置关系;不仅能以词语查询有关主题的页面信息,也能以特定的域名、主机名、URL等查找有关信息;此外,还可以对被检索文献发表的语种、日期等进行限制。
5.5. 其他性能
一个优秀的搜索引擎产品还必须查询速度快、具有较好的可维护、可更新性能。系统必须稳定可靠,具有完整的容错、备份、崩溃修复机制,系统即使出错,也可以得到迅速的恢复。
主题分析 索引
![]()
|
主题概念 |
|
检索内容 |
|
文件特征标识 |
存储过程 → → →
排
∣ 序
∣
↓
|
检索工具 |
|
检索结果 |
↑ 循
∣ 环
∣ 匹
配
|
提问特征标识 |
|
主题概念 |
|
检索需要 |
检索过程 → → →
主题分析 索引
附图: 检索原理图
参考文献:《搜索引擎在幕后怎样工作》 中国科学院软件研究所 朱洁
《网络检索工具的比较研究》 段其宪 时咏梅

浙公网安备 33010602011771号