海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

 

第一章    引言……………………………………………………………………………….1

1.1 背景... 1

1.2 本文安排... 2

第二章    Web信息采集概述………………………………………………………………4

2.1 Web信息采集系统的基本原理... 4

2.2 Web信息采集系统的基本结构... 4

2.3 Web信息采集面临的主要困难和相应的技术手段: 6

2.4 采集系统实例... 8

第三章    Web信息采集的研究现状………………………………………………….. ...11

3.1 基于整个Web的信息采集... 11

3.2 增量式Web信息采集: 12

3.3 基于主题的Web信息采集: 12

3.4 基于用户个性化的Web信息采集... 13

3.5 基于Agent的信息采集... 14

3.6 迁移的信息采集... 15

3.7 基于元搜索的信息采集: 15

3.8 小结... 15

第四章    基于主题的Web 信息采集基本问题研究…………………………………    ...17

4.1 基于主题的Web信息采集的定义... 17

4.2 基于主题的Web信息采集的优点... 17

4.3 基于主题的Web信息采集的分类... 18

4.4 主题页面在Web上的分布特征... 19

4.5 相关性判别算法研究... 21

第五章    基于主题的Web 信息采集系统模型及我们的对策………………………    ...37

5.1 系统模型... 37

5.2 模型中的关键问题及我们的策略... 37

第六章    主题选择………………………………………………………………………...41

6.1 主题的定义... 41

6.2 主题分类目录... 41

6.3 Web上的主题分类目录的特点... 42

6.4 主题选择策略... 42

第七章    Spider采集…………………………………………………………………44

7.1 Spider的系统模型... 44

7.2 采集算法及实现... 45

第八章    页面分析……………………………………………………………………...49

8.1 HTML语法分析... 49

8.2 页面中正文的提取... 49

8.3 页面中链接的提取... 50

8.4 页面中标题的提取... 51

第九章    URL、页面与主题的相关性判定…………………………………………...…52

9ž1 URL与主题的相关性判定——IPageRank算法... 53

9.2 页面与主题的相关性判定——向量空间模型算法... 56

第十章    系统的实现与总结…………………………………………………………...58

10.1 系统实现情况... 58

10.2 系统测试结果... 58

10ž3 进一步的工作... 62

10.4 结论... 62

参考文献    …………………………………………………………………………………...64

        …………………………………………………………………………………...68

作者简介……………………………………………………………………………………69

 



                                                                                                                                                           第一章         引言

1.1 背景

随着Internet/Intranet的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的WWWWorld Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。截止到20007月,Internet上的网页数量就已经超过21亿,上网用户超过3亿,而且网页还在以每天700万的速度增加[徐泽平 2001]。这给人们的生活提供了丰富的资源。

然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需要的信息。因而基于WWW的网上信息的采集、发布和相关的信息处理日益成为人们关注的焦点。

为此,人们发展了以Web搜索引擎为主的检索服务。为了解决网上信息检索的难题,人们在信息检索领域进行了大量的研究,开发了各种搜索引擎(GoogleYahoo)。这些搜索引擎通常使用一个或多个采集器从Internet上收集各种数据(WWWFTPEmailNews),然后在本地服务器上为这些数据建立索引,当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息[Bowman 1994]作为这些搜索引擎的基础和组成部分,Web信息采集正发挥着举足轻重的作用,并且随着应用的深化和技术的发展,它也越来越多的应用于站点结构分析、页面有效性分析、Web图进化、内容安全检测、用户兴趣挖掘以及个性化信息获取等多种服务和研究中。简单说,Web信息采集是指通过Web页面之间的链接关系,从Web上自动地获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程。

传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如Google采集系统在并行4个采集器时的速度可以达到每秒100页,从而它配合搜索引擎给网络用户带来了很大的便利。但是,这种传统的采集方法也存在着很多缺陷。

随着WWW信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对Web的覆盖率也只有30-40%。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。一个更好的解决方法是采用分布式方法来提高并行能力,但是并行不但增加了系统的开销和设计的复杂性,并且并行换来的效益也随着并行采集器数目的增加而显著地减小。目前,一般的大型采集系统都采用了并行机制,但并行带来的改善效果仍远不能满足人们的需要。人们需要从其它角度改善目前的困境。比如说对整个Web分块采集,并将不同块的采集结果整合到一起,以提高整个Web的采集覆盖率。

Internet信息的分散存储、管理和动态变化也是困扰着信息采集的问题之一。由于信息源随时可能处于变化之中,信息采集器必须时常地刷新数据,但仍无法避免采集到的页面失效的情况。对于传统的信息采集来说,待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间[Aggarwal et al. 2001][Brin&Page 1998],这使得页面的失效率非常地巨大。SelbergEtzioni1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[Selberg&Etzioni 1995]。一个显然的缓解办法就是减小采集页面的数量,从而减小刷新一遍的时间,进而减小页面已采集页面的失效率。

传统的基于整个Web的信息采集需要采集的页面数量十分浩大,这需要消耗非常大的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。这是因为,用户往往只关心其中极少量的页面,并且这些页面往往集中在一个主题或几个主题内,而采集器采集的大部分页面对于他们来说是没有用的。尽管许多用户合起来的效果提高了整个采集到页面的利用率,但仍然显得利用率偏低,这显然是对系统资源和网络资源的一个巨大浪费。为了有效的提高它们的利用效率,我们有必要另辟蹊径。

对于用户的一般信息查询检索要求,传统信息采集器所组成的搜索引擎能够提供较好的服务,但对于用户更多的具体要求,这种传统的基于整个Web的信息采集所提供的服务就难以令人满意。对于每个用户来说,尽管他们输入同一个查询词,但他们渴望得到的查询结果却是不一样的,而传统的信息采集和搜索引擎却只能死板地返回相同的结果,这是不合理的,需要进一步提高。

这些问题主要都源于两点:采集页面的数量过于庞大和采集页面内容的过于杂乱。对整个 Web页面进行分类,按类别采集,基于主题进行采集的思想应运而生。它有效的减少了采集页面的数量,增加了采集页面的规整程度,进而有效的缓解了上述问题。因此需要开展对基于主题的Web信息采集研究。  

1.2 本文安排

第二章概述了Web信息采集的基本结构、所面临的主要困难和相应的技术手段。在第三章里,讨论了Web信息采集的研究现状和热门的发展方向,并通过论述指出基于主题的Web信息采集的迫切性和必要性。在第四章里,我们讨论了基于主题的Web信息采集的基本问题,重点是对主题页面在Web 上的分布和相关性判定算法的研究。第五章给出了我们设计的基于主题的Web信息采集系统的结构模型,并就搭建一个这种采集系统所面临的关键问题和相应对策做了简单的描述。在接下来的四章中(从第六章到第九章),我们按照结构模型中的主要部分主题选择、Spider采集、页面分析、URL和页面与主题的相关性判定分别作了较为详细的论述,并给出了我们的设计方案和算法。最后,在第十章里,我们给出了系统的实验结果和进一步需要研究的问题。

 

posted on 2006-03-26 02:43  阿昆  阅读(1231)  评论(0编辑  收藏  举报