海纳百川 有容乃大(http://www.brtech.com.cn)

海纳百川,有容乃大(http://www.brtech.com.cn)

  :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::
第四章         基于主题的Web 信息采集基本问题研究

在本章里,我们主要围绕基于主题的Web信息采集基本问题展开了研究,这主要包括主题的Web信息采集的定义、优点、分类,主题页面在Web上的分布特征以及相关性判别算法,后两者是本章的重点。它们为在下一章中提出我们设计的基于主题的Web信息采集结构模型提供了必要的准备。

4.1 基于主题的Web信息采集的定义

Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集,在国外也叫做Focused Crawling。它主要是指选择性的搜寻那些与预先定义好的主题集相关的页面的采集行为。

4.2 基于主题的Web信息采集的优点

和传统的基于整个Web的信息采集相比,基于主题的Web信息采集是一个新兴的领域,主要有以下几个优点:第一,从很大程度上,它缓解了信息采集开放性难题刷新问题所带来的弊端。整个Web的实时性使得数据在采集到的同时就面临着过时的风险,为了降低这种风险,信息采集器必须不停的对采集过的信息重新采集已达到对数据的刷新。刷新问题就是指在对页面数据的刷新过程中,这种风险只能降低,不能消除。随着Web的急速膨胀,传统的基于整个Web的信息采集的刷新问题变得异常地尖锐。尽管人们不断的提高单机的性能,通过分布式增加并行能力,通过算法优化刷新策略,但是刷新问题还远不能令人满意。许多门户搜索引擎查新一次需要数周甚至数月的时间。SelbergEtzioni1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[Selberg &Etzioni 1995]。而对于基于主题的信息采集,这个问题好处理的多。随着采集页面数量的极大降低,页面的刷新周期极大的变短,因此数据过时的风险也就极大的减小了。

第二,它极大的节省了资源和提高了资源的利用率。整个Web上的信息是十分浩大的,想对Web整个采集或完全镜像的采集器,先不说它们能否做到这一点,就其在采集过程中所使用的硬件资源和网络资源来说,花费是十分巨大的。事实上,许多采集到的页面信息很少被使用,这是一个极大的浪费。而基于主题的Web信息采集就是在采集过程中对URL根据需要有所剪枝。这种采集剪枝,不仅使剪枝掉的URL数目远大于被采集的URL数目,甚至差别是几个量级的,还使得剪枝后采集到的页面有较高的利用率。因此,这极大的节省了硬件和网络等资源以及提高了资源的利用率。

第三,它更灵活,更利于为用户服务。采集的目的就是为了服务于用户,对于每个用户来说,他们根本不关心整个Web上的数据,而只是其中很小的一部分。事实上,这部分数据往往集中在很小的几个或者一个主题领域内。基于主题的Web信息采集恰恰可以满足这些用户的需求,而且,由于采集的页面数量少,页面内容也更有针对性,所以能够更好的针对需要为用户提供服务。也正是由于采集的页面数量少,系统更加灵活。

第四,通过各个基于主题的Web信息采集器的协作和共同努力,它可以提高整个Web的页面采集覆盖率。随着WWW信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对Web的覆盖率也只有30-40%。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。一个更好的解决放法是采用分布式方法来提高并行能力,但是并行不但增加了系统的开销和设计的复杂性,并且并行换来的效益随着并行采集器数目的增加而显著的减小。而基于主题的采集,由于采集的页面总数少,并且对于这个主题内的页面挖掘能力更强,所以和传统的基于整个Web的信息采集器相比,它在这个主题内往往采集到更多更全面质量更好的页面。当多个主题采集器按照主题分类目录对主题页面进行分类采集和协同工作后,他们的综合采集页面对Web的覆盖率也就更高了。

4.3 基于主题的Web信息采集的分类

4.3.1 广泛主题和具体主题的Web信息采集

按照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。

广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。用户在采集这类主题时,往往并没有太具体的要求。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面的内容相对于其它基于主题的Web信息采集来说也相对较杂,采集页面与主题的平均相关度也较低。

与之相对应,具体的主题涵盖面较窄,因此意义也比较明确,采集页面的规模也较小。这类采集一般可直接服务于用户,为此,它在进行URL过滤的时候所设定的阈值较高、限制较严。这类信息采集对用户来说,更加灵活,对每个用户有更强的针对性。在操作方式上,此类信息采集的设置有点像给搜索引擎提交查询词。

如果按照主题分类目录来划分它们二者的话,广泛主题往往集中在主题树的根结点附近,而具主题则集中在主题树的叶子节点附近。

4.3.2 固定主题和可变主题的Web信息采集

按照采集时能否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。

顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对比较广泛的主题,并且这类主题要有较强的代表性和采集价值。,这类采集一般服务于领域搜索引擎,不直接服务于用户。通过领域搜索引擎的标引和加工,以类似于门户搜索引擎的服务方式提供给用户。它的页面内容比基于整个Web信息采集的页面内容有强得多的主题特性,因此领域搜索引擎要比门户搜索引擎有更好的检索效果。

可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。

4.4 主题页面在Web上的分布特征

整个Web上的页面分布是杂乱无章的,但透过这个杂乱无章的表面,我们能否找到同一个主题在Web上分布的一些规律呢?答案是肯定的。我们将这些分布规律总结为四个特性:Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。通过对它们的研究,我们希望能够发现一些在基于主题的采集过程中对无关URL和页面过滤有用的规律。

4.4.1 Hub特性

美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。根据这个思想,他还提出了Hub/Authority 算法,这个算法我们将在后面的章节中介绍。这个算法对于计算广泛的和概念模糊的主题效果不错,但由于算法会产生概念扩散现象,使得计算后的中心页面和权威页面不太适合具体主题。

4.4.2 Sibling/Linkage Locality特性

Hub特性的基础上,人们又提出了Sibling/Linkage Locality特性[Aggarwal et al. 2001]1).Linkage Locality,即页面趋向于拥有链接到它的页面的页面主题;2).Sibling Locality,对于链接到某主题页面的页面,它所链接到的其它页面也趋向于拥有这个主题。这实际上是Hub特性的变形,主要是从页面的设计者设计的角度考虑的。一个页面的设计者趋向于把本页面指向于与本页面相关的其他页面。

4.4.3 站点主题特性

我们发现,一个站点趋向于说明一个或几个主题,并且那些说明每个主题的页面较紧密地在此站点内部链接成团,而各个主题团之间却链接较少。我们认为,这主要与网站的设计者的设计思路有关。每个网站在设计时都有目标,而这种目标往往就集中在一个或几个主题中。而网站的浏览者往往也有一定的目的性,这个目的性一般体现在用户趋向于浏览同一主题的页面。为了满足浏览者的这一需求,网站设计者需要将相关内容紧密地链接在一起。

为了发现和研究站点内页面的主题团特性,余智华对站点结构进行了分析[余智华 1999],他通过基于关键词的向量空间模型算法为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类,这样一个站点所要说明的一个主题或多个主题就确定了(如果聚为一个类,说明站点只有一个主题,如果聚为多个类,则说明站点有多个主题)。显然,聚的每一个类就是站点内页面的一个主题团。在聚类过程中,他要区别每个链接和页面对页面树结构的贡献,为此他为站点定义了两种结构(物理结构合逻辑结构),并且把站点内的链接分为六类(下行链、上行链、水平链、交叉链、外向链、框架链),把站点内的页面分为四类(主页、索引页面、内容页面、参考页面),他为每一类链接和页面在聚类过程中赋予不同的权重。我们的试验也证明了站点中存在着许多主题页面团,或者说许多中心页面。

4.4.4 Tunnel特性

Web中还有一类现象,就是尽管存在很多主题页面团,但是在这些页面团之间,往往需要经过较多的无关链接才能够到达。这些无关链接就想一个长长的隧道一样,连接着两个主题团,因此我们也把这种现象叫做“隧道现象”。在基于主题的页面采集过程中,Tunnel的存在极大地影响着采集的质量。为了提高采集页面的准确率,我们需要提高URL与主题相关性判定以及页面与主题相关性判定的阈值,而阈值的提高将过滤掉大量的Tunnel,使得采集系统很可能丢失Tunnel另一端的主题团,进而影响了查全率(或者说资源发现率)。反过来,为了提高查全率,就得大量发现Tunnel,就得降低URL与主题相关性判定以及页面与主题相关性判定的阈值,但是阈值的降低使得在得到Tunnel的同时,也混进了大量的其它无关页面,从而大大降低了页面的准确率。这是一个两难问题,但关键还是不能有效地区别Tunnel和其它大量无关页面,事实上两个主题团之间的隧道数也较少。为此,我们这样设计算法:判断某个链接和页面与主题的相关性低于阈值时,给它一个概率P不被剪枝,为了提高Tunnel的发现率,这个概率P值一般要大于Tunnel出现的估计概率值;另一方面,我们对链接和页面相关性判定的阈值进行动态的调整,当目前采集页面的准确率较高时,将阈值变低,而当目前采集页面的准确率较低时,将阈值变高,以使得能够有效的在查全率和查准率之间有一个有效的折衷。详细的算法在URL与主题的性关性判定那一章里介绍。

4.4.5 四个特性的关系

Web中的页面对于主题来说是杂乱的,但也存在一些规律。Hub特性说明了主题容易成团出现的现象,Linkage/Sibling Locality特性进一步对成团的特征有所扩展,站点主题特性说明了主题团所在的位置(即大部分分布于站点的内部),而Tunnel特征说明了主题团在Web 上的分布并不稠密,并且由较少的链接和Tunnel连接。

4.5 相关性判别算法研究

基于主题的Web采集系统最大的特点就是在采集的同时要对待采集的URL进行剪枝、对已经采集的页面进行过滤,而做这些事情的核心问题就是页面、URL与主题的相关性判别问题,为此,我们在这里对于相关性判别算法进行了详细的研究,它主要分为以下四个大类:1).根据元数据的判定;2).根据扩展元数据的判定;3)根据链接分析的判定;4).根据页面内容语义判定。

4.5.1 根据元数据的判定(元数据演算)

4.5.1.1 元数据演算基本概念

元数据(Metadata)是指关于数据的数据,关于信息的信息 [Marchiori 1998]。人们在研究Web信息检索的早期就发现,利用元数据(Metadata)来增加HTML的结构特征对Web信息检索有帮助。因此,HTML 规范从2.0版本开始引入了<META>这一Tag [HTML30 1995][HTML32 1997],用于为Web页面标注Metadata,一般形式为:<meta name=... content=...>。

例如:

<html>

<head>

<title>My Interests</title>

<meta name=”author” content=”Li Shengtao”>

< meta name =”description” content =”I love basketball game”>

< meta name =”keyword” content =”basketball,game”>

</head>

<body>

</body>

</html>

4.1 HTML中的元信息标注

4.1表示该页面的作者为Li Shengtao,关键词是basketballgame,而对本页面的描述是”I love basketball game”。这种元数据显然对本页面的主题有相当大的说明作用。

4.5.1.2 演算机制

元数据演算(又称为Meta演算)最初是海量信息、多媒体数据IR等中的技术, 今天日益成为Web研究中的重要一支,并成为基于主题的Web信息采集时剪枝的一个依据。Meta演算的核心思想是构造一个比原始被标引数据结构化程度更好、更便于计算的中间层次(元信息层次),在此基础上提供各种更加优化智能的服务。Meta演算以Web的异构性作为突破口,试图借助元信息引入结构性和有序性,从而提供更优质的检索服务。它的机制主要是标引和演算,两部分相互配合共同发挥作用。[冯国珍 2001]

4.5.1.3 标引

标引的目的是为演算提供比原始数据更加结构化的标引数据。标引工作的前提是制定一套标引标准,分为表现方式和标引工作方法两部分。表现方式包括标引数据的格式、属性、取值范围、标准值、存放规范等;标引方法体现为对标引属性和标准用值的含义解释,取值规定,和具体流程等。

标引工作的进行过程是为被标引对象即原始数据确定适用的标引属性并给出具体取值。这必须在理解的基础上进行,是理解归纳的工作。在Web这一应用环境中,标引的目的具体地包括消减自然语言的模糊性、歧意性,以及降维等,总之是在自然语言的基础上改善规范化和形式化程度。

4.5.1.4 演算

Metadata演算的目的是为了提供各种服务,因而随着需求的不同具体计算方法千差万别,但我们可以将Metadata演算的基本模式抽象为:以结构化程度更高的标引数据为对象,结合用户信息进行深度演算。Metadata演算一般不是工程或科学计算,而是智能领域的服务,如主动推送信息,信息自动分类,信息检索,主题制导采集等,强调对原始数据的归纳理解和人机交互的方式[冯国珍 2001]

4.5.1.5 元数据的层次标准

标引的目的是构造比原始数据更加结构化、更加有序,便于计算的中间层,因此标引必须遵循一致标准。标准的制定是有关Meta演算的国际组织的一项重要工作内容。Meta标准可以分为以下三个层次:

l    元信息格式。即元信息书写格式。HTMLXML都支持在页面中直接标注元信息, XML对元信息的页面标注支持方式结合RDF标注定义。[[RDF10 1999]]

l    元信息标准取值。这定义的是有哪些属性的元信息,各属性的标准命名;每个属性有那些有效取值,每个取值用什么标准符号表示。

l    演算模型。即基于元信息这一中间层次向上提供服务的计算模型。

Web页面制定元信息标准是一项十分困难的任务,因为Web所涉及的学科领域,语种,国家地域,文体都非常多,目前Meta标准在第一层次基本取得成功,HTMLXML页面中标注元信息的格式得到了各方的承认和执行。再向上,在第二层次,只就各种页面都共有的最基本属性的确定和命名制定了比较广泛接受的标准,即Doublin Core(简称DC)[DC],该标准定义了15个辅助Web IR的标准属性,如“author”, “abstract”, “date”等。进一步,虽然各学科专有属性的确定以及各属性有效范围的确定存在不少提案,但没有获得普遍接受形式的标准。至于Meta演算,由于应用于不同目的时相应采用不同的算法和技术,因此无法抽象出统一的演算模型[冯国珍 2001]

4.5.1.6 基于主题的信息采集对Metadata 演算的利用

通过以上分析我们发现,Metadata演算的一套思路和方法,都是为了更加有效地支持Web检索而产生的,基于主题的信息采集的本质就是将搜索引擎技术里原来放在采集数据之后的一些检索技术应用到了采集数据的过程中,因此Metadata演算对于基于主题的信息采集时的URL过滤和页面过滤是有用的。事实上,已经有一些系统尝试使用Meta数据来进行URL预测。但是,元数据演算却有一个致命的病源:这种减轻Web上信息的弱结构性和异构性的方法,需要人们事先按照标准书写HTML页面,这增加了人们的页面写作代价,而人们在习惯了原来简洁的方式后,很难遵从元数据标准。同时,对于不同的领域,Ontology标准的制定也有所不同,实施起来也困难重重。因此,像许多搜索引擎甚至领域搜索引擎一样,它在主题采集领域内应用并不多。因此,在我们的系统中,并没有利用任何的元数据。当然,这并不说明此类方法没有前途,随着Web的新一代语言XML的发展,Meta演算也逐渐有了新的发展空间,但是,它需要人们对增加页面结构信息的渴望付诸行动,也就是共同遵守Metadata书写协议,这需要时间。

4.5.2 根据扩展元数据的判定

4.5.2.1 基本概念

尽管目前元数据演算并不理想,人们却发现利用其它HTML标记anchor等信息能够有效的指导检索和基于主题的信息采集。我们把这些标记信息统称为HTML扩展元数据,相应的计算叫做扩展元数据演算。

4.5.2.2 HTML扩展元数据

HTML页面中,主要有4种超链接:1).Anchor(<A>) tags2).Image(<IMG>) tags3).Map and Area tags4). Frame and iFrame tags

Archor标记是最常用的,主要包括nametitlealton-mouse-overhref等几种属性。而Image标记则包括namealtsrcdynsrclowsrconabortonloadonerror等几种属性。对于MapArea标记,它们的属性与Anchor标记基本相同。FrameiFrame一般与Frameset一起使用,共同对网页进行分割。它们主要包括accesskeyalignapplicationbgcolorframeborderlanguagemarginwidthnamescrollingsrcstyletitle等属性。

如果把页面看作点,这些超链接看作边,则Web构成一个有向图。直觉上,这些链接所含的信息对页面的语义有重要的解释作用。因此,我们对主要的链接属性作了分析。

4.5.2.3 HTML扩展元数据类型在Web中的分布

我们研究了一个超过10000页的页面集,目的是了解在Web中,各个扩展元数据类型所占的比例。这个页面集合是通过天罗信息采集系统按照随机给定的种子页面集采集的。所有的页面共包含了超过90000个超链接,这些链接中即包含内部链接(此链接所指向的页面仍然在这个页面集中)又包含外部页面(此链接所指向的页面不在这个页面集中)

 

         分布

类型

链接比例

页面比例

HREF

 

86%

     89%

Anchor Text

 

    74%

     78%

Surrounding Text

 

    35%

     52%

Name

 

    12%

     19%

OnMouseover

 

    5.3%

     9.6%

Src

 

    1.7%

     4.2%

Title

 

    0.8%

     2.3%

Image Text

 

    0.5%

     1.4%

Map & Area Text

 

    0.1%

     0.3%

Frame Text

 

    0

     0

 

4.2 扩展元数据类型在Web中的分布

 

在图4.2中,列出了几种有代表性的HTML扩展元数据类型,它既有超链接的属性,也有超链接标记的文字。链接比例主要是指在所有的链接中,含某种HTML扩展元数据类型的比重(即用所有含此扩展元数据类型的链接数比上所有的链接数),链接比例实际刻画的是一个链接中含某种扩展元数据类型的可能性。页面比例是指在所有的页面中,含某种HTML扩展元数据类型的比重(即用所有含此扩展元数据类型的页面数比上所有的页面数),页面比例实际刻画的是一个页面中含某种扩展元数据类型的可能性。

因为一个链接或者一个页面并不只含有一种HTML扩展元数据类型,所以,所有类型的链接比例和页面比例分别加起来都超过了100% 。另外,由于一个页面中通常包含多个链接,所以页面比例一般都要比链接比例高。

试验数据显示,对于链接比例和页面比例来说,类型都是按HREFAnchorTextSurrounding TextNameOnMouseoverSrcTitleImage TextMap & Area TextFrame Text降序排列的。这个排列顺序说明了整个Web中的页面和链接中HTML扩展元数据类型使用的比例。因此,我们在下面的算法中只要关注几个比例较高的扩展元数据类型,就能够把握整个扩展元数据对本这面中链接所指向的页面主题的预测。

4.5.2.4 基于HTML扩展元数据类型的判定算法

这些算法是利用链接的扩展元数据来为每一个链接计算权值,在进行基于主题的信息采集时,优先采集权值高的链接,并对权值较低的链接进行剔除。整个扩展元数据类型可以分为3个大类:1).URL(包括HREFOnMouseoverSrc等);2).Text(包括Anchor TextImage TextMap&Area TextFrame TextSurrounding Text)3)Title(包括TitleName)。根据这3个大类,我们设计了算法。这些算法包含URL启发式算法(URL Heuristics or UH)Text启发式算法(Text Heuristics or TeH)Title启发式算法(Title Heuristics or TiH)、扩展元数据启发式算法(All Metadata Heuristics or AMH)、相关性权重算法(Relevance Weighting or RW)和有提升的相关性权重算法(Relevance Weighting with Boosting or RWB)[YSH 2000]

4.5.2.4.1 URL启发式算法(URL Heuristics or UH)

Web中,如果一个URL中包含某个主题词,则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如http://dmoz.org/Sports/Basketball这个URL包含的内容就很可能是关于Basketball的。因此我们定义计算公式:

             公式4.1

直觉上,根据这个公式计算的值 如果为1,则这个链接所指向的页面与主题相关的准确性很高,但算的值 如果为0,这个链接所指向的页面与主题无关的准确性并不高。也就是说此算法给许多实际相关的页面并没有赋权值1

4.5.2.4.2 Text启发式算法(Text Heuristics or TeH)

Web中,如果Anchor TextImage TextMap&Area TextFrame TextSurrounding Text等中包含某个主题词,则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如<a href="content1.HTM" >科研</a>包含的内容就很可能是关于“科研”。因此我们定义计算公式:

      公式4.2

    URLText指的就是此链接的Anchor TextImage TextMap&Area TextFrame TextSurrounding Text,显然,在一个链接中,这些Text是不可能同时出现的。直觉上,同URL启发式算法类似,根据这个公式计算的值 如果为1,则这个链接所指向的页面与主题相关的准确性很高,但算的值 如果为0,这个链接所指向的页面与主题无关的准确性并不高。不过与URL启发式算法相比,它没有赋权值1的相关与主题的页面要少一些。

4.5.2.4.3 Title启发式算法(Title Heuristics or TiH)

Web中,如果一个链接中的Title包含某个主题词,则这个URL所指向的页面很可能是跟这个主题词密切相关的。比如<A href="http://someplace.com/neatstuff.gif" title="Me scuba diving">me scuba diving last summer</A>这个URL中,title包含的内容me scuba diving就很可能是关于这个URL所指向的页面的内容。因此我们定义计算公式:

     公式4.3

4.5.2.4.4 扩展元数据启发式算法(All Metadata Heuristics or AMH)

将所有的扩展元数据综合在一起,就得到扩展元数据启发式算法公式:

              公式4.4

其中ABC3个大于等于零小于等于一的常数,用于控制每类扩展元数据在整体中的权重。显然,0 1

4.5.2.4.5 相关性权重算法(Relevance Weighting or RW)

另一种综合所有的扩展元数据来计算权重的公式如下:

  公式4.5

其中,M(url)指与此URL相关的所有扩展元数据集合, 是指扩展元数据中的一个词与主题的相关度。c为用户设定的相关性阈值。此方法与AMH算法最大的不同在于相关度的计算。AMH方法是看扩展元数据中是否包含主题词或者主题词的同义词,这样会漏掉许多相关页面;而RW方法则是看扩展元数据中词与主题词之间的相似度,同义词之间的相似度100%,近义词之间的相似度50%~100%,远义词之间的相似度0%~50%,这样大大降低了漏判相关页面的可能性,同时也增加了错判相关页面(不相关的页面判断为相关页面)的可能性,它的相关与否是通过阈值来决定的(大于等于阈值为相关,小于阈值为不相关)。另外,RW算法需要增加一个词语相关性词库。

4.5.2.4.6 有提升的相关性权重算法(RWB)

  公式4.6

   Web中,有时在某两个相关于主题的页面之间会有若干个不相关于主题的页面存在,我们把这种现象称为“隧道现象”。这样在采集到前面一个相关于主题的页面时,根据RW算法很容易将隧道及隧道后面的相关于主题的页面抛弃掉。为了减少这种因为“隧道现象”而漏采相关于主题页面的损失,对RW算法进行扩展,产生了有提升的相关性权重算法RWB公式4.6。其中T(url)表示包含这个URL的文本,t指文本中的每个词,c与前面一样,为用户设定的相关性阈值,d为用户设定的提升阈值。P1P2为随机变量,它们在01之间变化。

它的原理就是当一个链接URL 值小于相关性阈值c时,随机产生一个提升因子P1,当P1大于等于提升阈值d时,此URL就获得了一个重新评判相关性的机会,这次评判不只是用扩展元数据,而是用包含此url的整个页面内容。当重新评判的值大于相关性阈值c时,则用此值,表明这个URL链接到的页面是相关的。如果重新评判的值仍然小于相关性阈值c,则给第三次机会,其值等于随机产生的变量P2,由于P2可能大于相关性阈值c,所以此URL链接到的页面仍有可能被判断为相关的。这两次机会减少了RW算法的漏判(相关的页面被判断为不相关)和对“隧道现象”的错判,但同时也增加了相关性页面的误判(不相关的页面被判断为相关)RWB算法的另一大优点就是解决了“停滞现象”。它总能找到相关页页面,而不因为没有相关页面采集停滞。

4.5.3 根据页面间链接分析的判断

Web是基于Internet的超文本(hypertext)系统,超文本系统与普通文档信息库的最大区别就在于前者中存在着大量的超链接。研究表明,利用Web中丰富的超链接(hyperlink)信息,可以挖掘出Web中许多重要的信息,这些信息对进一步理解超文本语义以及提供给用户更优质的服务有相当大的帮助。我们把这些研究超链接的工作称为链接分析,或叫做结构分析(structure analysis)。

链接分析的研究思路基于这样一个假设:即把超链接看作是对它所指向的页面的赞许[Chakrabarti 1999]。在这样的假设之下,当页面A通过超链接指向页面B时说明两点:1).页面B与页面A的主题是有关的;2).页面B是质量较好值得关注的页面。单个链接并不是完全可靠可价值判断,因为超链接中也有纯粹起导航作用的(如“主页”,“下一页”),或者是广告链接,或表示不赞同(“我不同意这个观点”),或者是为了某种目的的欺骗性链接。不过,从宏观总体上来看,Web上整个链接集合所反映的情况则是比较可靠和准确的,因为不良链接的整体效应远没有重要链接的整体效应强。当然,为了有效和准确的评估链接,在进行具体的算法分析之前需要识别和去除 “噪音”链接,这也是许多链接分析算法的共同特点。

如果将页面看作顶点,链接看作有向边,整个Web就可以看作是一个有向图,称为Web图(Web graph),可以用复杂网络理论来进行研究和分析。在上述背景下,通过链接对Web的研究可以分为以下三种类型:1).Web宏观性质的研究,比如说通过每个页面的出度和入度数来研究Web中团的直径和Web的宏观结构。这类研究往往用生态学(ecology)和社会学(sociology)的规律来来揭示Web的发展。2).Web中单个页面的性质的研究。就像经济社会一样,有宏观问题,也有微观问题,Web中的每个页面的作用是不相同的,有些页面非常重要和非常有权威,很多人都关注它,而有些页面则是垃圾,除了浪费被骗人的时间外,几乎没有任何存在的意义。现在比较好的计算页面重要程度的方法为PageRank算法和Authorities/Hubs算法,我们将在下面的章节中详细介绍。事实上,对Web中单个页面的性质的研究非常使用,许多搜索引擎都采用了PageRank算法和Authorities/Hubs算法,以提高检索结果的准确性。3).Web隐藏信息的挖掘。现在,仍然有许多可用的Web信息没有被挖掘出来,比如说有关共同话题的页面“社区”的问题[Kumar (1) 1999] [Kumar(2) 1999] [Mendelzon 1995] [Mendelzon 1997],这些问题的解决有待于对Web隐藏信息的进一步挖掘。

4.5.3.1 相关度和重要度

4.5.3.1.1 相关度

在搜索引擎技术中,相关度是个重要的概念。它描述了检索结果和检索请求之间的相关程度。相关度的计算方法有很多,但每一种方法基本上都是定量地计算检索请求与检索结果之间的语义关联程度,并且根据这种关联程度的数值高低排列搜索引擎返回给用户的结果。与之类似,基于主题的Web信息采集的相关度是指页面或链接和主题之间在语义上的相互关联程度。

事实上,搜索引擎的这种排序后的返回结果并不令人满意。原因除了由于相关度计算方法的误差导致的排序错误外,还主要有一点:相关度不太高的页面不一定质量不高,相关度很高的页面不一定有高的质量。比如,一个文本对于一个主题来说,可能并太相关,但却出自一个权威作家之手,它有相当高的有用信息量;而另一个文本对于这个主题可能是非常相关的,因为它讨论的确实是这个主题,但是,这个文本由于出自一个初学者之手,只包含很少的有用信息量;更有甚者,一个质量较差的网页的作者,由于了解搜索引擎的工作方式,利用在网页中大量重复重要关键字的做法,提高它在搜索引擎检索中的相关度。实际上,用户需要的不只是语义上最相关的页面,而且是用途上质量高的页面,也就是说,是相关度和质量因素综合较高的页面。为此,信息检索的研究者们提出了另一个重要的衡量指标——重要度。

与信息检索情况类似,基于主题的Web信息采集在进行主题相关性判定时也面临两个衡量指标。需要最先采集的链接,一方面,要在语义上与主题十分相关,另一方面,它要有较高的权威性和质量。这种权威性和质量往往能够使得采集到页面具有较大的有用性和较高的发现其它高相关度页面群的能力。我们在评价基于主题的Web信息采集系统URL预测方法时,也提出了另一个衡量指标——重要度。

4.5.3.1.2 重要度的概念

在信息检索中,重要度定义为:检索结果中,某文本的相对重要程度[杨志峰 2001]。我们在此处对重要度进行扩展:在一个文本集合中,某文本的相对重要程度。重要度刻画的是一篇文本实际的质量和有用性,相关度则刻画一篇文本和一个主题或者查询在语义方面的相联程度。尽管从统计概念的角度说,它们之间有较强的相关性(也就是说,统计上页面表现出来的规律是:重要度高的页面很可能相关度也高,反之,相关度高的页面很可能重要度也高),但从实际意义上看它们并无太大联系,只是从两个不同的角度对本页面的评价。一个不太恰当的比喻是马克思对商品的看法:商品是价值和使用价值的统一体。在这里,我把相关度比作价值,重要度比作使用价值,二者相关,但也有很大的不同。

计算页面相关性的方法丝毫不能评估页面的重要性,那么我们如何得到对页面重要性的评估呢?链接分析给我们指明了道路。事实上,整个Web上的指向页面的链接数恰恰反映了页面的可用程度和质量,也就是页面的重要度。如果一个页面质量好或可用程度高,那么就会有很多页面指向它,如果一个页面不好或可用程度低,就只有很少的页面指向它。这说明链接关系不仅仅反映了页面的重要度,还因为排除了个别用户或临时行为的干扰而使得这种重要度有较强的可信度。

因此人们用链接分析算法来评估页面的重要度,流行的算法有PageRankAuthorities/Hubs算法,在后文我们设计的基于主题的IPageRank算法,就利用了重要度的概念。

4.5.3.2 PageRank算法

PageRank是著名搜索引擎Google的一个重要检索算法,它有效的帮助搜索引擎识别那些重要的页面并且将它们排在检索结果的前列。Google是美国斯坦福大学计算机科学系研究开发的一个大型搜索引擎。它的设计目标,是提供千万页面级的搜索引擎,每天可以应付数以百万计的查询请求,并且,最重要的是提供了相对令人满意的检索结果。

4.5.3.2.1 PageRank函数定义

WORLD WIDE WEB上的无数页面互相链接,构成了一个巨大的链接有向图。也许是受论文引用排名的启发,Google的设计者们发现这个有向图中包含了非常有用的引用信息,而这种资源以前从未被人注意过。

设计者的思路是:被别人大量引用(也就是被链接)的网页,一定是好网页。从这个观点出发,他们构造了以下的基本公式:

给定一个网页A,假设指向它的网页有T1T2Tn。令C(A)为从A出发指向其它网页的链接数目,PR(A)APageRankd为衰减因子(通常设成0.85),则有

       公式4.7

设计者声称,PR(A)可以用简单的迭代算法进行计算;在一台中等规模的工作站上,2600万个网页的PR函数值可以在几小时内完成。

4.5.3.2.2 PageRank的直观解释

假设WEB上有一个随机的浏览者,从一个任意给定的页面出发,从来不执行“BACK”操作,按照页面上的链接前进,我们假设浏览者选择本页中任意一个链接前进的概率是相等的。在每一个页面,浏览者都有可能不再对本页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览。这个离开的可能性设为d。这样,PageRank(即函数PR(A))就是它访问到本页面A的概率。因为用户是趋向于浏览重要页面的,所以这个概率就反映了此页面的重要程度。从直观上看,如果有很多页面指向一个页面,那么这个页面的PageRank就会比较高;如果有PageRank很高的页面指向它,这个页面的PageRank也会很高。这样,从“随机浏览者”模型出发的PageRank函数就在直观上同WEB上的实际情形相对应了。

4.5.3.2.3 PageRank公式的修正

从随机浏览者解释思路看,公式8.7的形式是不准确的。有人认为应该修正为以下形式[杨志峰 2001]

 公式4.8

公式中,(1-d)(PR(Ti)/C(Ti))代表随机浏览者从页面Ti进入页面A的概率,所有概率值相加得到随机浏览者从某个链接进入页面A的概率;d/(Ctotal-1)代表随机浏览者离开当前页面,随机开始一个新页面,从而选中页面A的概率。这两个概率相加,即得到进入页面A的总概率。

因为d/(CTotal-1)约等于0,所以我们认为公式4.7中的d并不表示随机浏览者离开当前页面的选择一个新页的概率,而只是起到调高PR(A)值以便计算的作用,实际公式中的d/(CTotal-1)由于为0已被省略了。

4.5.3.3 权威中心页面算法(Authorities/Hubs)

4.5.3.3.1背景

该算法主要在IBMAlmaden研究开发中心研制的CLEVER系统中实践和应用。他们认为,WEB页面的数量正呈指数形增长,但人们可以接受的信息数量几乎保持不变。因此,没有必要把所有的页面都进行索引、分类以供检索。他们的目标是主题提取(Topic Distillation):给定一个覆盖面比较广的主题,筛选出这个主题下面质量最高的一小部分WEB页面。

CLEVER系统把链接分析的深度又提高了一层。在这个系统中,首次提出了两个重要的概念:HubsAuthorities。从这两个概念的名称可以推想到,Authorities是重要的页面,Hubs就是指向众多重要页面的中心点。

HubsAuthorities之间是相互加强的关系。一个好的Hub必然指向许多好的Authorities,一个好的Authorities必然被许多好的Hub链接。当然,一个页面可以同时是HubAuthorities

4.5.3.3.2 权威中心页面算法(Authorities/Hubs)

下面是CLEVER算法的示意性算法描述。

1.        用户给定一个查询以后,CLEVER把它提交给一个通用的基于关键字查询技术的搜索引擎,例如AltaVista。从这个搜索引擎返回的结果称为基本集(Initial Set)。基本集不超过200页。

2.        向基本集中增加页面。被增加的页面必须或者是基本集中的页面所链接的页面,或者是它们链接到基本集中的页面。扩展后的页面集合称为根集(Root Set)

3.        对根集中的每个页面p,赋给两个权值:a(p),代表Authority权值;h(p),代表hub权值。它们初始值设为1

4.        迭代计算每个页面的权值。

a)        对于页面p,令 ,其中qi为页面p链接的页面。

b)        对于页面p,令 ,其中ri是链接到页面p的页面。

5.        重复执行若干次迭代,每次迭代后进行规格化。

最终,取a(p)最高的页面为最好的Authorities页面,取h(p)最高的页面为最好的Hubs页面,每个页面的Authority值就是这个页面的重要度。从算法中我们可以得知:根据Authorities/Hubs算法得到的权威页面是基于主题的,也就是说得到的权威页面是这个主题的权威页面。但由于根集中扩展进了许多主题相关性较低的页面和算法初始化各个页面的Authorities值相同(都为1),这个算法一般只适用于较广泛的主题。

4.5.4 根据页面语义信息的判定

最好的判断URL和页面与主题的相关性方法还是要基于语义的理解,尽管这样做往往要花费更高的时空代价。目前,判断文本和主题相关性的方法仍然是基于关键词的,主要有以下几种方法:全文本扫描,布尔模型,扩展布尔模型,向量空间模型,概率模型。它们都是IR领域里经典方法。

4.5.4.1 全文本扫描

对于检索来说,要检查某个检索串的位置,最简单有效的办法恐怕是全文检索,也就是从头到尾扫描手中掌握的文本,检查这些串是否存在于其中。相应地,要判定是否页面与主题相关,最简单的方法也是全文扫描,在进行分词、去除停用词、词根还原(stemming)等简单的预处理之后,看看主题中的关键词是否都在本页面中出现,如果出现则相关,否则不相关,出现的频率越高,则相关度越大。

如果系统支持带正则表达式的查询,那么情况会复杂一些,需要判断文本中的字符串是否符合指定的模式。一般来说,可以构造一个和正则表达式对应的有限自动机,用它检测字符串是否满足要求。

全文本扫描的优点,在于这种方法非常简单,不需要预先对文本进行处理,不需要耗费空间存储索引,自然也不需要花代价维护索引。它的缺点在于,这是一种非常低效的方法,任何字符串的查找都要遍历所有的文本。不仅响应时间太长,而且极其耗费CPU时间和磁盘IO时间。所以不适合大规模应用。但是,如果数据量不大,全文本扫描不失为一种有效的简便方法。

4.5.4.2 布尔逻辑模型

该模型构成了几乎所有信息检索和数据库系统的基础,直到今天仍然如此。采用这种模型的检索系统,用户查询词用布尔操作符“与”(AND)、“或”(OR)、“非”(NOT)进行连接,系统则返回满足上述词项组合的文档[Cooper 1988]。对于判定页面与主题的相关性来说,将主题表示成若干个关键词并用布尔操作符相连,然后与页面进行相关性判定,一般可采用全文扫描的方法。

4.5.4.3 扩展布尔模型

4.3 P-norm模型

 

经典的布尔逻辑模型的最大缺点是只有01,没有ranking。也就是说只要整个布尔表达式中只要有一处不符合,则不相关;都符合,则相关。这种判定方式显然十分僵化:在OR方式中,包含很多主题词的页面和包含少数词的页面在与主题的相关度上是等同的;在AND方式中,即使缺少一个词,结果也是FALSE,等于一个词也没有。为此建立了扩展布尔模型,在各种扩展中,p-norm模型的运行结果是最符合实际的。

如图4.3所示,P=infinity时,p-norm模型等同于classical boolean模型,当P较低时(如在[2,5]内),and方式中一个权值低的词会使总体值大大降低,or方式中一个权值高的值会使总体值大大提高。当P=1时,变成向量空间模型(vector space model)andor方式实际上相同,公式变为cosine similarityP-norm可以得到更大的灵活性。用户可以指定某个子表达式的P值,例如一个较大的值表示对它要求比较严格。

4.5.4.4 向量空间模型

进行主题词和页面内容相关性的计算过程,实际上也是一个对页面进行分类和聚类的过程。Salton 等人于60年代末提出了向量空间模型 VSM (Vector Space Model) 的概念,即使用向量表示文本或页面。

向量空间模型的基本概念可以描述如下:1).文档:泛指一般的文本或文本的片段(段落、句群或句子),一般指一篇文章。尽管文档可以是多媒体对象,但在我们的讨论中假设为文本对象,并且对文本和文档不加以区别。

2).项(特征项):文本的内容由一些特征项来表达,一般由文本所含有的基本语言单位(字、词、词组或短语等)来表示,即文本可以表示为 ,其中,  表示各个项。换句话说,由这些项张开了一个向量空间,每个项表示一个维度。

3).项的权重:在一个文本中,每个特征项都被赋予一个权重 W,以表示这个特征项在该文本中的重要程度。权重一般都是以特征项的频率为基础进行计算的,比如采用 TF-IDF 公式表示等等。这样文本就表示为: ,简记为 ,这时我们说项 的权重为 ,其中

4).向量空间模型(VSM):给定一自然语言文本 ,由于 在文本中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂不考虑 在文本中的先后次序并要求  互异(即没有重复)。这时可以把  看成一个 n 维的坐标系,而 为相应的坐标值,因此一个文本就表示为 n 维空间的一个向量,我们称  为文本 D 的向量表示或向量空间模型。

5).相似度度量:两个文本    之间的相关程度常常用它们的相似度  来度量。在向量空间模型下,我们可以借助向量之间的某种距离来表示文本间的相似度。相似度常用向量之间的内积来计算:

                           公式4.9

或用夹角余弦表示:

             公式4.10

在向量空间模型的框架下有许多算法,例如,贝叶斯算法、K-近邻算法、类中心向量最近距离判别法、支持向量机等等。

4.5.4.5 概率模型(Probabilistic Model

文档与查询相关的概率这一概念很早便由MaronKuhns引入信息检索领域[Maron 1960]。其核心思想是将IR系统的主要功能看作是把集合中的文档按与用户信息需求的相关度概率降序排列。但是直到70年代中期,概率排序思想才逐渐进入实践领域,并开始蓬勃发展起来[Robertson 1977]


前面介绍的几种信息检索模型中都是将文档表示词条视为相互独立的特征项,忽略了词条间的关联性,而概率模型则考虑到词条、文档间的内在联系,利用词条和词条间的概率相依性进行检索。它使用概率推理网络进行文档表示和检索。概率推理网络模拟人脑的推理思维,将文档内容与用户查询匹配的过程转化为一个从文档到查询的推理过程。基本的文档检索推理网络包含文档网络与用户查询网络两个部分,如图4.4所示。

4.4 概率推理网络

 

4.4中每个节点表示一个文档、一个查询或者一个概念,其中 为文档节点, 为文档表示节点, 为文档概念节点, 为用户查询概念节点, 为用户查询节点,有向边表示节点间的概率相依性。网络中文档节点与查询节点间的相关性可以表示为:给定文档节点与查询节点的条件概率就可以计算出查询节点的后验概率,如要估算用户查询 与文档 间的概率相关性 ,先将文档节点 置为True,然后依次计算 的相依节点的概率即可[徐泽平 2001]

   在判定主题与页面的相关性过程中,只要把页面看作文档,把主题看作查询,则可用概率推理网络进行计算。

posted on 2006-03-26 02:51  阿昆  阅读(1084)  评论(0编辑  收藏  举报