第五章基于主题的Web 信息采集系统模型及我们的对策

5.1 系统模型

基于主题的Web信息采集技术在应用需求的推动下，已经成为一个热门的研究课题，为了更好的研究这个课题，我们设计了一个基于主题的Web 信息采集系统模型，如图5.1所示。为实现对基于主题的信息自动采集，我们将整个处理过程分成五大模块：主题选择和初始URL选择、Spider采集、页面分析、URL与主题的性关性判定(链接过滤/链接预测)、页面与主题的性关性判定(页面过滤)。下边简要地说明整个系统模型中的关键问题，在后续几章里，我们将详细讨论各个模块的算法及实现。

5.2 模型中的关键问题及我们的策略

5.2.1主题的选择

为了有效的进行剪枝和采集，基于主题的Web 信息采集所要解决的一个重要问题就是主题选择问题。针对随便的主题词可能较大地影响采集效果，系统一般提供给用户一个主题分类目录以供选择。为了有效地确定用户选定主题的含义，用户要提供对主题的进一步描述，比如提供若干表达主题含义的文本，当然系统也会提供一些主题文本供用户选择。我们的系统就是按照中国图书馆的分类方法的第一级目录和二级目录对主题进行分类的，并在每个主题下配备了一些主题文本，以供用户选择。

5.2.2 采集起点的选择

一般采集器是从一个种子URL集出发，通过Web协议向Web上所需的页面扩展的。基于主题的Web信息采集也不例外，也有一个起始采集的种子URL集。但是，基于主题的Web信息采集的采集起点选择却必须十分慎重，因为这将影响着采集的效率，尤其是刚开始采集的准确率。

基于Web上的Linkage/Sibling Locality特性，一般采集系统需要选择质量较高的主题URL作为初始种子URL集。为此，我们采用我们自己设计的小金手元搜索引擎为每个主题搜索页面，搜索排名前50的URL作为每个主题目录下的种子URL。用户在设置主题采集时可以在这50个URL中进行选择，也可以将自己知道的好的主题URL输入进来，以提高采集的效果。

而更高级的初始URL的选择方法是根据用户兴趣制导的，这需要有一个初始的用户兴趣文件，这个文件可以由用户填写的兴趣和用户浏览器中的书签&收藏文件产生。这部分的研究也属于基于用户兴趣的采集。

图5.1 系统模型

5.2.3 Spider采集

这个部分处于系统的底层，也叫“网络蜘蛛”，是系统专门与具体的Web打交道的部分。主要通过各种Web协议来自动采集Internet上WWW站点内有效的信息（包括文本、超链接文本、图象、声音、影像、压缩包等各类文档）。这些Web协议包括HTTP、FTP以及BBS，还根据用户的需要采集了Web Chat、ICQ等特殊信息。这个部分主要对应于在第二章中介绍的Web信息采集系统的基本结构中的“协议处理器”部分。

5.2.4页面分析

在页面采集到以后，我们要从中提取出链接来，然后根据链接与主题的相关性判定来过滤与主题无关的链接，接受与主题相关的链接并进行下一步的采集；为了有效的进行链接与主题的相关性判定，我们也要分析出页面链接中的扩展元数据(这个概念我们将在以后的章节中具体介绍)来；再者，为了进行页面与主题的相似度判定，我们也必须提取出页面中的正文和关键词来；为了其它操作的处理，我们也要进行对页面内容标题、摘要等的提取。所有的这些就是页面分析的内容：链接的提取、元数据的提取、正文的提取、关键词的提取、标题的提取、摘要的提取。它们的详细提取算法我们将在后文的相应章节中介绍。

5.2.5 URL与主题的相关性判定(链接过滤/链接预测))

为了有效的提高基于主题的Web信息采集的准确率和效率，系统需要对“待采集URL”进行URL与主题的相关性判定，也可以叫做链接过滤或链接预测。按照高预测值优先采集、低预测值(小于设定阈值)被抛弃的原则进行剪枝处理。这样可以大大减少采集页面的数量，有效的提高主题信息搜索的速度和效率。这个问题是本类采集系统的重要问题，也是本文论述的一个重点，我们将在下面相应的章节中通过大量的算法分析详细剖析这个问题。

5.2.6 页面与主题的相关性判定(页面过滤)

为了进一步提高采集页面的准确率，需要对已采集的页面进行主题相关性评价，也就是页面过滤。通过对评价结果较低的页面(小于设定的阈值)剔除，来提高所采集主题页面的准确率。这个问题是检索领域内的一个经典问题，已经有许多成熟的基于关键词的相关性判定算法。我们采取的方法就是基于关键词的向量空间模型算法。

5.2.7 数据存储

主要有三种数据库需要存储，它们是主题页面库、全局URL队列和中间信息记录库。主题页面库主要存放采集器采集过的并经过页面过滤处理后的主题页面。全局URL队列则是存放从采集到的页面中提取出来的URL的地方，这些URL在进入URL队列前必须经过URL预测处理，只有被预测为指向主题相关页面的链接才能进入全局URL队列。在插入队列时，也要根据URL与主题的预测相关性的大小排序，相关性越高，排序越前。为了有效的进行URL与主题的性关性判定和页面与主题的相关性判定流程，显然需要许多中间处理结果，比如使用IPageRank算法时每个页面所拥有的IPageRank值，所有的这些中间数据，保存在中间信息记录库中。

第六章主题选择

在我们讲基于主题的采集的时候，并没有完全弄清楚一个问题——什么是主题。针对可变主题的信息采集系统，就像用户利用搜索引擎为自己服务时必须正确地选择查询词一样，我们必须有效的进行主题选择，这样才能采集到我们真正需要的主题页面。本章在对主题和主题分类目录作了详细的说明后，给出了我们的主题选择策略。

6.1 主题的定义

一个主题就是一个“含义”，或者叫一个“概念”。它可以是一个词，也可以是一个短语，甚至是一个段落，一篇文章。这个“概念”的范围可大可小，大的时候可以非常广泛，但此时它的意义也非常模糊；小的时候它可以非常狭义，而这时它的意义却非常具体。因此，基于主题的采集系统采集的页面数量根据主题概念的大小有很大的变化。

6.2 主题分类目录

图6.1 中国图书馆分类法

一般的搜索引擎返回给用户的结果不令用户满意的一个重要原因是系统获得查询关键词并不足以反映用户的需求，这很大程度上是因为关键词选择得不合适。基于主题的信息采集也面临着主题选择的困难。现实中的主题范围太广泛，杂乱无章，混乱无序，有些主题没有实际用途上的意义(比如，“如果，和”)；而有些主题又几乎不能引起人们的采集兴趣(比如，“跑”)。为此，有必要对主题进行统一的分类。这不光有利于固定主题的信息采集系统选择合适的主题范围和主题角度进行采集，而且还为多个此类采集系统联合采集更大范围的主题页面提供了有效的依据，还可以将主题分类推荐给可变主题采集系统前的用户，使他们的选择更加明智。

目前，很多基于主题的采集采用yahoo主题分类目录，当然也可以是其它分类目录，但所选择的分类目录应该分类比较合理，并具有一定的权威性。图6.1给出了中国图书馆分类法的第一级目录对整个主题进行的分类。

当然，这些基于主题的信息采集系统，在提供给用户主题分类目录的同时，仍然允许用户自由输入主题，以提高系统的灵活性。

6.3 Web上的主题分类目录的特点

Web上有许多分类目录（Directory）站点，如Yahoo!，Yellow Pages。一般有以下特点：

l 基本是树形结构。每个节点（叶节点除外）有数量不等的若干子节点。少数节点有不只一个父节点，因此不构成严格的树结构。节点依据知识本体论(Knowledge Ontology)划分。分类目录站点的主页一般只显示一、二级节点。

l 节点命名。每个节点有一个简短的命名。非根节点的全名是从根到该节点的路径上的所有节点的名称的顺序组合，如Business_and_Economy/Companies/Travel/ Agents。

l 节点内容。每个节点收集有若干URL，除了叶节点之外，每个节点有若干子节点。

l 维护。分类目录的维护一般是人工进行的，由分类目录站点雇佣专人分别负责各个子类，不断跟踪Web上的信息，这是大多数站点的主流做法。另一类做法是由志愿人员维护，个别站点可以有用户自己定制子树。

Web上主题分类目录的这些特点决定了系统提供给用户的是一个可层层深入的树状主题结构图。

6.4 主题选择策略

在本节里我们讨论的主题选择主要是针对可变主题的信息采集系统。从前文我们已经知道，一个主题可以是一个词语，一个句子，甚至一个段落。为了让用户能够有效的表达主题采集要求，采集系统一般要提供给用户一个主题分类目录，用户可以通过它选择一个最适合的主题进行采集，这个主题可以是树根、树枝，也可以是树叶。

为了增加相似度判定时候的有效性，系统还必须为每个主题提供一定数量的最能表达主题概念的样本文本，通过提取这些文本的特征，系统定量的掌握主题的含义。同时，为了体现对用户的针对性，系统允许用户对样本文件进行选择。

为此，用户可以在三个方面进行采集主题的选择：首先，用户在主体分类目录中寻找自己所要表达的主题；其次，对系统提供的样本文件进行选择，以使得它们能够完整的准确的表达自己的主题需求；第三，如果系统提供的主题选择文本不能全面完整的刻画自己的主题需求，或者主题分类目录中根本没有自己所需要的主题，则用户必须自己输入主题词和主题样本文件。这是和一般搜索引擎的关键词输入不同的。和关键词相比，主题词用更加定量的方法来描述，一般刻画的意义更准确、更全面，刻画手段更灵活、更方便。

posted on 2006-03-26 02:52 阿昆阅读(835) 评论(0) 收藏举报

刷新页面返回顶部

海纳百川有容乃大（http://www.brtech.com.cn）

公告

5.1 系统模型

5.2 模型中的关键问题及我们的策略

5.2.1主题的选择

5.2.2 采集起点的选择

5.2.3 Spider采集

5.2.4页面分析

5.2.5 URL与主题的相关性判定(链接过滤/链接预测))

5.2.6 页面与主题的相关性判定(页面过滤)

5.2.7 数据存储

第六章主题选择

6.1 主题的定义

6.2 主题分类目录

6.3 Web上的主题分类目录的特点

6.4 主题选择策略

海纳百川 有容乃大（http://www.brtech.com.cn）

公告

5.1 系统模型

5.2 模型中的关键问题及我们的策略

5.2.1主题的选择

5.2.2 采集起点的选择

5.2.3 Spider采集

5.2.4页面分析

5.2.5 URL与主题的相关性判定(链接过滤/链接预测))

5.2.6 页面与主题的相关性判定(页面过滤)

5.2.7 数据存储

第六章 主题选择

6.1 主题的定义

6.2 主题分类目录

6.3 Web上的主题分类目录的特点

6.4 主题选择策略

海纳百川有容乃大（http://www.brtech.com.cn）

第六章主题选择