第十章 系统的实现与总结
10.1 系统实现情况
文本的研究工作是在中科院计算所领域前沿青年基金课题“构筑个性化信息空间的基础模型研究”的资助下进行的。系统是在原有基于站点采集的天罗采集系统的基础上改进实现的。
原有的天罗信息采集系统是一个采集性能较高的实用系统,它是我们“天罗”Internet/Intranet智能导航平台、搜索引擎、采集转播、内容安全、报警平台、主机攻击等项目的核心和基础。它也是一个采集能力强大的采集系统,能够采集包括Web网页、FTP文件、Web 聊天、Web BBS、Telnet BBS以及OICQ聊天室等多种信息。
但是随着应用的不断发展,我们也深感到需要进行基于主题的信息采集的研发工作。作为在这个领域的实践性探索,我们设计了一个基于主题的Web信息采集的模拟系统。主要目标为设计一个基于主题的采集系统结构模型,并在此基础上进行我们提出的URL预测算法的测试,同时也测试主题采集、URL预测和页面过滤几个问题的实际收效。
10.2 系统测试结果
10.2.1测试集的选择
我们选择了旅游信息作为主题进行测试,收集了旅游主题网站20个,并加入了60个无关网站组成测试集,其中共含超过20000个页面。
10.2.2衡量指标
为了综合评价系统的主题收集效率,除了采集的准确性(Precision)外,还有定义了采集的资源发现率(recall)。
采集的准确率Pr定义为:
Pr=已采集页面中主题相关的页面数目/已经采集的所有页面数
采集的资源发现率定义为:
Re=已采集页面中主题相关的页面数目/所有主题相关的页面数
10.2.3 对URL与主题相关性判定算法的测试
10.2.3.1测试方法
我们用相同的初始URL集合,分别用宽度优先算法、基于扩展元数据的RW算法、基于扩展元数据的RWB算法、PageRank算法、IPageRank-RW算法、IPageRank-RWB算法对数据进行采集。为了有效地得到各个方法的准确效果,我们在实验中暂停了页面与主题相关性判定模块。在实验中,我们分别记录下采集页面数为500,1000,1500,…,4000时的页面数量及状态,并及时的计算出采集准确率和资源发现率。
在计算采集准确率和资源发现率时,必须知道有多少页面是和主题相关的,我们仍然采用了基于关键词的向量空间模型(VSM)以及利用夹角预余旋公式10.1进行相关度计算,并通过阈值来判断是否相关。尽管这种方法的判定正确率没有人工方法准确,但机器的自动判定却节约了大量的时间。
公式10.1
10.2.3.2测试结果与分析
比较 算法 |
采集准确率 |
资源发现率 |
宽度优先
|
41% |
40% |
RW
|
91% |
49% |
RWB
|
76% |
68% |
PageRank
|
29% |
30% |
IPageRank-RW
|
68% |
86% |
IPageRank-RWB
|
63% |
92% |
图10.1 各种算法的采集准确率和资源发现率比较
图10.1显示了各种方法的优劣。在采集准确率方面,排名由低到高为PageRank算法(29%)、宽度优先算法(41%)、IPageRank-RWB算法(56%)、IPageRank-RW算法(60%)、RWB算法(76%)、RW算法(91%)。在资源发现率方面,排名由低到高为PageRank算法(30%)、宽度优先算法(41%)、RW算法(49%)、RWB算法(68%)、IPageRank-RW算法(86%)、IPageRank-RWB算法(92%)。PageRank方法之所以准确率和发现率都最差,是因为它优先采集的都是基于普遍主题重要的页面,并没有向任何一个主题倾斜,因此,它的准确率和发现率都约等于相关主题页面在整个页面集中的比重。宽度优先算法在准确率和发现率两方面都好于PageRank算法是因为Linkage Locality现象的存在(即被相关于某一主题的页面链接到的页面趋向于拥有同一主题)。基于扩展的元数据的RW算法和RWB算法都表现出了很高的准确率(RW算法比RWB还要好),但却在资源发现率方面表现的不尽如人意,而且可能出现“停滞现象”(由于满足采集条件的页面数较少而采集完毕,而实际还有很多该采集的页面没有采集)。IPageRank-RW算法和IPageRank-RWB算法是RW/RWB算法和PageRank算法的折衷,它们即继承了RW/RWB算法采集准确率高的特点,又利用了PageRank较早的发现了相关于主题的重要页面,并且能够对“隧道”进行有效的采集(在Web中,有时在某两个相关于主题的页面之间会有若干个不相关于主题的页面存在,我们把这种现象称为“隧道现象”),进而提高了资源发现率。
总之,我们认为,IPageRank方法对基于主题的采集有较好的性能和较好的信息准确率和资源发现率的结合点。在IPageRank算法中,IPageRank-RWB略优于IPageRank-RW。
比较 算法 |
算法代价 |
采集准确率的变化 |
宽度优先 |
小 |
开始准确率高,然后迅速降低 |
RW
|
较小 |
变化率不大 |
RWB |
较小 |
变化率不大,但偶尔有突然上升 |
PageRank
|
适中 |
变化率不大 |
IPageRank-RW |
较大 |
随时间推移略微先升后降 |
IPageRank-RWB |
大 |
随时间推移略微先升后降,偶尔有突然上升 |
图10.2 各种算法的特点
图10.2又定性的比较了六种算法的两个方面:算法代价和采集准确率的变化。关于算法代价,宽度优先算法代价最小,相当于没有做任何相似度的计算和比较。RW/RWB算法只是做了每个链接中的扩展元数据的比较,因为扩展元数据的信息量很小,所花的时空代价都很小,但比起宽度优先算法又显得复杂一些。PageRank算法需要计算每个页面的PageRank值,并且对于采集来说,为了有效的指导采集,它必须在很短的时间内重新计算PageRank值,以使得它更加准确的反映页面的重要性。比如采用每采集100页计算一次PageRank值。IPageRank-RW和IPageRank-RWB算法的时空代价则较大,在计算每页的IPageRank值时,要计算很多相关链接的RW/RWB值,这较大的增加了算法的复杂性。幸运的是,我们可以采用优化方法(例如对大量连接的RW/RWB值进行缓存)降低其计算的复杂性,不过,它与前面几种方法相比,还是要复杂一些,代价大概是PageRank方法的几倍。
采集准确率的变化则从另一角度反映了各个算法的特性。宽度优先算法最为特别,它一开始的采集准确率非常高,这主要是因为初始url都是一些与主题相关度较高的url,而Linkage Locality现象 (即被相关于某一主题的页面链接到的页面趋向于拥有同一主题) 的存在又保证了接下来采集的url主题相关度也很高,但不久蔓延到非相关性url,此时它的采集准确率就大大降低了。RW/RWB算法变化率不大,它们比较平稳。PageRank也变化率不大,但我们认为它与RW/RWB算法情况有所不同,PageRank值大的页面往往是真正的好页,但对于某个具体的主题却并不一定好,反而显得又横很强的盲目性和随机性,这样表现的变化率也比较平稳。而对于IPageRank-RW算法和IPageRank-RWB算法来说,PageRank发现真正重要的页面的特性表现出来,开始,真正重要的页面被先采集,采集准确率增加,到一定时候,开始采集那些质量并不太高的页面,采集的准确率有所下降。对于RWB算法中和IPageRank-RWB算法中出现的偶尔突然上升,我们认为是发现“隧道”尽头的高质量页面团所致。
10.2.4性能测试
结果 指标 |
测试结果 |
评价 |
采集速度
|
15页/秒 |
较快(优点) |
最终采集页面的准确率 |
76% |
较高(优点) |
最终资源发现率
|
80% |
较高(优点) |
内存的占用 |
30M (估计值) |
较大(缺点) |
图10.3 系统评价指标
如图10.3所示,我们的测试平台为一台CPU为Intel PIII 800、内存为128兆、操作系统为Window2000 Professional的计算机,在采集时候,系统的采集端设置了10个线程,采用的URL预测算法为IPageRank-RWB。所测试的性能指标包括从Web上的基于主题的采集速度、最终采集页面的准确率、采集页面的资源发现率、内存的占用大小。为了更好的屏蔽无关因素影响,系统的测试环境除了采集速度是在真实Web上的,其它各项都在本地硬盘进行。因为运行环境是多任务的,故图10.3中的运行时间为近似值,也有许多估计的成分。
从图10.3中的测试结果我们发现,最终采集页面的准确率要高于只采用URL预测算法IPageRank-RWB的准确率,这主要是因为页面过滤算法进一步提高的页面的准确率,但是同时最终资源发现率却要低于只采用URL预测算法IPageRank-RWB的资源发现率,这也是页面过滤算法导致的,它去掉了一些指向Tunnel的页面,因此减少了资源发现率。
总的来说,模拟系统的设计是成功的,基本达到了预期的测试效果
103 进一步的工作
基于主题的Web信息采集已经取得了一定突破,但仍有许多工作要做。
1) 由于测试的难度,我们对IPageRank算法的测试并没有做到完全的定量计算,测试数据集也不能完全反映普遍规律。所以结果还有待在大数据集合中进一步验证,
2) PageRank通过叠代是可收敛的,已经有人证明,但IPageRank叠代的收敛性并没有得到证明,这也是我们下一步的工作。
3) 在提出的一些算法中,比如IPageRank-RWB,一些必要的参数的设定往往需要根据实际运行的调整,目前并没有找到这些参数理想的设定值,这些工作需要在不断的实践中来完成。
4) 页面过滤在带来提高采集准确率好处的同时,也降低了主题页面资源发现率。如何设定页面过滤时的阈值参数,将极大的影响着带来的好处与副作用的比例。这个值的寻找,目前的工作仍做的不够。
5) 基于主题的采集的核心问题就是采集时向主题页面群的引导问题和对无关页面的过滤问题,需要进一步研究出新算法的算法。
6) 对于主题页面在Web上的分布规律,还有待进一步发现,而对这些规律的有效利用,也还有待进一步的提高。
10.4 结论
随着人们对Web服务种类和质量要求的越来越高,这种新型的采集思想应运而生。为此,我们展开了基于主题的Web信息采集技术的研究,并设计了一个模拟系统。在原有技术的基础上,我们又设计出许多独具特色的新算法,比如Spider采集、标题提取、URL主题预测AMH以及页面与主题相关性的判定,特别地,我们对著名的Google算法进行了改进,以使得它即适合基于主题的采集,又保持了原来的优势。实验表明基于主题的采集优势是明显的。随着Web服务朝个性化方向的迈进、Agent技术的发展、迁移式思想的出现,单纯的为了检索的Web信息采集技术必将向着基于主题以及个性化主动信息采集服务方向全方位拓展。