主题网络爬虫

Posted on 2009-04-02 10:14 pual.k3 阅读(461) 评论(1) 编辑 收藏

 主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL 队列中; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。

主题网络爬虫的基本思路就是按照事先给出的主题, 分析超链接和

 

已经下载的网页内容, 预测下一个待抓取的URL 以及当前网页的主题相关度, 保证尽可能多地爬行、下载与主题相关的网页, 尽可能少地下载无关网页。相对于通用网络爬虫, 主题网络爬虫需要解决以下四个主要问题:
a) 如何描述或定义感兴趣的主题( 即抓取目标) ?
b) 怎样决定待爬行URL的访问次序? 许多主题网络爬虫根据己下载网页的相关度, 按照一定原则将相关度进行衰减,分配给该网页中的子网页, 而后将其插入到优先级队列中。此时的爬行次序就不是简单地以深度优先或广度优先顺序, 而是按照相关度大小排序, 优先访问相关度大的URL。不同主题网络爬虫之间的区别之一就是如何计算URL的爬行次序。
c) 如何判断一个网页是否与主题相关? 对于待爬行或己下载的网页可以获取它的文本内容, 所以可以采用文本挖掘技术来实现。因此不同主题网络爬虫间的区别之二就是如何计算当前爬行网页的主题相关度。

d) 怎样提高主题网络爬虫的覆盖度? 如何穿过质量不好( 与主题不相关) 的网页得到与用户感兴趣主题相关的网页,从而提高主题资源的覆盖度?对于主题网络爬虫性能的评价, 目前主要是基于harvestrate 来评价。Harvest rate 就是主题相关网页数目占所有抽取网页总数的比率:
harvest rate = numbers of relevant
pages/ numbers of all retrival pages

Feedback

#1楼  回复 引用 查看   

2009-08-02 20:28 by geo898      
好文章!

相对于抓取主题相关的链接,我更偏爱抓取主题相关的内容并且进行格式化,以便向语义网络倡导的linked data方向发展。所以,我制作的定题爬虫的很大部分代码是将自由文本格式化成有结构的数据。MetaSeeker工具包就是为此目的设计的,其中MetaStudio工具是免编程目标内容提取规则定制工具,也是数据结构定义工具,而DataScraper工具是定题爬虫而且对提取的数据进行格式化,存储成XML文件,而SliceSearch工具是一个异构数据对象搜索引擎,同一般的垂直搜索只支持同构数据不同,也与普通搜索引擎只支持自由文本不同,能够利用数据结构提现出来的语义对数据对象进行索引和搜索。

以上软件免费使用,而且代码可读,下载地址:http://www.***

用这个工具包制作的异构数据搜索引擎位于:http://www.metaseeker.cn/projectsearch/home.htm

欢迎批评指正,多多切磋。

posts - 10, comments - 3, trackbacks - 0, articles - 0

Copyright © pual.k3