主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL 队列中; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
主题网络爬虫的基本思路就是按照事先给出的主题, 分析超链接和
已经下载的网页内容, 预测下一个待抓取的URL 以及当前网页的主题相关度, 保证尽可能多地爬行、下载与主题相关的网页, 尽可能少地下载无关网页。相对于通用网络爬虫, 主题网络爬虫需要解决以下四个主要问题:
a) 如何描述或定义感兴趣的主题( 即抓取目标) ?
b) 怎样决定待爬行URL的访问次序? 许多主题网络爬虫根据己下载网页的相关度, 按照一定原则将相关度进行衰减,分配给该网页中的子网页, 而后将其插入到优先级队列中。此时的爬行次序就不是简单地以深度优先或广度优先顺序, 而是按照相关度大小排序, 优先访问相关度大的URL。不同主题网络爬虫之间的区别之一就是如何计算URL的爬行次序。
c) 如何判断一个网页是否与主题相关? 对于待爬行或己下载的网页可以获取它的文本内容, 所以可以采用文本挖掘技术来实现。因此不同主题网络爬虫间的区别之二就是如何计算当前爬行网页的主题相关度。
d) 怎样提高主题网络爬虫的覆盖度? 如何穿过质量不好( 与主题不相关) 的网页得到与用户感兴趣主题相关的网页,从而提高主题资源的覆盖度?对于主题网络爬虫性能的评价, 目前主要是基于harvestrate 来评价。Harvest rate 就是主题相关网页数目占所有抽取网页总数的比率:
harvest rate = numbers of relevant
pages/ numbers of all retrival pages
浙公网安备 33010602011771号