摘要: Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫: 能够以更高的带宽去站点爬。 主题爬虫: 集中于被选择的问题。 持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫: 对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。 Heritrix工作原理 Heritrix是一个爬虫框架,可加如入一些可互换的组件。它的执行是递归进行的,主要有以下几步:在预定的U... 阅读全文
posted @ 2011-11-15 11:06 ljlxyf 阅读(747) 评论(0) 推荐(0)