2011 年 11月 15 日随笔档案 - ljlxyf

2011年11月15日

摘要： Heritrix项目介绍 Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不同协议的爬虫爬行结果进行分析的。 Heritrix工作原理 Heritrix是一个爬虫框架，可加如入一些可互换的组件。它的执行是递归进行的，主要有以下几步：在预定的U... 阅读全文

posted @ 2011-11-15 11:06 ljlxyf 阅读(750) 评论(0) 推荐(0)

我爱技术

公告