摘要: 今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespon... 阅读全文
posted @ 2014-08-22 14:49 LuisNalbandian 阅读(285) 评论(0) 推荐(0)
摘要: 今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ... 阅读全文
posted @ 2014-08-22 14:36 LuisNalbandian 阅读(219) 评论(0) 推荐(0)