摘要:
今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespon... 阅读全文
posted @ 2014-08-22 14:49
LuisNalbandian
阅读(285)
评论(0)
推荐(0)
摘要:
今天我们看看Nutch网页抓取,所用的几种数据结构:主要涉及到了这几个类:FetchListEntry,Page,首先我们看看FetchListEntry类:public final class FetchListEntry implements Writable, Cloneable实现了Writ... 阅读全文
posted @ 2014-08-22 14:36
LuisNalbandian
阅读(219)
评论(0)
推荐(0)

浙公网安备 33010602011771号