星云外

2010年4月5日

测试nutch-1.0的IndexWriter

摘要: public static void main(String[] args) throws IOException{ String indexPath = "F:\\nutch\\test1"; LuceneWriter writer = new LuceneWriter(); Configuration conf= NutchConfiguration.create(); JobConf job... 阅读全文

posted @ 2010-04-05 22:01 星云外 阅读(349) 评论(0) 推荐(0)
Nutch中MapReduce的分析

摘要: Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链... 阅读全文

posted @ 2010-04-05 11:30 星云外 阅读(820) 评论(0) 推荐(0)