随笔分类 - Lucene,Nutch,Hadoop,中文分词
also contains Heritrix,Solr
什么是Hadoop?
摘要:Hadoop是用java写的分布式计算平台。它主要包括了一个分布式文件系统HDFS和一个MapReduce计算模型,这两个模块的设计都是借鉴了 google在分布式系统上的经验。 "Hadoop is a Free Java software framework that supports data intensive distributed applications running on lar...
阅读全文
Nutch中MapReduce的分析[zz]
摘要:Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),...
阅读全文
nutch 0.9在Windows下的安装【zz】
摘要:一、环境: 1.操作系统:windowsXp,windows2000+ 2.java1.6,设置JAVA_HOME到环境变量 3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。 4.nutch版本:0.9 5.tomcat:6.0 二、nutch的安...
阅读全文
浙公网安备 33010602011771号