参照官网给的指导,RunNutchInEclipse 过程比较麻烦,也总是不能成功,而官网上给推荐的Build Nutch 2.0 in Eclipse 由于需要FQ,懒得没看。
为了能将nutch2.0 成功导入eclipse,前段时间我简单看了一下nutch的ant编译过程,简单分析了一下build.xml脚本,大致了解了一下整个ant编译过程,进而了解了在此过程中各个工作的依赖关系:

同时简单看了一下runtime/local/bin/nutch脚本,大致了解了一下执行时的调用过程。
nutch的主要源代码在src/java里面,而这些源文件需要依赖src/pulgin下面的代码生成的一些插件和ivy标记的一些jar包资源。
这些plugin文件的编译打包过程是在nutch的核心代码(src/java下的代码)编译之前进行的,并作为core部分的依赖项,而这部分的内容我不需要修改,所以,为了方便自己,我可以直接使用这部分的编译结果,而不必管它这些plugin的源代码,所以,在下面的过程中没有导入plugin的源代码,而是直接使用了这些代码的编译结果。简单描述一下过程,以后会逐渐完善。
第一步:新建普通Java工程
第二步:将Nutch源码(路径是:Nutch根目录下“src/java/”下所有的文件)拷贝到java工程中的src目录下。
第三步:将Nutch运行依赖包加到class path中去。依赖包可以在Nutch根目录下runtime/local/lib文件夹中找到,切记不可全选,请排除apache-nutch-2.1.jar,否则当运行的时候,会首先去apache-nutch-2.1.jar中寻找配置文件。可能会报http.agent.name异常。(直接当依赖jars包导入工程即可)
第四步:将runtime/local/下的conf和plugins文件夹拷贝到java工程中去。此时,文件结构大致如下所示:
第五步:右键工程-》Properties-》Build Path-》选择Libraries-》点击Add Class Folder-》选择conf文件夹-》点击确定
第六步:右键Crawl.java文件-》Run As-》Run Configurations-》切换到Arguments选项卡-》加入运行参数,我的是官方例子中的参数,既:
因为我在早先配置好了solr,所以我的参数中带有solr的地址,大伙儿可以自行配置所需参数。
第二步:将Nutch源码(路径是:Nutch根目录下“src/java/”下所有的文件)拷贝到java工程中的src目录下。
第三步:将Nutch运行依赖包加到class path中去。依赖包可以在Nutch根目录下runtime/local/lib文件夹中找到,切记不可全选,请排除apache-nutch-2.1.jar,否则当运行的时候,会首先去apache-nutch-2.1.jar中寻找配置文件。可能会报http.agent.name异常。(直接当依赖jars包导入工程即可)
第四步:将runtime/local/下的conf和plugins文件夹拷贝到java工程中去。此时,文件结构大致如下所示:
第五步:右键工程-》Properties-》Build Path-》选择Libraries-》点击Add Class Folder-》选择conf文件夹-》点击确定
第六步:右键Crawl.java文件-》Run As-》Run Configurations-》切换到Arguments选项卡-》加入运行参数,我的是官方例子中的参数,既:
因为我在早先配置好了solr,所以我的参数中带有solr的地址,大伙儿可以自行配置所需参数。
最后附带两个链接,以后可能用得着,备份一下:
浙公网安备 33010602011771号