Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建

前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。

本文出自 “守望者MS” 博客,谢绝转载!

目录:

1.Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建

2.Nutch1.2二次开发详细攻略(二)【图文】------Windows平台下Nutch1.2的搭建

3.Nutch1.2二次开发详细攻略(三)【图文】------Nutch1.2二次开发(关于界面修改)

4.Nutch1.2二次开发详细攻略(四)【图文】------Nutch1.2二次开发(关于中文分词)

一、开发环境介绍(以我个人为例):

个人开发端:windows Server 2003 + Cygwin + Eclipse3.2

二、具体步骤:

1.下载并安装Cygwin(http://cygwin.com/install.html)

<1>.安装Cygwin

点击下载好的setup.exe

image

选择下一步。

image

选择第一项Install from Internet。

image

选择安装目录(视个人情况而定)。下一步

image

选择从网上下载的Package的存放目录。下一步

image

如果你本机现在不是用代理上网,请默认选择第一项并点击下一步。

image

选择cygwin镜像下载站点,现在国内提供镜像的只有163,所以国内的用户默认选择第一项是比较好的选择。

接下来的一步是最重要,也是我要重点强调的,我初次接触Nutch,并在windows平台下安装Cygwin时,参阅网上资料说这一步应该选择全部安装,否则会很多错误,当时信以为真,为避免后面开发出现错误,于是选择下载全部package,无奈在服务器上下载了2天,都没有下载完成。最后经过实践证明,这一步执行默认的选项即可(整个安装过程只需耗费5分钟左右),没有必要全部下载所有的包。详情见下图。

image

关于Cygwin接下来安装就是一直点击下一步即可。

<2>.配置cygwin

安装完毕cygwin之后,最重要的操作就是为Cygwin配置环境变量。

在编辑系统变量中的Path,在期变量值中添加上你的Cygwin安装目录下bin文件夹的绝对路径。

例如我的是G:\cygwin\bin.

image

至此,在windows平台上开发搭建Nutch的第一步已完成,成功安装cygwin。

posted @ 2011-07-27 15:12  守望者MS  阅读(3650)  评论(1编辑  收藏  举报