Spiga

Nutch配置中遇到的问题以及解决过程-试用Apache Nutch 1.1

2010-09-03 17:16 by Register, 296 visits, 收藏, 编辑

1.安装JDK 6

2.安装Tomcat 6(安装目录避免空格出现)

3.安装Cygwin 最新版

4.安装Nutch 1.1 解压缩到Cygwin目录下apache-nutch-1.1目录

5.配置Nutch文件nutch-site.xml(:后的反斜杠去掉)

<configuration>
 <property>
  <name>http.agent.name</name>
  <value>nutch-1.0</value>
  <description>HTTP 'User-Agent'</description>
 </property>
 <property>
  <name>searcher.dir</name>
  <value>C:cygwin\apache-nutch-1.1\crawtest</value>
  <description>Path to root of crawl.</description>
 </property>
</configuration>

6.在Cygwin输入测试命令:

cd /

cd apache-nutch-1.1

bin/nutch crawl url.txt -dir crawtest -depth 3 -threads 4 >& crawl.log

其中url.txt是apache-nutch-1.1目录下手动建立的文件为抓取开始的url(http://www.cnblogs.com/

7.复制apache-nutch-1.1目录下nutch-1.1.war文件到Tomcat的webapps目录。重启tomcat。

8.在浏览器输入http://localhost:8080/nutch-1.1 

Tomcat的webapps目录下会自动解压nutch-1.1.war

9.修改Tomcat的webapps目录下nutch-1.1目录下webapps\nutch-1.1\WEB-INF\classes\nutch-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
 <property>
  <name>searcher.dir</name>
  <value>C:\\cygwin\\apache-nutch-1.1\\crawtest</value>
 </property>
</configuration>

10.重启tomcat。在浏览器输入http://localhost:8080/nutch-1.1/。输入查询关键词。!

遇到的问题如下:

1.Tomcat 5配置未生效。改用Tomcat 6成功。

2.Tomcat 安装目录有空格导致失效,卸载重新安装成功。

3.配置配置Nutch文件nutch-site.xml时未配置user-agent,导致抓取失败,从log中分析后改正。

4.配置配置Nutch文件nutch-site.xml时盘符的:号后面的反斜杠导致抓取失败,从log中分析后改正。

5.配置Tomcat的webapps目录下nutch-1.1目录下webapps\nutch-1.1\WEB-INF\classes\nutch-site.xml文件时失败,从网站查找解决方法为把反斜杠转换为双反斜杠。

6.配置Tomcat的webapps目录下nutch时,手动解压了文件,导致无法显示结果,后改为直接复制.war文件,用Tomcat自动解压成功。