摘要:
nutch的爬虫和搜索可以说是分离的两块,爬虫可以是M/R作业,但搜索不是M/R作业。搜索有两种方式:一是将爬虫数据(或者称索引数据)放在本地硬盘,进行搜索。二是直接搜索HDFS中的爬虫数据。这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据:(1)Nutch的搜索可以独立于hadoop集群,只要将爬虫下来的数据copy到任何机器,在此机器上安装一个tomcat,并运行nutch自带的... 阅读全文
摘要:
从Hadoop技术论坛一个牛人那了解到,nutch-1.1使用的是hadoop-0.20.2,目前nutch-1.1还未发布,但在SVN上能够下载到,http://svn.apache.org/repos/asf/nutch/tags/1.1/ 用户可以chech out到Nutch-1.1nutch-1.1要正常运行要首先这样做: (1) nutch-default.xml下的plugin.fo... 阅读全文
摘要:
nutch-1.0命令行中搜索有结果,但是到web前端搜索,始终无结果,无论怎么配置,搜索关键字,一直提示以下令人郁闷的信息:第0-0项 (共有 0 项查询结果) 很是郁闷,今天终于解决了。 (1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索) nutch-site.xml必须配置... 阅读全文
摘要:
Linux下Nutch分布式配置和使用 目 录 介绍 0 集群网络环境介绍 1 /etc/hosts文件配置 2 SSH无密码验证配置 2.1配置所有节点之间SSH无密码验证 3 JDK安装和Java环境变量配置 3.1 安装 JDK 1.6 3.2 Java环境变量配置 4 Hadoop集群配置 5 Hadoop集群启动 6 Nutch分布式爬虫 6.1配置Nutch配置文件 6.2 执行Nu... 阅读全文