会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jinhong_lu
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
28
下一页
2015年1月28日
Nutch关于robot.txt的处理
摘要: 在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。From the point of view of ...
阅读全文
posted @ 2015-01-28 11:20 lujinhong
阅读(205)
评论(0)
推荐(0)
2015年1月24日
【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
摘要: 1、下载相关软件,并解压版本号如下:(1)apache-nutch-2.3(2) hadoop-1.2.1(3)hbase-0.92.1(4)solr-4.9.0并解压至/opt/jediael。若要下载最新的开发版本nutch,可以进行以下操作 svn co https://svn.apache....
阅读全文
posted @ 2015-01-24 17:24 lujinhong
阅读(348)
评论(0)
推荐(0)
搭建hbase-0.94.26集群环境
摘要: 先安装hadoop1.2.1,见http://blog.csdn.net/jediael_lu/article/details/389264771、配置hbase-site.xml hbase.zookeeper.quorum master,slave1,slave2 hbase....
阅读全文
posted @ 2015-01-24 17:14 lujinhong
阅读(165)
评论(0)
推荐(0)
2015年1月21日
hadoop配置文件的加载机制
摘要: hadoop通过Configuration类来保存配置信息1、通过Configuration.addResource()来加载配置文件2、通过Configuration.get***()来获取配置属性1、创建一个新的Configuration实例时,会加载core-default.xml与core-...
阅读全文
posted @ 2015-01-21 11:29 lujinhong
阅读(232)
评论(0)
推荐(0)
2015年1月18日
Nutch+Hadoop集群搭建
摘要: 转载自:http://www.open-open.com/lib/view/open1328670771405.html1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件...
阅读全文
posted @ 2015-01-18 10:55 lujinhong
阅读(410)
评论(0)
推荐(0)
2014年12月21日
【Nutch基础教程之七】Nutch的2种运行模式:local及deploy
摘要: 在对nutch源代码运行ant runtime后,会创建一个runtime的目录,在runtime目录下有deploy和local 2个目录。[jediael@jediael runtime]$ lsdeploy local这2个目录分别代表nutch的2种运行方式:部署模式及本地模式。1、nutc...
阅读全文
posted @ 2014-12-21 09:40 lujinhong
阅读(356)
评论(0)
推荐(0)
2014年12月14日
在Eclipse中运行hadoop程序
摘要: 1、下载hadoop-eclipse-plugin-1.2.1.jar,并将之复制到eclipse/plugins下。2、打开map-reduce视图在eclipse中,打开window——>open perspetive——>other,选择map/reduce。3、选择Map/Reduce Lo...
阅读全文
posted @ 2014-12-14 11:11 lujinhong
阅读(405)
评论(0)
推荐(0)
2014年12月5日
Hadoop文件的基本操作
摘要: Hadoop提供了大量的API对文件系统中的文件进行操作,主要包括:(1)读取文件(2)写文件(3)读取文件属性(4)列出文件(5)删除文件1、读取文件以下示例中,将hdfs中的一个文件读取出来,并输出到标准输出流中。package org.jediael.hadoopdemo.fsdemo;imp...
阅读全文
posted @ 2014-12-05 11:36 lujinhong
阅读(268)
评论(0)
推荐(0)
2014年8月29日
安装hadoop1.2.1集群环境
摘要: 一、规划(一)硬件资源10.171.29.191 master10.173.54.84 slave110.171.114.223 slave2(二)基本资料用户: jediael目录:/opt/jediael/二、环境配置(一)统一用户名密码,并为jediael赋予执行所有命令的权限#passwd#...
阅读全文
posted @ 2014-08-29 15:49 lujinhong
阅读(118)
评论(0)
推荐(0)
Linux上安装JDK
摘要: 1、下载rpm文件并安装rpm -ivh jdk-7u51-linux-x64.rpm2、修改/etc/profile文件,增加以下配置export JAVA_HOME=/usr/java/jdk1.7.0_51export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JA...
阅读全文
posted @ 2014-08-29 15:12 lujinhong
阅读(154)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
28
下一页
公告