摘要:
参考官方文档:http://gora.apache.org/current/tutorial.html项目代码见:https://code.csdn.net/jediael_lu/mygorademo另环境准备见: http://blog.csdn.net/jediael_lu/article/de... 阅读全文
随笔档案-2015年01月
Linux 系统挂载数据盘
2015-01-30 18:13 by jediael, 248 阅读, 收藏,
摘要:
适用系统:Linux(Redhat , CentOS,Debian,Ubuntu)* Linux的云服务器数据盘未做分区和格式化,可以根据以下步骤进行分区以及格式化操作。下面的操作将会把数据盘划分为一个分区来使用。1、查看数据盘在没有分区和格式化数据盘之前,使用 “df –h”命令,是无法看到数据盘... 阅读全文
Gora快速入门
2015-01-30 09:55 by jediael, 126 阅读, 收藏,
摘要:
概述Gora是apache的一个开源项目。The Apache Gora open source framework provides an in-memory data model and persistence for big data. Gora supports persisting to ... 阅读全文
Gora官方范例
2015-01-29 16:14 by jediael, 148 阅读, 收藏,
摘要:
参考官方文档:http://gora.apache.org/current/tutorial.html项目代码见:https://code.csdn.net/jediael_lu/mygorademo一、环境准备1、下载gora并解压2、分别进入$GORA_HOME/gora-hbase/,$GOR... 阅读全文
在Eclipse中运行Nutch2.3
2015-01-28 16:41 by jediael, 181 阅读, 收藏,
摘要:
参考http://wiki.apache.org/nutch/RunNutchInEclipse一、环境准备1、下载nutch2.3源代码wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz或者下载正在开... 阅读全文
Nutch关于robot.txt的处理
2015-01-28 11:20 by jediael, 171 阅读, 收藏,
摘要:
在nutch中,默认情况下尊重robot.txt的配置,同时不提供配置项以忽略robot.txt。以下是其中一个解释。即作为apache的一个开源项目,必须遵循某些规定,同时由于开放了源代码,可以简单的通过修改源代码来忽略robot.txt的限制。From the point of view of ... 阅读全文
【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
2015-01-24 17:24 by jediael, 241 阅读, 收藏,
摘要:
1、下载相关软件,并解压版本号如下:(1)apache-nutch-2.3(2) hadoop-1.2.1(3)hbase-0.92.1(4)solr-4.9.0并解压至/opt/jediael。若要下载最新的开发版本nutch,可以进行以下操作 svn co https://svn.apache.... 阅读全文
搭建hbase-0.94.26集群环境
2015-01-24 17:14 by jediael, 163 阅读, 收藏,
摘要:
先安装hadoop1.2.1,见http://blog.csdn.net/jediael_lu/article/details/389264771、配置hbase-site.xml hbase.zookeeper.quorum master,slave1,slave2 hbase.... 阅读全文
hadoop配置文件的加载机制
2015-01-21 11:29 by jediael, 541 阅读, 收藏,
摘要:
hadoop通过Configuration类来保存配置信息1、通过Configuration.addResource()来加载配置文件2、通过Configuration.get***()来获取配置属性1、创建一个新的Configuration实例时,会加载core-default.xml与core-... 阅读全文
Nutch+Hadoop集群搭建
2015-01-18 10:55 by jediael, 182 阅读, 收藏,
摘要:
转载自:http://www.open-open.com/lib/view/open1328670771405.html1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件... 阅读全文
浙公网安备 33010602011771号