随笔分类 -  Hadoop

Hadoop, MapReduce, Hbase, Hive
摘要:GettingStarted Skip to end of metadataAdded by Confluence Administrator, last edited by Travis Powell on Aug 08, 2011 (view change)show commentGo to start of metadataTable of ContentsHive introduction videos From ClouderaInstallation and ConfigurationRequirementsInstalling Hi... 阅读全文
posted @ 2011-11-11 17:34 Jonson Li 阅读(607) 评论(0) 推荐(0)
摘要:增加Hadoop新节点:向一个正在运行的Hadoop集群中增加几个新的Nodes1.新节点上部署java/hadoop程序,配置相应的环境变量2.新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3.新节点上设置/etc/hosts,只要有本机和master的host即可/etc/hosts127.0.0.1 localhost10.10.10.101 node110.10.10.102 node210.10.10.103 node310.10.10.104 node44.新节点上建立相关的目录,并修改属主,将Node4之中 ~/tmp目录下的内容都 阅读全文
posted @ 2011-11-10 18:06 Jonson Li 阅读(834) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh进入HADOOP_HOME目录。执行sh bin/stop-all.sh关闭Hadoop文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。查看文件列表查看hdf 阅读全文
posted @ 2011-11-09 12:49 Jonson Li 阅读(448) 评论(0) 推荐(0)
摘要:无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。本次操作之前,Hadoop的集群情况如下:HDFS的机器情况如下:MR的机器情况如下:添加机器在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名:hp3hp2dell1dell2dell3dell4然后在Master机器中执行如下命令:$HADOOP_HOME/bin/start-all.sh这样操作完成之后,新的机器就添加到集群中来了。HDFS集群增加了一台新的机器:MR集群中也新增了一台机器:删除机器不安全的方式由于Hadoop集群自 阅读全文
posted @ 2011-11-09 12:43 Jonson Li 阅读(264) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/gpcuster/archive/2010/02/25/1673480.htmlHWI是Hive Web Interface的简称,是hive cli的一个web替换方案。关于如何搭建Hive平台,可以参考:搭建Hive平台但是目前这个功能做的比较简陋,这篇文章我们一起来看看如何使用hive-0.4.1中自带的hwi来进行操作。打开HWI假设hive部署在10.20.151.7机器上,conf/hive-default.xml文件都是默认值,那么我们直接在浏览器中输入:http://10.20.151.7:9999/hwi/ 就可以访问了。访问sc 阅读全文
posted @ 2011-11-09 12:42 Jonson Li 阅读(662) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/gpcuster/archive/2010/02/24/1672635.htmlHive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。本文讲解如何搭建一个Hive平台。假设我们有3台机器:hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2(hive支持的Hadoop版本很多),hosts文件配置正确。Hive部署在hadoop1机器上。最简单,最快速 阅读全文
posted @ 2011-11-09 12:35 Jonson Li 阅读(411) 评论(0) 推荐(0)
摘要:http://ilovejavaforever.iteye.com/blog/733247一、 Hadoop环境搭建 首先在Apache官网下载hadoop的包hadoop-0.20.2.tar.gz。 解压hadoop-0.20.2.tar.gz包,具体命令如下: tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是,tar 包用xvf ,gz包用zxvf。在安装中,如果遇到识别问题,或者无法解压,很有可能是权限问题,解决方案是修改此文件的使用权限,命令如下: chmod 777 hadoop-0.20.2.tar.gz 其中,777为所有权限。 如果依然报错,如:A. 阅读全文
posted @ 2011-11-09 12:09 Jonson Li 阅读(529) 评论(0) 推荐(0)
摘要:今天在hadoop集群环境下需要将两台datanode删除,为了不影响在运行业务,需对节点进行动态删除,记录操作过程如下:1, 从集群中移走节点,需要对移走节点的数据进行备份:在主节点的core-site.xml配置文件中添加如下内容:<property> <name>dfs.hosts.exclude</name> <value>/home/hadoop/hadoop/conf/excludes</value></property>说明dfs.hosts.exclude:指要删除的节点/home/hadoop/hadoo 阅读全文
posted @ 2011-11-08 23:38 Jonson Li 阅读(624) 评论(0) 推荐(0)
摘要:http://developer.yahoo.com/hadoop/tutorial/index.htmlTable of ContentsWelcome to the Yahoo! Hadoop Tutorial. This tutorial includes the following materials designed to teach you how to use the Hadoop distributed data processing environment:Hadoop 0.18.0 distribution (includes full source code)A virt 阅读全文
posted @ 2011-11-08 23:33 Jonson Li 阅读(297) 评论(0) 推荐(0)
摘要:Hadoop添加节点的方法 1.将cluster停止。 2. 在新加的节点上配置好环境,包括ssh,jdk,并将其它datanode上的hadoop和hbase文件夹全部copy过去; 3. 将新的datanode的host加到集群namenode及其他datanode中去; 4. 将新的datanode的host加到master的conf/slaves中; 5. 再次启动cluster,在cluster中看到新的datanode节点; 5. 运行bin/start-balancer.sh,平衡数据。备注: 1.balance是为了平衡数据,如果不执行该命令,cluster将会把新的数据都存放 阅读全文
posted @ 2011-11-08 23:31 Jonson Li 阅读(818) 评论(0) 推荐(0)
摘要:root@u1:/home/sa/hod/hadoop-0.20.1# bin/hadoop fs -put ./conf/core-site.xml /inputroot@u1:/home/sa/hod/hadoop-0.20.1# bin/hadoop jar hadoop-*-examples.jar wordcount /input /output2root@u1:/home/sa/hod/hadoop-0.20.1# bin/hadoop jar hadoop-*-examples.jarAn example program must be given as the first ar 阅读全文
posted @ 2011-11-08 22:38 Jonson Li 阅读(703) 评论(0) 推荐(0)
摘要:Hadoop MapReduce是一个软件框架(framwork),这个架构的目的是方便程序员在大规模集群(可大到上千台结点)上处理超大规模数据(可多到数T),而且MapReduce的可靠性和fault-tolerant特性都很好。一个MapReduce job 会把输入数据分割成独立的若干块,这些数据块由map tasks并行处理。MapReduce framework把map task的输出进行排序,作为reduce task的输入。通常job的输入和输出都被保存在文件系统中。Framework负责调度,监控这些任务,而且会重复执行那些失败的task。一般情况下,计算集群和存储集群是一样的 阅读全文
posted @ 2011-11-08 21:56 Jonson Li 阅读(311) 评论(0) 推荐(0)
摘要:本文继续来看Mapper的实现。Mapper01publicstaticclassMap02extendsMapper<LongWritable,Text,Text,IntWritable>{03privatefinalstaticIntWritableone=newIntWritable(1);04privateTextword=newText();0506publicvoidmap(LongWritablekey,Textvalue,Contextcontext)07throwsIOException,InterruptedException{08Stringline=valu 阅读全文
posted @ 2011-11-08 21:56 Jonson Li 阅读(346) 评论(0) 推荐(0)
摘要:本文通过官方文档中的word count例子来学习如何利用Hadoop进行分布式计算。1. Inputs and Outputs任何一个程序,都需要有输入和输出,Hadoop MapReduce框架只能操作<Key, Value>对,就是说Hadoop的输入和输出都是<Key, Value>对,当然,key和value可以有多种类型。key和value会被Hadoop序列化。Hadoop默认的序列化机制要求key和value实现Writable接口。除此之外,key还必须能够被排序,所以,需要让key实现WritableComparable接口。下面是一个MapRedu 阅读全文
posted @ 2011-11-08 21:54 Jonson Li 阅读(381) 评论(0) 推荐(0)