项长老

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

Centos 6.4   这是6系列的一个稳定版

JDK 7版本,hadoop许多组件是基于7开发的~ 6就跑不起来了~

Vmware。网卡设置VMNET8(NAT)

启动后,配置网络setup,然后重启网络service network restart

关闭图形界面init 3

设置securecrt文字风格

让系统默认不启动图形界面,修改/etc/inittab将启动级别改为3

修改主机名/etc/sysconfig/network

技巧:securecrt下alt+p打开sftp,命令put上传文件


 

1、安装jdk

2、安装hadoop

目录结构:

lib:本地库

share:hadoop的jar包

share\doc 帮助文档,可以删除

注意

share\hadoop\hdfs\hadoop-hdfs-2.4.1.jar hdfs核心包

share\hadoop\hdfs\lib\ hdfs依赖

例如hdfs开发导包时,注意导入这两个部分即可。

修改配置文件etc/:

hadoop-env.sh,hadoop的环境变量配置

  JAVA_HOME

core-site.xml 核心配置

  fs.defaultFS 默认的文件系统的uri(因为hadoop各组件是松耦合的),比如hdfs://hadoop1:9000

  hadoop.tmp.dir hadoop的工作目录,例如/usr/local/hadoop/data/

hdfs-site.xml 配置几个即可,其他都有默认值。blocksize默认128M,老版本64M

  dfs.replication 副本数

mapred-site.xml

  mapreduce.framework.name 设置mapred程序提交到哪个资源调度程序跑(jar包分发,分配运行的虚拟机...),例如yarn。如果不指定,则会在本地跑,不会进入集群

yarn-site.xml

  yarn.resourcemanager.hostname 设置yarn的老大resourcemanager,例如hadoop1

  yarn.nodemanager.aux-services 指定mapred程序里map产生的中间结果怎么传递给reduce,采用哪种机制。目前只有mapreduce_shuffle

slaves

  指定哪些机器上要启动dataname

 

3、关闭防火墙

service iptables stop 关闭

chkconfig iptables --list
chkconfig iptables off  禁止重启后自启

4、初始化hadoop

配置HADOOP_HOME,然后在PATH中加$HADOOP_HOME/bin

hadoop namenode -format  格式化hdfs

5、免密码登陆


 

测试hdfs

http://hadoop1:50070

hadoop fs -put a.tar.gz hdfs://hadoop1:9000/

hadoop fs -get hdfs://hadoop1:9000/a.tar.gz

测试mapreduce

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar pi 5 5

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /wc/in /wc/out

posted on 2016-02-12 20:52  项长老  阅读(234)  评论(0编辑  收藏  举报