hadoop学习笔记（一）

hadoop生态系统：

//jdk ，hadoop 压缩包存放目录 /home/softwares

//软件安装目录 /opt/modules

export JAVA_HOME=/opt/modules/jdk1.8.0_201

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JRE_HOME=$JAVA_HOME/jre

/hadoop-2.5.0 /etc/hadoop/hadoop-env.sh 配置java环境变量

本机模式（standalone）

mapreduce 程序运行在本地。

1.安装目录创建input文件夹

mkdir input

2.拷贝/etc/hadoop/*.xml到input文件夹

cp etc/hadoop/*.xml input/

3.执行example程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-xx.xx.xx.jar grep input output 'dfs[a-z.]+'

4.执行wordcount示例程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount wcinput wcoutput

伪分布式模式

etc/hadoop/core-site.xml:

<name>fs.defaultFS</name>

<value>hdfs://hadoop.fengyue.com:8280</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/modules/hadoop-2.5.0/data/tmp</value>

</property>

</configuration>

etc/hadoop/hdfs-site.xml:

<name>dfs.replication</name> //hdfs文件备份的数量

</property>

</configuration>

编辑如上2个xml文件。

2.hdfs文件系统格式化

bin/hdfs namenode -format

3.->/sbin

sbin/hadoop-daemon.sh start namenode //启动namenode元数据

sbin/hadoop-daemon.sh start datanode //启动datanode数据块

jps //查看进程

hostname:50070 //web端，查看hdfs

//创建一个文件系统

bin/hdfs dfs -mkdir -p /user./fengyue/

//查看hdfs目录结构

bin/hdfs dfs -ls -R /

//创建hdfs文件目录

bin/hdfs dfs -mkdir -p /user/fengyue/mapreduce/wordcount/input

//上传文件到指定目录

bin/hdfs dfs -put /XXX/XXX /user/fengyue/mapreduce/wordcount/input

//查看hdfs文件系统的文件

bin/hdfs dfs -cat /user/fengyue/mapreduce/wordcount/input/wc.input

//运行hdfs文件系统中mapreduce文件

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/fengyue/mapreduce/wordcount/input /user/fengyue/mapreduce/wordcount/output

配置单节点yarn

yarn 上运行 resoucemanager nodemanager

1.yarn-env.sh 配置JAVA_HOME

2.slave 配置

3.yarn-site.xml 配置

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop.fengyue.com</value> //hostname

</property>

启动yarn

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

jps查看服务

yarn web页面默认端口8088

配置mapreduce的运行环境为yarn：编辑 etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

配置mapred-env.sh JAVA_HOME

//删除hdfs 文件目录

bin/hdfs dfs -rm -R /user/fengyue/mapreduce/wordcount/output/

回顾：

//启动历史服务器

sbin/mr-jobhistory-daemon.sh start historyserver

//停止历史服务器

sbin/mr-jobhistory-daemon.sh stop historyserver

//日志聚集

yarn-site.xml

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

//配置文件

默认配置：

core-default.xml

hdfs-default.xml

mapred-default.xml

yarn-default.xml

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

//文件删除回收站保存被删除文件的时间

core-site.xml

fs.trash.interval

//启动方式

1.各个服务组件逐一启动

*hdfs

hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode

*yarn

yarn-daemon.sh start|stop resourcemanager|nodemanager

*mapreduce

mr-historyserver-daemon.sh start|stop historyserver

2.模块启动

*hdfs

start-dfs.sh

stop-dfs.sh

*yarn

start-yarn.sh

stop-yarn.sh

3.全部启动

start-all.sh

stop-all.sh

//各模块配置文件详解

---HDFS---

NameNode：core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://hadoop.fengyue.com:8280</value>

</property>

DataNode: salves

hadoop.fengyue.com

SecondaryNameNode : hdfs.xml

<property> //http

<name> dfs.namenode.secondary.http-address </name>

<value> hadoop.fengyue.com:50090</value>

</property>

<property> //https

<name> dfs.namenode.secondary.https-address </name>

<value> hadoop.fengyue.com:50090</value>

</property>

---YARN---

ResourceManager : yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

<value>hadoop.fengyue.com</value>

</property>

NodeManager : salves

hadoop.fengyue.com

----MapReduce----

historyServer：mapred-default.xml

<name>mapreduce.jobhistory.address</name>

<value>hadoop.fengyue.com:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop.fengyue.com:19888</value>

</property>

posted @ 2019-03-23 16:04 追尾巴的小猪0617 阅读(235) 评论(0) 收藏举报

刷新页面返回顶部

追尾巴的小猪

hadoop学习笔记（一）

公告