大数据学习之Hadoop(一)

安装hadoop

1、下载安装包

2、解压

3、修改hadoop配置信息,在hadoop的安装目录下找到

/software/hadoop-2.6.0/etc/hadoop

vi hadoop-env.sh

修改JAVA_HOME

JAVA_HOME=/usr/java/jdk1.8.0_351-amd64

4、将hadoop添加到环境变量

export HADOOP_HOME=/software/hadoop-2.6.0

export PATH=$HADOOP_HOME/bin:$PATH

5、测试运行:

1)建在 hadoop-2.7.2 文件下面创建一个 input 文件夹

2)将 hadoop 的 xml 配置文件复制到 input
  cp etc/hadoop/*.xml input

3)执行 share 目录下的 mapreduce 程序 

  bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+' 

4)查看输出结果
  cat output/*

6、启动HDFS

1)cd /software/hadoop-2.6.0/etc/hadoop

  配置:core-site.xml 

  configurations中添加:

<!-- 指定 HDFS 中 NameNode 的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020</value> </property>
<!-- 指定 hadoop 运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/app/tmp</value> </property>

 

2)配置hdfs-site.xml

<!-- 指定 HDFS 副本的数量 -->  <property>   <name>dfs.replication</name>   <value>1</value>  </property> 

<property>
<name>dfs .namenode.http-address</name>

<value>localhost:50070</value>

</property>

3)启动

(3.1)格式化 namenode(第一次启动时格式化,以后不需要)
  bin/hdfs namenode -format

 

 

 

 格式化成功

(3.2)启动 
  sbin/start-dfs.sh

  然后jsp看一下是否启动成功

问题来了:我的宿主机没法访问

然后我修改主机域名,修改host配置,关闭防火墙systemctl stop firewalld,最终可以访问了http://192.168.1.25:50070/dfshealth.html#tab-overview

7、启动yarn

1)cp mapred-site.xml.template mapred-site.xml

添加:(这个作用是指定mapreduce的调度框架是yarn)

<!-- 指定 mr 运行在 yarn 上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>

2)配置 yarn-site.xml 

<!-- reducer 获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
3)启动:./start-yarn.sh

 

 


 

 

 

posted @ 2023-03-08 00:11  董振  阅读(45)  评论(0)    收藏  举报