hadoop集群配置

解压： tar -zxvf jdk-8u201-linux-x64.tar.gz -C /usr 和 tar -zxvf hadoop-2.6.5.tar.gz –C /home/xu 务必设定好解压目录。

tar -zxvf:参数z代表调用gzip压缩，v代表显示详细解压过程，x代表解压文件参数指令，f代表后接解压文件名。

五、配置文件

　　①jdk和hadoop的环境变量：在/etc/profile加入以下；

# JAVA HADOOP enviornment 
export JAVA_HOME=/usr/jdk1.8.0_201
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export HADOOP_HOME=/home/xu/hadoop-2.6.5
export PATH=.:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
export HADOOP_LOG_DIR=/home/xu/hadoop-2.6.5/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR

source /etc/profile 启用(每次开机都要，哎!)；键入java -version; hadoop 　查看是否配置成功！

　 ②对~/hadoop-2.6.5/etc/hadoop/下的hadoop-env.sh、yarn-env.sh、mapred-env.sh三个文件，更改 export JAVA_HOME=/usr/jdk1.8.0_201

　　③配置~/hadoop-2.6.5/etc/hadoop/下的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个文件。

本地windows上安装若干个linux，每个linux上搭建一个yarn操作系统。

yarn和其他操作系统一样用以管理cpu core、内外存等资源，为mapreduce作业提供支持。

hdfs(Hadoop Distributed File System)文件系统按网络地址划分，本地windows文件系统按物理磁盘划分，linux文件系统按功能划分。

hadoop按主从式架构，一个master-namenode +多个slave-datanode节点。现设定主机node作master，主机node1和node2作slaves。

　　④在~/hadoop-2.6.5/etc/hadoop/slaves加入slave的主机名，然后关机node。

点击虚拟机->管理->克隆->选择当前状态完整克隆出两个主机，然后配置静态ip和hostname 。

六、ssh免密登录

　·主机node1登录主机node2时，需要node2的用户密码或者node2的公钥加入node1的authorised_keys。

首先生成密钥 ssh-keygen -t rsa -P '' ；然后进入~/.ssh目录 cat id_rsa.pub >>authorized_keys

把生成的公钥追加到authorized_keys文件，就可以ssh登录本机了；对每个主机执行以下操作。

　·把node2的公钥id_rsa.pub发给node1 ssh-copy-id ~/.ssh/id_rsa.pub node2 ,这样node1可以无密登录node2，但反过来就不行。

现在我们把node的公钥也发给node1；查看：

　·把node1的这些复制给其他节点后 scp /root/.ssh/authorized_keys node:/root/.ssh/ ，node也能无密登录node2了。

·hadoop官网core-site.xml 配置信息

<configuration>
 <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node:9000/</value>
    <description>设定namenode的主机名和端口号，暂按下不表</description>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/xu/hadoop-2.6.5/tmp/hadoop-${user.name}</value>
    <description>记住存储临时文件目录，这在重新hdfs namenode  -format格式化前务必删除</description>
   </property>

   <property>
     <name>hadoop.proxyuser.hadoop.hosts</name>
     <value>*</value>
   </property>
   <property>
     <name>hadoop.proxyuser.hadoop.groups</name>
     <value>*</value>
   </property>
</configuration>

· hadoop官网hdfs-site.xml 配置信息

<configuration>
 <property>
   <name>dfs.namenode.http-address</name>
   <value>node:50070</value>
   <description>NameNode 地址和端口</description>
 </property>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>node1:50090</value>
   <description>SecondNameNode 地址和端口 </description>
 </property>

  <property>
    <name>dfs.replication</name>
    <value>2</value>
    <description>副本个数，配置默认是3</description>
  </property>

  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/name</value>
    <description>第二个目录，namenode上存储hdfs命名空间 </description>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/data</value>
    <description>第三个目录，datanode上数据块的物理存储位置</description>
  </property>
  <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/namesecondary</value>
    <description>第四个目录，设置secondarynamenode 存储临时镜像的本地文件系统路径</description>
  </property>

  <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
   <description>是否允许网页浏览HDFS文件</description>
  </property>
  <property>
    <name>dfs.stream-buffer-size</name>
    <value>131072</value>
    <description>这是128KB，默认4KB，作为Hadoop缓冲区用以读写HDFS文件</description>
  </property>
</configuration>

·hadoop官网mapred-site.xml 配置信息注意：路径下只提供了模板文件mapred-site.xml.template,需要cp一下再配置

<configuration>
<!--
      <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>　　
      </property>
replace to the next for the reason -->
  <property>
    <name>mapreduce.job.tracker</name>
    <value>hdfs://10.0.0.13:8001</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node:19888</value>
  </property>
</configuration>

·hadoop官网yarn-site.xml 配置信息 cp yarn-site.xml.template yarn-site.xml 后再配置

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node</value>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanger.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>

  <property>
   <name>yarn.resourcemanager.address</name>
   <value>node:8032</value>
  </property>
  <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>node:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>node:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>node:8033</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>node:8088</value>
  </property>
</configuration>

2020-06-02　14:30:56

posted @ 2021-12-09 10:01 shines87 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

xu98

hadoop集群配置

公告