hadoop集群配置

 解压 tar -zxvf jdk-8u201-linux-x64.tar.gz -C /usr  tar -zxvf hadoop-2.6.5.tar.gz –C /home/xu  务必设定好解压目录

 tar -zxvf:参数z代表调用gzip压缩,v代表显示详细解压过程,x代表解压文件参数指令,f代表后接解压文件名。

五、配置文件

  jdk和hadoop的环境变量:在/etc/profile加入以下; 

# JAVA HADOOP enviornment 
export JAVA_HOME=/usr/jdk1.8.0_201
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export HADOOP_HOME=/home/xu/hadoop-2.6.5
export PATH=.:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
export HADOOP_LOG_DIR=/home/xu/hadoop-2.6.5/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR

  source /etc/profile 启用(每次开机都要,哎!);键入java -version; hadoop  查看是否配置成功!

     ~/hadoop-2.6.5/etc/hadoop/下hadoop-env.sh、yarn-env.sh、mapred-env.sh三个文件,更改 export JAVA_HOME=/usr/jdk1.8.0_201 

  配置~/hadoop-2.6.5/etc/hadoop/下的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个文件。  

本地windows上安装若干个linux,每个linux上搭建一个yarn操作系统。   

yarn和其他操作系统一样用以管理cpu core、内外存等资源,为mapreduce作业提供支持。 

hdfs(Hadoop Distributed File System)文件系统按网络地址划分,本地windows文件系统按物理磁盘划分,linux文件系统按功能划分。

hadoop按主从式架构,一个master-namenode +多个slave-datanode节点。现设定主机node作master,主机node1和node2作slaves。

  在~/hadoop-2.6.5/etc/hadoop/slaves加入slave的主机名 ,然后关机node。

点击虚拟机->管理->克隆->选择当前状态完整克隆出两个主机,然后配置静态ip和hostname 。


  六、ssh免密登录

 ·主机node1登录主机node2时,需要node2的用户密码 或者node2的公钥加入node1的authorised_keys。

首先生成密钥 ssh-keygen -t rsa -P '' ;然后进入~/.ssh目录 cat id_rsa.pub >>authorized_keys 

把生成的公钥追加到authorized_keys文件,就可以ssh登录本机了;对每个主机执行以下操作。

   

  ·把node2的公钥id_rsa.pub发给node1 ssh-copy-id ~/.ssh/id_rsa.pub node2 ,这样node1可以无密登录node2,但反过来就不行。

现在我们把node的公钥也发给node1;查看:  

   

  ·把node1的这些复制给其他节点后 scp /root/.ssh/authorized_keys node:/root/.ssh/ ,node也能无密登录node2了。

    

      ·hadoop官网core-site.xml 配置信息

<configuration>
 <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node:9000/</value>
    <description>设定namenode的主机名和端口号,暂按下不表</description>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/xu/hadoop-2.6.5/tmp/hadoop-${user.name}</value>
    <description>记住存储临时文件目录,这在重新hdfs namenode  -format格式化前务必删除</description>
   </property>

   <property>
     <name>hadoop.proxyuser.hadoop.hosts</name>
     <value>*</value>
   </property>
   <property>
     <name>hadoop.proxyuser.hadoop.groups</name>
     <value>*</value>
   </property>
</configuration>

· hadoop官网hdfs-site.xml 配置信息

<configuration>
 <property>
   <name>dfs.namenode.http-address</name>
   <value>node:50070</value>
   <description>NameNode 地址和端口</description>
 </property>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>node1:50090</value>
   <description>SecondNameNode 地址和端口 </description>
 </property>

  <property>
    <name>dfs.replication</name>
    <value>2</value>
    <description>副本个数,配置默认是3</description>
  </property>

  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/name</value>
    <description>第二个目录,namenode上存储hdfs命名空间 </description>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/data</value>
    <description>第三个目录datanode上数据块的物理存储位置</description>
  </property>
  <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>file:///home/xu/hadoop-2.6.5/hdfs/namesecondary</value>
    <description>第四个目录,设置secondarynamenode 存储临时镜像的本地文件系统路径</description>
  </property>

  <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
   <description>是否允许网页浏览HDFS文件</description>
  </property>
  <property>
    <name>dfs.stream-buffer-size</name>
    <value>131072</value>
    <description>这是128KB,默认4KB,作为Hadoop缓冲区用以读写HDFS文件</description>
  </property>
</configuration>

·hadoop官网mapred-site.xml 配置信息   注意:路径下只提供了模板文件mapred-site.xml.template,需要cp一下再配置

<configuration>
<!--
      <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>  
      </property>
replace to the next for the reason -->
  <property>
    <name>mapreduce.job.tracker</name>
    <value>hdfs://10.0.0.13:8001</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>node:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>node:19888</value>
  </property>
</configuration> 

·hadoop官网yarn-site.xml 配置信息    cp yarn-site.xml.template yarn-site.xml 后再配置

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node</value>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanger.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>

  <property>
   <name>yarn.resourcemanager.address</name>
   <value>node:8032</value>
  </property>
  <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>node:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>node:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>node:8033</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>node:8088</value>
  </property>
</configuration> 

2020-06-02 14:30:56 

posted @ 2021-12-09 10:01  shines87  阅读(43)  评论(0)    收藏  举报