hadoop伪分布式安装

  1.先下载hadoop包,这里使用hadoop-2.7.3.tar.gz


  2.配置hadoop环境变量:修改/etc/profile文件 :vi /etc/profile
      HADOOP_HOME=/soft/hadoop
      PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      export HADOOP_HOME PATH


  3. source /etc/profile让其生效


  4.新建3个文件夹,用来存放hadoop操作时的数据等内容
      此处新建 /hadoop/tmp /hadoop/dfs/data /hadoop/dfs/name
    
  5.配置core-site.xml(位置hadoop/etc/hadoop/core-site.xml):

   <configuration>
          <property>
            <name>fs.defaultFS</name>
            <value>hdfs://192.168.72.100:9000</value>
          </property>
          <property>
            <name>hadoop.tmp.dir</name>
            <value>/hadoop/tmp</value>
          </property>
     </configuration>

 


     
  6.配置hdfs-site.xml(和core-site.xml位于同一目录)
      

<configuration>
          <property>
            <name>dfs.namenode.name.dir</name>
            <value>/hadoop/dfs/name</value>
          </property>
          <property>
            <name>dfs.datanode.data.dir</name>
            <value>/hadoop/dfs/data</value>
          </property>
          <property>
            <name>dfs.replication</name>
            <value>1</value>
          </property>
          <property>
            <name>dfs.permissions.enabled</name>
            <value>false</value>
          </property>
      </configuration>

 


      (这里使用了第四步创建的文件夹)


  7. 使用命令对namenode进行格式化:hdfs namenode -format


  8.启动hadoop:在hadoop的sbin目录下执行:./start-all.sh ./stop-all.sh

 

  9.使用jps查看hadoop进程是否启动
  

  10.这时候我们访问ip:50070端口,如果可以成功验证说明hdfs配置没有问题

  11.我们使用hdfs dfs -mkdir 文件夹 命令来创建文件夹,hdfs中的好多操作和linux 系统中很相  似,创建成功以后可以在utilities中看到我们创建的文件夹


  12.在系统中创建一个文件,写入一些内容


  13.hdfs dfs -put 文件 文件夹 将文件放到hdfs中
  至此,hadoop伪分布式安装完成。

  14.发现hdfs启动不成功,并提示 JAVA_HOME is not set and could not be found
  那么需要在hadoop配置jdk环境变量:
      在hadoop/etc/hadoop-env.sh 中输入export JAVA_HOME=/soft/jdk
    
  15.重新format namenode后,datanode无法正常启动
      执行hdfs namenode -format后,current目录会删除并重新生成,其中VERSION文件中的    clusterID也会随之变化,而datanode的VERSION文件中的clusterID保持不变,造成两个    clusterID不一致。

  所以为了避免这种情况,可以再执行的namenode格式化之后,删除datanode的current文件夹,  或者修改datanode的VERSION文件中出clusterID与namenode的VERSION文件中的clusterID一  样,然后重新启动datanode。

posted @ 2018-07-13 16:33  倾恬xt  阅读(192)  评论(0编辑  收藏  举报