linux配置hadoop伪集群

准备：使用版本 hadoop-2.8.1.tar.gz jdk-8u131-linux-x64.tar.gz

　　上传至opt路径下，解压压缩包

tar -zxvf 压缩包

　　　配置环境变量　vim /etc/profile 将下面内容添加到底部，配置完成后输入source /etc/profile 使配置文件生效

export JAVA_HOME=/opt/jdk1.8.0_131
export HADOOP_HOME=/opt/hadoop-2.8.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

　　　　　设置免密登录　

ssh-keygen -t rsa

ssh-copy-id hdp1          （  hdp1 为虚拟机名称） 或者  cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

　　　　进入hadoop的配置文件目录下 cd /opt/hadoop-2.8.1/etc/hadoop

　　　　在core-site.xml中粘贴

<!-- 指定HADOOP所使用的文件系统，hdfs的namenode的地址 -->
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hdp1:8020</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储目录，hadoop的工作目录 -->
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/hadoop-2.8.1/tmp</value>
    </property>
    
    <!-- 支持hiveserver2 -->
    <property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
    </property>

　　　　在hdfs-site.xml中粘贴

<!--指定hdfs副本的数量 -->
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>

　　mv mapred-site.xml.template mapred-site.xml

　　在mapred-site.xml 中粘贴

<!-- 指定mr运行在yarn上 -->
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
      <!-- 历史服务器端地址 -->
    <property>
     <name>mapreduce.jobhistory.address</name>
     <value>hdp1:10020</value>
    </property>
    <!-- 历史服务器 web 端地址 -->
    <property>
     <name>mapreduce.jobhistory.webapp.address</name>
     <value>hdp1:19888</value>
    </property>

　　在yarn-site.xml中配置

<!-- 指定yarn的ResourceManager的地址-->
    <property>
    <name>yarn.resoucemanager.hostname</name>
    <value>hdp1</value>
    </property>
    <!-- reducer获取数据的方式，数据调度机制（分组等操作） -->
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
     <!-- 内存优化防止内存溢出 -->
    <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
    <property>
        <name>mapred.child.java.opts</name>
        <value>-Xmx1024m</value>
    </property>
      
      <!-- 开启日志聚集功能 -->
    <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
    </property>
    <!-- 设置日志聚集服务器地址 -->
    <property> 
     <name>yarn.log.server.url</name> 
     <value>http://hdp1:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为 7 天 -->
    <property>
     <name>yarn.log-aggregation.retain-seconds</name>
     <value>604800</value>
    </property>

　　　　关闭防火墙

　　systemctl stop firewalld

　　systemctl disable firewalld

　　　　格式化hadoop

　　　hadoop namenode -format　

　　　　hadoop的启动和关闭，在任意位置都可以

　　　　启动hadoop

　　start-dfs.sh

　　关闭hadoop　

　　stop-dfs.sh

　　jps查看进程，如下图则启动成功

posted @ 2022-01-07 09:31 御本美琴初号机阅读(88) 评论(0) 收藏举报

刷新页面返回顶部

御坂美琴初号机

linux配置hadoop伪集群

公告