hadoop集群配置
解压: tar -zxvf jdk-8u201-linux-x64.tar.gz -C /usr 和 tar -zxvf hadoop-2.6.5.tar.gz –C /home/xu 务必设定好解压目录。
tar -zxvf:参数z代表调用gzip压缩,v代表显示详细解压过程,x代表解压文件参数指令,f代表后接解压文件名。
五、配置文件
①jdk和hadoop的环境变量:在/etc/profile加入以下;
# JAVA HADOOP enviornment
export JAVA_HOME=/usr/jdk1.8.0_201
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
export HADOOP_HOME=/home/xu/hadoop-2.6.5
export PATH=.:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
export HADOOP_LOG_DIR=/home/xu/hadoop-2.6.5/logs
export YARN_LOG_DIR=$HADOOP_LOG_DIR
source /etc/profile 启用(每次开机都要,哎!);键入java -version; hadoop 查看是否配置成功!
②对~/hadoop-2.6.5/etc/hadoop/下的hadoop-env.sh、yarn-env.sh、mapred-env.sh三个文件,更改 export JAVA_HOME=/usr/jdk1.8.0_201
③配置~/hadoop-2.6.5/etc/hadoop/下的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个文件。
本地windows上安装若干个linux,每个linux上搭建一个yarn操作系统。
yarn和其他操作系统一样用以管理cpu core、内外存等资源,为mapreduce作业提供支持。
hdfs(Hadoop Distributed File System)文件系统按网络地址划分,本地windows文件系统按物理磁盘划分,linux文件系统按功能划分。
hadoop按主从式架构,一个master-namenode +多个slave-datanode节点。现设定主机node作master,主机node1和node2作slaves。
④在~/hadoop-2.6.5/etc/hadoop/slaves加入slave的主机名
,然后关机node。
点击虚拟机->管理->克隆->选择当前状态完整克隆出两个主机,然后配置静态ip和hostname 。
六、ssh免密登录
·主机node1登录主机node2时,需要node2的用户密码 或者node2的公钥加入node1的authorised_keys。
首先生成密钥 ssh-keygen -t rsa -P '' ;然后进入~/.ssh目录 cat id_rsa.pub >>authorized_keys
把生成的公钥追加到authorized_keys文件,就可以ssh登录本机了;对每个主机执行以下操作。
·把node2的公钥id_rsa.pub发给node1 ssh-copy-id ~/.ssh/id_rsa.pub node2 ,这样node1可以无密登录node2,但反过来就不行。
现在我们把node的公钥也发给node1;查看:
·把node1的这些复制给其他节点后 scp /root/.ssh/authorized_keys node:/root/.ssh/ ,node也能无密登录node2了。
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node:9000/</value>
<description>设定namenode的主机名和端口号,暂按下不表</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/xu/hadoop-2.6.5/tmp/hadoop-${user.name}</value>
<description>记住存储临时文件目录,这在重新hdfs namenode -format格式化前务必删除</description>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>
· hadoop官网hdfs-site.xml 配置信息
<configuration> <property> <name>dfs.namenode.http-address</name> <value>node:50070</value> <description>NameNode 地址和端口</description> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>node1:50090</value> <description>SecondNameNode 地址和端口 </description> </property> <property> <name>dfs.replication</name> <value>2</value> <description>副本个数,配置默认是3</description> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/xu/hadoop-2.6.5/hdfs/name</value> <description>第二个目录,namenode上存储hdfs命名空间 </description> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/xu/hadoop-2.6.5/hdfs/data</value> <description>第三个目录,datanode上数据块的物理存储位置</description> </property> <property> <name>dfs.namenode.checkpoint.dir</name> <value>file:///home/xu/hadoop-2.6.5/hdfs/namesecondary</value> <description>第四个目录,设置secondarynamenode 存储临时镜像的本地文件系统路径</description> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> <description>是否允许网页浏览HDFS文件</description> </property> <property> <name>dfs.stream-buffer-size</name> <value>131072</value> <description>这是128KB,默认4KB,作为Hadoop缓冲区用以读写HDFS文件</description> </property> </configuration>
·hadoop官网mapred-site.xml 配置信息 注意:路径下只提供了模板文件mapred-site.xml.template,需要cp一下再配置
<configuration> <!-- <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> replace to the next for the reason --> <property> <name>mapreduce.job.tracker</name> <value>hdfs://10.0.0.13:8001</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>node:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>node:19888</value> </property> </configuration>
·hadoop官网yarn-site.xml 配置信息 cp yarn-site.xml.template yarn-site.xml 后再配置
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>node</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanger.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>node:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>node:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>node:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>node:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>node:8088</value> </property> </configuration>
2020-06-02 14:30:56

浙公网安备 33010602011771号