摘要:HDFS案例代码Configuration configuration = new Configuration();FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop000:8020"), configuration); ...
阅读全文
随笔分类 - hadoop
摘要:1、MapReduce代码入口FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式job.waitForCompletion(true);2、InputFormat分析public abstract class ...
阅读全文
摘要:Apache Hadoop生态系统安装包下载地址:http://archive.apache.org/dist/软件安装目录:~/appjdk: jdk-7u45-linux-x64.rpmhadoop: hadoop-2.5.1-src.tar.gzmaven: apache-maven-3.0....
阅读全文
摘要:副本机制1、副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中;2、副本系数1)对于上传文件到HDF...
阅读全文
摘要:package com.luogankun.hadoop.hdfs.api;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.InputStream...
阅读全文
摘要:hadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。mapred-site.xml添加如下配置 mapreduce.jobhistory.address hadoop000:10020 Ma...
阅读全文
摘要:MapReduce计算框架将计算过程分为两个阶段:Map和Reduce Map阶段并行处理输入数据; Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘; Reduce Task从每个Map Task上读取一份数据;仅适合离...
阅读全文
摘要:YARN产生背景Hadoop1.x中的MapReduce构成图如下:在Hadoop1.x中MapReduce是Master/Slave结构,在集群中的表现形式为:1个JobTracker带多个TaskTracker;JobTracker:负责资源管理和作业调度;TaskTracker:定期向JobT...
阅读全文
摘要:HDFS2.0之HA主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个Name...
阅读全文
摘要:Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS...
阅读全文
摘要:Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可...
阅读全文
浙公网安备 33010602011771号