随笔分类 - Hadoop学习笔记
摘要:对ReduceTask最宏观的理解也应该包括三个阶段:数据输入(input),数据计算(reduce),数据输出(output) 下边代码是大数据开发hello world Reduce方法: public class WcReducer extends Reducer<Text, IntWrita
阅读全文
摘要:Dream car 镇楼 ~ ! 接上一节Input环节,接下来分析 output环节。代码在runNewMapper()方法中: private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job,final Ta
阅读全文
摘要:备忘 Cli: 1、会根据每次计算的数据,咨询NN元数据(block)计算:split得到一个切片清单; 这样map的数量就有了。Split时逻辑的,block是物理的。block身上有(offset,location),split和block之间有映射关系。 结果:split包含偏移量,以及spl
阅读全文
摘要:不得不说阅读源码的过程,极其痛苦 。Dream Car 镇楼 ~ ! 虽说整个MapReduce过程也就只有Map阶段和Reduce阶段,但是仔细想想,在Map阶段要做哪些事情?这一阶段具体应该包含数据输入(input),数据计算(map),数据输出(output),这三个步骤的划分是非常符合思维习
阅读全文
摘要:计算向数据移动 MR程序并不会在客户端执行任何的计算操作,它是为计算工作做好准备,例如计算出切片信息,直接影响到Map任务的并行度。 在Driver中提交任务时,会写到这样的语句: boolean result = job.waitForCompletion(true); 进入到waitForCom
阅读全文
摘要:0、关于HDFS的角色 在HDFS集群中,根据HDFS的组织架构,可以看出主要的角色包括Client、NameNode、DataNode、SecondaryNameNode ~ Client:客户端 文件切分:文件上传至HDFS集群时,Client将文件切分成一个个Block上传; 与NameNod
阅读全文
摘要:记一次关闭Hadoop时no namenode to stop异常 在自己的虚拟机环境上跑着hadoop集群,一直正常运行着,不用的时候直接挂起虚拟机,今天需要做些调整,但是发现集群突然无法正常关闭了。遂祭出百度大法~: 大家都知道,关闭集群的命令是 和`stop yarn.sh`,然鹅我执行完
阅读全文
摘要:1. HDFS产出的背景及定义 1.1 HDFS产生的背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS的
阅读全文

浙公网安备 33010602011771号