摘要: ResourceManager 高可用机制架构 在Hadoop2.4 中添加了Active/Standby ResourceManager 的方式来解决ResourceManager 的单点故障问题。 Active ResourceManager 会将状态信息写入到ZooKeeper 集群之中,如果 阅读全文
posted @ 2019-01-11 16:53 LakeInMyHeart 阅读(1782) 评论(0) 推荐(0) 编辑
摘要: 为了减少生产集群上作业执行失败的可能性,在ResourceManager 发生单点故障之后,应该自动重启ResourceManager 的功能。 一、原理 ResourceManager(以下简称RM)重启在不同版本的Hadoop有两种不同的实现,两种实现的配置是一样的,只是原理不一样。 第一种是N 阅读全文
posted @ 2019-01-11 15:23 LakeInMyHeart 阅读(2192) 评论(0) 推荐(0) 编辑
摘要: 正如我们所知,Hadoop 集群的元数据信息存放在NameNode 的内存中,当集群扩大到一定的规模之后,NameNode 内存中存放的元数据信息可能会非常大。由于HDFS 的所有操作都会和NameNode 进行交互,当集群很大时,NameNode 就会成为集群的瓶颈。为了解决该问题,Hadoop2 阅读全文
posted @ 2019-01-10 22:42 LakeInMyHeart 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop 中,HDFS NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。 HDFS NameNode 高可用机制 在 阅读全文
posted @ 2019-01-10 21:48 LakeInMyHeart 阅读(2102) 评论(0) 推荐(0) 编辑
摘要: YARN 的高可用:ResourceManager : 基于Zookeeper 实现高可用机制,避免单点故障。 NodeManager: 执行失败之后,ResourceManager 将失败任务告诉对应的ApplicationMaster , 由ApplicationMaster 来决定如何处理失败 阅读全文
posted @ 2019-01-10 16:45 LakeInMyHeart 阅读(2331) 评论(0) 推荐(0) 编辑
摘要: YARN工作原理: 1、用户向YARN 中提交应用程序或者,其中包括ApplicationMaster程序,启动ApplicationMaster命令,用户程序等。 2、ResourceManager 为作业分配第一个Container,并与对应的NodeManager 通信,要求它在这个Conta 阅读全文
posted @ 2019-01-09 23:31 LakeInMyHeart 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 一、YARN 简介 YARN(Yet Another Resource Negotiator,资源协调者) 是一种新的Hadoop 资源管理器,是一个通用的资源管理系统,可以为上层应用提供统一的资源管理和调度。它的引入为集群在利用率,资源统一管理和数据共享方面带来了很大的好处。 YARN 是随着Ha 阅读全文
posted @ 2019-01-09 22:46 LakeInMyHeart 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 1、MapReduce 的输入输出模型MapReduce 中,reduce函数的输入类型必须与map 函数的输出类型一致,例如 map: (k1,v1)->list(k2,v2) reduce:(k2,list(v2))->list(k3,v3) MapReduce 中的常用设置: 输入数据类型由输 阅读全文
posted @ 2019-01-07 00:06 LakeInMyHeart 阅读(276) 评论(0) 推荐(0) 编辑
摘要: MapReduce 是一种简化并行计算的编程模型,用于大数据量的计算。它的核心思想是“分散任务,汇总结果”,将大规模数据集的操作分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,从而得到最终结果。 MapReduce的优点:1、便于编程:MapReduce 只需简单地实现一些 阅读全文
posted @ 2019-01-04 16:41 LakeInMyHeart 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 一、hadoop 序列化与反序列化 Hadoop 通过Writable接口实现序列化机制 Writable 接口中主要有两个方法:wirte(DataOutput out)readFields(DataInput in) 对象在实现这个接口时,属性既可以是java 类型的,也可以是 Hadoop类型 阅读全文
posted @ 2019-01-04 14:02 LakeInMyHeart 阅读(196) 评论(0) 推荐(0) 编辑