文章分类 -  hadoop

 
MapReduce流程概述
摘要:1、一个 mr 程序启动的时候,最先启动的是 MRAppMaster,MRAppMaster 启动后根据本次 job 的描述信息,计算出需要的 maptask 实例数量,然后向集群申请机器启动相应数量的 maptask 进程 2、 maptask 进程启动之后,根据给定的数据切片(哪个文件的哪个偏移 阅读全文
posted @ 2020-05-14 14:36 FinnChan 阅读(253) 评论(0) 推荐(0)
预写日志系统
摘要:在计算机科学中,预写式日志(Write-ahead logging,缩写 WAL)是关系数据库系统中 用于提供原子性和持久性(ACID 属性中的两个)的一系列技术。在使用 WAL 的系统中,所 有的修改在提交之前都要先写入 log 文件中。 Log 文件中通常包括 redo 和 undo 信息。这样 阅读全文
posted @ 2020-05-13 15:50 FinnChan 阅读(274) 评论(0) 推荐(0)
block,packet,chunk
摘要:1、block是最大的一个单位,它是最终存储于DataNode上的数据粒度,由dfs.block.size参数决定,2.x版本默认是128M;注:这个参数由客户端配置决定;如:System.out.println(conf.get("dfs.blocksize"));//结果是134217728 2 阅读全文
posted @ 2020-05-13 15:22 FinnChan 阅读(154) 评论(0) 推荐(0)
负载均衡
摘要:负载均衡理想状态:节点均衡、机架均衡和磁盘均衡。 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,例如:当集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时,Map任务可能会分配到没有存储数据的机器,这将导致网络带宽的消耗,也无法很好的进行本地计算 阅读全文
posted @ 2020-05-13 10:26 FinnChan 阅读(122) 评论(0) 推荐(0)
心跳机制
摘要:普通话讲解 1、 Hadoop 是 Master/Slave 结构,Master 中有 NameNode 和 ResourceManager,Slave 中有 Datanode 和 NodeManager 2、 Master 启动的时候会启动一个 IPC(Inter-Process Comunica 阅读全文
posted @ 2020-05-13 10:11 FinnChan 阅读(382) 评论(0) 推荐(0)
HDFS保证可靠性的措施
摘要:1)冗余备份 每个文件存储成一系列数据块(Block)。为了容错,文件的所有数据块都会有副本(副本数量即复制因子,课配置)(dfs.replication) 2)副本存放 采用机架感知(Rak-aware)的策略来改进数据的可靠性、高可用和网络带宽的利用率 3)心跳检测 NameNode周期性地从集 阅读全文
posted @ 2020-05-12 17:29 FinnChan 阅读(1290) 评论(0) 推荐(0)
hadoop高可用模式联邦模式
摘要:高可用模式 表示整个集群中的主节点会有多个 注意区分:能够对外提供服务的主节点还是只有一个。其他的主节点全部处于一个热备的状态。 正在对外提供服务的主节点:active 有且仅有一个 热备的主节点:standby 可以有多个 工作模式:1、在任意时刻,只有一个主节点是active的,active的主 阅读全文
posted @ 2020-05-12 14:49 FinnChan 阅读(311) 评论(0) 推荐(0)
NameNode故障处理
摘要:NameNode故障后,可以采用如下两种方法恢复数据。 方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录; 1. kill -9 NameNode进程 2. 删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/df 阅读全文
posted @ 2020-02-19 11:31 FinnChan 阅读(203) 评论(0) 推荐(0)