hadoop - 文章分类 - FinnChan

MapReduce流程概述

摘要：1、一个 mr 程序启动的时候，最先启动的是 MRAppMaster，MRAppMaster 启动后根据本次 job 的描述信息，计算出需要的 maptask 实例数量，然后向集群申请机器启动相应数量的 maptask 进程 2、 maptask 进程启动之后，根据给定的数据切片(哪个文件的哪个偏移阅读全文

posted @ 2020-05-14 14:36 FinnChan 阅读(253) 评论(0) 推荐(0)

预写日志系统

摘要：在计算机科学中，预写式日志（Write-ahead logging，缩写 WAL）是关系数据库系统中用于提供原子性和持久性（ACID 属性中的两个）的一系列技术。在使用 WAL 的系统中，所有的修改在提交之前都要先写入 log 文件中。 Log 文件中通常包括 redo 和 undo 信息。这样阅读全文

posted @ 2020-05-13 15:50 FinnChan 阅读(274) 评论(0) 推荐(0)

block,packet,chunk

摘要：1、block是最大的一个单位，它是最终存储于DataNode上的数据粒度，由dfs.block.size参数决定，2.x版本默认是128M；注：这个参数由客户端配置决定；如：System.out.println(conf.get("dfs.blocksize"));//结果是134217728 2 阅读全文

posted @ 2020-05-13 15:22 FinnChan 阅读(154) 评论(0) 推荐(0)

负载均衡

摘要：负载均衡理想状态：节点均衡、机架均衡和磁盘均衡。 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，例如：当集群内新增、删除节点，或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时，Map任务可能会分配到没有存储数据的机器，这将导致网络带宽的消耗，也无法很好的进行本地计算阅读全文

posted @ 2020-05-13 10:26 FinnChan 阅读(122) 评论(0) 推荐(0)

心跳机制

摘要：普通话讲解 1、 Hadoop 是 Master/Slave 结构，Master 中有 NameNode 和 ResourceManager，Slave 中有 Datanode 和 NodeManager 2、 Master 启动的时候会启动一个 IPC（Inter-Process Comunica 阅读全文

posted @ 2020-05-13 10:11 FinnChan 阅读(382) 评论(0) 推荐(0)

HDFS保证可靠性的措施

摘要：1）冗余备份每个文件存储成一系列数据块（Block）。为了容错，文件的所有数据块都会有副本（副本数量即复制因子，课配置）（dfs.replication） 2）副本存放采用机架感知（Rak-aware）的策略来改进数据的可靠性、高可用和网络带宽的利用率 3）心跳检测 NameNode周期性地从集阅读全文

posted @ 2020-05-12 17:29 FinnChan 阅读(1290) 评论(0) 推荐(0)

hadoop高可用模式联邦模式

摘要：高可用模式表示整个集群中的主节点会有多个注意区分：能够对外提供服务的主节点还是只有一个。其他的主节点全部处于一个热备的状态。正在对外提供服务的主节点：active 有且仅有一个热备的主节点：standby 可以有多个工作模式：1、在任意时刻，只有一个主节点是active的，active的主阅读全文

posted @ 2020-05-12 14:49 FinnChan 阅读(311) 评论(0) 推荐(0)

NameNode故障处理

摘要：NameNode故障后，可以采用如下两种方法恢复数据。方法一：将SecondaryNameNode中数据拷贝到NameNode存储数据的目录； 1. kill -9 NameNode进程 2. 删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/df 阅读全文

posted @ 2020-02-19 11:31 FinnChan 阅读(203) 评论(0) 推荐(0)

文章分类 - hadoop

公告

导航