大数据

                    大数据的处理流程

采集数据————> 数据存储————>数据处理

数据采集:将其他地方的数据采集到大数据集群中

 

 

 

 

 

 HDFS的概述:

 

 

HDFS适合做什么?

1,大文件的存储

2,流式数据的访问

HDFS的缺点:

1,不能低延迟读取。

2,不支持随机插入,(但是支持追加写(写在文件末尾))

 

 

例如:加1M的内存都会印象到整个数据,

3,不适合存储大量小文件(KB级别)

Block——块

 

 基本系统架构

 

 HDFS基础架构框架

     clicent:客户端,客户访问HDFS的入口,多实例部署

NameNode(NN):名字节点,负责部署管理元数据(150k元数据)和DataHode.単实例部署,只要我一个NN在正常工作。如果出现两个NN,会出现脑裂(系统崩坏)

 

DateNode(DN):数据节点,负责完成客户端的读写请求,向NN汇报块信息。多实例部署。

 

单点故障:

因为NN只有一个并需要接受客户端以及DN的任务可能会出现故障。

导致集群不可用 。

解决方案:HA(高可用)机制,引入一个备用NN作为主NN替补。

客户端:

 

 HDFS高可靠性(HA)

 

 双NN的主备关系:

先写完的为主,后者为备。

如果前者系统崩坏了,那么后者变为主,如果前者恢复连接,那么他还是备,除非后者也崩坏了。

HDFS单名称 节点体系架构的 性      

 

 HDFS联邦机制(federation)

 

 block pools————块池

元数据持久化:

 

 元数据持久化过程(主备同步元数据(Fslmage,Editiog)的过程):

1,备通知主NN生成Editiog.new的文件,主NN后续所以的操作记录在这份文件中

2,当Editiog.new文件满64M或时间到达一小时的时候,主NN将Editiog.new重命名为Editiog

文件。

3,生成一个 Fslmage文件(记录HDFS目录结构),然后将两份文件上传到journa i Node.  

posted @ 2021-12-08 20:52  柯基$  阅读(48)  评论(0)    收藏  举报