大数据

　　　　　　　　　　　　　　　　　　　　大数据的处理流程

采集数据————> 数据存储————>数据处理

数据采集：将其他地方的数据采集到大数据集群中

HDFS的概述：

HDFS适合做什么？

1，大文件的存储

2，流式数据的访问

HDFS的缺点：

1，不能低延迟读取。

2，不支持随机插入，（但是支持追加写（写在文件末尾））

例如：加1M的内存都会印象到整个数据，

3，不适合存储大量小文件（KB级别）

Block——块

基本系统架构

HDFS基础架构框架

　　　　clicent：客户端，客户访问HDFS的入口，多实例部署

NameNode（NN）:名字节点，负责部署管理元数据（150k元数据）和DataHode.単实例部署，只要我一个NN在正常工作。如果出现两个NN，会出现脑裂（系统崩坏）

DateNode（DN）：数据节点，负责完成客户端的读写请求，向NN汇报块信息。多实例部署。

单点故障：

因为NN只有一个并需要接受客户端以及DN的任务可能会出现故障。

导致集群不可用　。

解决方案：HA（高可用）机制，引入一个备用NN作为主NN替补。

客户端：

HDFS高可靠性（HA）

双NN的主备关系：

先写完的为主，后者为备。

如果前者系统崩坏了，那么后者变为主，如果前者恢复连接，那么他还是备，除非后者也崩坏了。

HDFS单名称节点体系架构的性　　

HDFS联邦机制（federation）

block pools————块池

元数据持久化：

元数据持久化过程（主备同步元数据（Fslmage,Editiog）的过程）：

1，备通知主NN生成Editiog.new的文件，主NN后续所以的操作记录在这份文件中

2，当Editiog.new文件满64M或时间到达一小时的时候，主NN将Editiog.new重命名为Editiog

文件。

3，生成一个 Fslmage文件（记录HDFS目录结构），然后将两份文件上传到journa i　Node.　　

posted @ 2021-12-08 20:52 柯基$ 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部

柯基$