大数据
大数据的处理流程
采集数据————> 数据存储————>数据处理
数据采集:将其他地方的数据采集到大数据集群中
HDFS的概述:
HDFS适合做什么?
1,大文件的存储
2,流式数据的访问
HDFS的缺点:
1,不能低延迟读取。
2,不支持随机插入,(但是支持追加写(写在文件末尾))
例如:加1M的内存都会印象到整个数据,
3,不适合存储大量小文件(KB级别)
Block——块
基本系统架构
HDFS基础架构框架
clicent:客户端,客户访问HDFS的入口,多实例部署
NameNode(NN):名字节点,负责部署管理元数据(150k元数据)和DataHode.単实例部署,只要我一个NN在正常工作。如果出现两个NN,会出现脑裂(系统崩坏)
DateNode(DN):数据节点,负责完成客户端的读写请求,向NN汇报块信息。多实例部署。
单点故障:
因为NN只有一个并需要接受客户端以及DN的任务可能会出现故障。
导致集群不可用 。
解决方案:HA(高可用)机制,引入一个备用NN作为主NN替补。
客户端:
HDFS高可靠性(HA)
双NN的主备关系:
先写完的为主,后者为备。
如果前者系统崩坏了,那么后者变为主,如果前者恢复连接,那么他还是备,除非后者也崩坏了。
HDFS单名称 节点体系架构的 性
HDFS联邦机制(federation)
block pools————块池
元数据持久化:
元数据持久化过程(主备同步元数据(Fslmage,Editiog)的过程):
1,备通知主NN生成Editiog.new的文件,主NN后续所以的操作记录在这份文件中
2,当Editiog.new文件满64M或时间到达一小时的时候,主NN将Editiog.new重命名为Editiog
文件。
3,生成一个 Fslmage文件(记录HDFS目录结构),然后将两份文件上传到journa i Node.