HDFS

HDFS主要是解决大数据如何存储问题的,分布式意味着HDFS是横跨在多台计算机上的存储系统。

 

HDFS设计目标:

1、硬件故障是常态,hdfs可能有成百上千的服务器组成,每一个组件都有可能出现故障,因此故障检测和自动快速恢复是hdfs的核心架构目标。

2、hdfs上的应用主要是以流式读取数据。hdfs被设计成用于批处理,而不是用户交互式的。它的数据访问反应时间较慢,他更注重数据访问的高吞吐量

3、大部分hdfs应用对文件要求的是,write—one—read—many访问模式。一个文件一旦创建、写入、关闭就不需要修改了,这一假设简化了数据一致性问题,是高吞吐量的数据访问成为可能。

 

HDFS核心:

1、分布式存储的优点:

              多机横向扩展:机器不够加机器,理论上无限扩展,支撑海量数据。

2、元数据记录的功能:

             元数据记录下文件及其存储位置,快速定位文件位置。

3、分块存储好处:

            文件分块存储在不同机器,针对块并行(同时)操作提高效率。

4、副本机制的作用:

           不同机器设置备份,冗余存储,保障数据安全,防止丢失。

 

HDFS应用场景:

               适合场景:大文件、数据流式访问、一次写入多次读取、低成本部署、廉价pc、高容错。

               不适合场景:小文件、数据交互式访问、频繁任意修改,低延迟处理。

posted @ 2022-03-17 16:20  小王同学学编程  阅读(257)  评论(0)    收藏  举报
levels of contents