HDFS
HDFS主要是解决大数据如何存储问题的,分布式意味着HDFS是横跨在多台计算机上的存储系统。
HDFS设计目标:
1、硬件故障是常态,hdfs可能有成百上千的服务器组成,每一个组件都有可能出现故障,因此故障检测和自动快速恢复是hdfs的核心架构目标。
2、hdfs上的应用主要是以流式读取数据。hdfs被设计成用于批处理,而不是用户交互式的。它的数据访问反应时间较慢,他更注重数据访问的高吞吐量。
3、大部分hdfs应用对文件要求的是,write—one—read—many访问模式。一个文件一旦创建、写入、关闭就不需要修改了,这一假设简化了数据一致性问题,是高吞吐量的数据访问成为可能。
HDFS核心:
1、分布式存储的优点:
多机横向扩展:机器不够加机器,理论上无限扩展,支撑海量数据。
2、元数据记录的功能:
元数据记录下文件及其存储位置,快速定位文件位置。
3、分块存储好处:
文件分块存储在不同机器,针对块并行(同时)操作提高效率。
4、副本机制的作用:
不同机器设置备份,冗余存储,保障数据安全,防止丢失。
HDFS应用场景:
适合场景:大文件、数据流式访问、一次写入多次读取、低成本部署、廉价pc、高容错。
不适合场景:小文件、数据交互式访问、频繁任意修改,低延迟处理。

浙公网安备 33010602011771号