HDFS

HDFS主要是解决大数据如何存储问题的，分布式意味着HDFS是横跨在多台计算机上的存储系统。

HDFS设计目标：

1、硬件故障是常态，hdfs可能有成百上千的服务器组成，每一个组件都有可能出现故障，因此故障检测和自动快速恢复是hdfs的核心架构目标。

2、hdfs上的应用主要是以流式读取数据。hdfs被设计成用于批处理，而不是用户交互式的。它的数据访问反应时间较慢，他更注重数据访问的高吞吐量。

3、大部分hdfs应用对文件要求的是，write—one—read—many访问模式。一个文件一旦创建、写入、关闭就不需要修改了，这一假设简化了数据一致性问题，是高吞吐量的数据访问成为可能。

HDFS核心：

1、分布式存储的优点：

多机横向扩展：机器不够加机器，理论上无限扩展，支撑海量数据。

2、元数据记录的功能：

元数据记录下文件及其存储位置，快速定位文件位置。

3、分块存储好处：

文件分块存储在不同机器，针对块并行（同时）操作提高效率。

4、副本机制的作用：

不同机器设置备份，冗余存储，保障数据安全，防止丢失。

HDFS应用场景：

适合场景：大文件、数据流式访问、一次写入多次读取、低成本部署、廉价pc、高容错。

不适合场景：小文件、数据交互式访问、频繁任意修改，低延迟处理。

posted @ 2022-03-17 16:20 小王同学学编程阅读(260) 评论(0) 收藏举报

刷新页面返回顶部

小王同学学编程