HDFS基础介绍| 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的的第13天
前阔
- 了解HDFS的使用场景,尤其是在大数据场景中的常规应用,同时也了解HDFS在其它场景的一些应用,加深对存储系统应用场景的理解。
- 了解HDFS的设计与实现,包括基本功能、运维体系等,对生产环境里分布式存储系统体系化建设有进一步认知。
- 抽象总结一个分布式存储系统涉及的基本概念和设计问题
相关术语解释
大数据
- Hadoop(Hadoop是目前大数据领域最主流的一套技术体系,包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等)
- Spark(Spark是一门大规模数据处理的同一分析引擎.可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理.)
- Flink(大数据实时引擎)
- Kafka
- OLAP/OLTP
- Data warehouse: 数据仓库
- AWS S3 / 阿里云OSS
- HDFS
- HBase
分布式存储
- High Availability: 高可用
- Throughput: 吞吐量
- Scale Out: 水平扩展
- Scale Up:纵向扩展
- Fault-Tolerance: 容错
- Erasure Coding/EC: 纠删码
HDFS基础介绍
HDFS: Hadoop Distributed File System
由前言介绍,Hadoop是一个大数据框架,
Hadoop技术框架
Windows单机文件系统
其中的HadoopHDFS是一个分布式的文件系统
windows的NTFS等就是文件系统含义
Linux单机文件系统
分布式文件系统
优于单机文件系统之处:
- 大容量:更多的机器,随之有更多的存储介质
- 高可靠:多个副本提高容错能力
- 低成本:不需要高端硬件扩容
分布式存储系统
分布式文件系统是分布式存储系统的一个分支
分布式存储系统的分类
HDFS的功能特性
HDFS是从Google的GFS的启发基于Java实现的分布式文件系统
- 分布式:受GFS启发,用Java实现的开源系统,没有实现完整的POSIX文件系统语义
- 容错:自动处理、规避多种错误场景,例如常见的网络错误、机器宕机等。
- 高可用:—主多备模式实现元数据高可用,数据多副本实现用户数据的高可用
- 高吞吐:Client直接从DataNode读取用户数据,服务端支持海量client并发读写
- 可扩展:支持联邦集群模式,DataNode数量可达10w级别
- 廉价:只需要通用硬件,不需要定制高端的昂贵硬件设备
演示HDFS
通过HDFS在命令行工具的交互对文件系统进行操作,继而在Hadoop上可视化处理。

浙公网安备 33010602011771号