HDFS基础介绍｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第13天

前阔

了解HDFS的使用场景，尤其是在大数据场景中的常规应用，同时也了解HDFS在其它场景的一些应用，加深对存储系统应用场景的理解。
了解HDFS的设计与实现，包括基本功能、运维体系等，对生产环境里分布式存储系统体系化建设有进一步认知。
抽象总结一个分布式存储系统涉及的基本概念和设计问题

相关术语解释

大数据

Hadoop（Hadoop是目前大数据领域最主流的一套技术体系，包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等）

Spark（Spark是一门大规模数据处理的同一分析引擎.可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理.）

Flink（大数据实时引擎）

Kafka

OLAP/OLTP

Data warehouse: 数据仓库

AWS S3 / 阿里云OSS

HDFS

HBase

分布式存储

High Availability: 高可用

Throughput: 吞吐量

Scale Out: 水平扩展

Scale Up：纵向扩展

Fault-Tolerance: 容错

Erasure Coding/EC: 纠删码

HDFS基础介绍

HDFS: Hadoop Distributed File System

由前言介绍，Hadoop是一个大数据框架，

Hadoop技术框架

Windows单机文件系统

其中的HadoopHDFS是一个分布式的文件系统

windows的NTFS等就是文件系统含义

Linux单机文件系统

分布式文件系统

优于单机文件系统之处：

大容量：更多的机器，随之有更多的存储介质
高可靠：多个副本提高容错能力
低成本：不需要高端硬件扩容

分布式存储系统

分布式文件系统是分布式存储系统的一个分支

分布式存储系统的分类

HDFS的功能特性

HDFS是从Google的GFS的启发基于Java实现的分布式文件系统

分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义
容错：自动处理、规避多种错误场景，例如常见的网络错误、机器宕机等。
高可用：—主多备模式实现元数据高可用，数据多副本实现用户数据的高可用
高吞吐：Client直接从DataNode读取用户数据，服务端支持海量client并发读写
可扩展：支持联邦集群模式，DataNode数量可达10w级别
廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

演示HDFS

通过HDFS在命令行工具的交互对文件系统进行操作，继而在Hadoop上可视化处理。

HEU-zcy

前阔

HDFS基础介绍

HDFS: Hadoop Distributed File System

Windows单机文件系统

Linux单机文件系统

分布式文件系统

分布式存储系统

HDFS的功能特性

演示HDFS

公告

HEU-zcy

HDFS基础介绍｜ 青训营笔记

前阔

HDFS基础介绍

HDFS: Hadoop Distributed File System

Windows单机文件系统

Linux单机文件系统

分布式文件系统

分布式存储系统

HDFS的功能特性

演示HDFS

公告

HDFS基础介绍｜青训营笔记