HDFS基础介绍| 青训营笔记

这是我参与「第四届青训营 」笔记创作活动的的第13天

前阔

  • 了解HDFS的使用场景,尤其是在大数据场景中的常规应用,同时也了解HDFS在其它场景的一些应用,加深对存储系统应用场景的理解。
  • 了解HDFS的设计与实现,包括基本功能、运维体系等,对生产环境里分布式存储系统体系化建设有进一步认知。
  • 抽象总结一个分布式存储系统涉及的基本概念和设计问题

相关术语解释

  • 大数据

    • Hadoop(Hadoop是目前大数据领域最主流的一套技术体系,包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等)
    • Spark(Spark是一门大规模数据处理的同一分析引擎.可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理.)
    • Flink(大数据实时引擎)
    • Kafka
    • OLAP/OLTP
    • Data warehouse: 数据仓库
    • AWS S3 / 阿里云OSS
    • HDFS
    • HBase
  • 分布式存储

    • High Availability: 高可用
    • Throughput: 吞吐量
    • Scale Out: 水平扩展
    • Scale Up:纵向扩展
    • Fault-Tolerance: 容错
    • Erasure Coding/EC: 纠删码

HDFS基础介绍

HDFS: Hadoop Distributed File System

由前言介绍,Hadoop是一个大数据框架,

Hadoop技术框架

image-20220810215931110

Windows单机文件系统

image-20220810220303686

其中的HadoopHDFS是一个分布式的文件系统

windows的NTFS等就是文件系统含义

Linux单机文件系统

image-20220810221233085

分布式文件系统

image-20220811144150497

优于单机文件系统之处:

  • 大容量:更多的机器,随之有更多的存储介质
  • 高可靠:多个副本提高容错能力
  • 低成本:不需要高端硬件扩容

分布式存储系统

分布式文件系统是分布式存储系统的一个分支

分布式存储系统的分类

image-20220811144524044

HDFS的功能特性

HDFS是从Google的GFS的启发基于Java实现的分布式文件系统

  • 分布式:受GFS启发,用Java实现的开源系统,没有实现完整的POSIX文件系统语义
  • 容错:自动处理、规避多种错误场景,例如常见的网络错误、机器宕机等。
  • 高可用:—主多备模式实现元数据高可用,数据多副本实现用户数据的高可用
  • 高吞吐:Client直接从DataNode读取用户数据,服务端支持海量client并发读写
  • 可扩展:支持联邦集群模式,DataNode数量可达10w级别
  • 廉价:只需要通用硬件,不需要定制高端的昂贵硬件设备

演示HDFS

通过HDFS在命令行工具的交互对文件系统进行操作,继而在Hadoop上可视化处理。

posted @ 2022-08-11 16:00  Luciferpluto  阅读(0)  评论(0)    收藏  举报  来源