GFS分布式文件系统

GlusterFS

简介：

开源的分布式文件系统
由存储服务器、客户端以及NFS/Samba存储网关组成
无元数据服务器，有助于提升整个系统的性能、可靠性和稳定性

优点：

传统的分布式文件系统大多通过元服务通过元服务器来存储元数据，元数据包含存储节点上的目录信息、目录结构等。这样的设计在浏览目录时效率高，但是也存在一些缺陷，例如单点故障。一旦元数据服务器出现故障，即使节点具备再高的冗余性，整个存储也将崩溃。而GlusterFS分布式文件系统是基于无元服务器的设计，数据横向扩展能力强，具备较高的可靠性及存储效率。
GlusterFS同时也是Scale-Out（横向扩展）存储解决方案GlusterFS的核心，在存储数据方面具有强大的横向扩展能力，通过扩展能够支持数PB存储容量和处理数千客户端。
GlusterFS支持借助TCP/IP或InfiniBandRDMA网络（一种多并发链接的技术，具有高带宽、低时延、高扩展性地特点）将物理分散分布的存储资源汇聚在一起，统一提供存储服务，并使用统一全局空间来管理数据。

特点：

1、扩展性和高性能

GlusterFS利用双重特性来提供高容量存储解决方案

Scale-Out架构允许通过简单地增加存储节点的方式来提供存储容量和性能（磁盘、计算和I/O资源都可以独立增加），支持10GbE和InfiniBand等高速网络互联
GlusterFS弹性哈希（ElasticHash）解决了GlusterFS对元数据服务器的依赖，改善了单点故障和性能瓶颈，真正实现并行化数据访问。GlusterFS采用弹性哈希算法在存储池中可以只能地定位任意数据分片（将数据分片存储在不同节点上），不需要查看索引或者向元数据服务器查询

2、高可用性

GlusterFS可以对文件进行自动复制，如镜像或多次复制，从而确保数据总是可以访问，甚至是在硬件故障的情况下也能正常访问。当数据出现不一致时，自动修复功能能够把数据恢复到正确的状态，数据的修复是以增量的方式在后台执行，几乎不会产生性能负载。GlusterFS可以支持所有的存储，因为它没有设计自己的私有数据文件格式，而是采用操作系统中主流标准的磁盘文件系统（如EXT3、XFS等）来存储文件，因此数据可以使用传统访问磁盘的方式被访问。

3、全局统一命名空间

分布式存储中，将所有节点的命名空间整合为统一命名空间，将整个系统的所有节点的存储容量组成一个大的虚拟存储池，供前端主机访问这些节点完成数据读写操作。

4、弹性卷管理

GlusterFS通过将数据储存在逻辑卷中，逻辑卷从逻辑存储存储池进行独立逻辑划分而得到。

逻辑存储池可以在线进行增加和移除，不会导致业务中断。逻辑卷可以根据需求在线增长和缩减，并可以在多个节点中实现负载均衡。

文件系统配置也可以实现在线进行更改并应用，从而可以适应工作负载条件条件或在线性能调优

5、基于标准协议

GlusterFS存储服务支持NFS、CIFS、HTTP、FTP、SMB及GlusterFS原生协议，完全与POSIX标准（可移植操作系统接口）兼容。

现有应用程序不需要做任何修改就可以对GlusterFS中的数据进行访问，也可以使用API进行访问。

GlusterFS术语：

1、Brick（存储块）

指可信主机池中由主机提供的用于物理存储的专用分区，是GlusterFS中的基本存储单元，同时也是可信存储池中服务器上对外提供的存储目录。

存储目录的格式由服务器和目录的绝对路径构成，表示方法为SERVER：EXPORT，如 192.168.48.10：/data/mydir

2、Volume（逻辑卷）

一个逻辑卷是一组Brick的集合。卷是数据存储的逻辑设备，类似于LVM中的逻辑卷。大部分GlusterFS管理操作是在卷上进行的。

3、FUSE：

一个内核模块，允许用户创建自己的文件系统，无须修改内核代码。

4、VFS：

内核空间对用户空间提供的访问磁盘的接口

5、Glusterd（后台管理进程）

在存储集群中的每个节点上都要运行

模块化堆栈式架构：

GlusterFS采用模块化、堆栈式的架构。

通过对模式进行各种组合，即可实现复杂的功能。例如Replicate 模块可实现RAID1，Stripe模块可实现RAID0，通过两者的组合可实现RAID10和RAID01，同时获得更高的性能及可靠性。

GlusterFS的工作流程：

客户端或应用程序通过GlusterFS的挂载点访问数据
Linux系统内核通过VFS API 收到请求并处理
VFS将数据递交给FUSE内核文件系统，并向系统注册一个实际的文件系统FUSE，而FUSE文件系统则是将数据通过/dev/fuse设备文件递交给了GlusterFS client端。可以将FUSE文件系统理解为一个代理。
GlusterFS client收到数据后，client根据配置文件的配置对数据进行处理
经过GlusterFS client处理后，通过网络将数据传递远端的GlusterFS server，并将数据写入到服务器存储设备上

弹性HASH算法：

弹性HASH是Davies-Meyer算法的具体实现，通过HASH算法可以得到一个32位的整数范围的hash值，假设逻辑卷中有N个存储单位Brick，则32位的整数范围将被划分为N个连续的子空间，每个子空间对应一个Brick。

当用户或应用程序访问某一个命名空间时，通过对该命名空间计算HASH值，根据该HASH值所对应的32位整数空间定位数所在的Brick。

弹性HASH算法的优点：

保证数据平均分布在每一个Brick中
解决了对元数据服务器的依赖，进而解决了单点故障以及访问瓶颈

GlusterFS卷的类型：

1、分布式卷（Distribute volume）

文件通过HASH算法分布到所有Brick Server上，这种卷是GlusterFS的默认卷：以文件为单位根据HASH算法散列到不同的Brick，其实只是扩大了磁盘空间，如果一块磁盘损坏，数据也将丢失，属于文件级的RAID0，不具有容错能力。在该模式下，并没有对文件进行分块处理，文件直接存储在某个Server节点上。

由于直接使用本地文件系统进行文件存储，所以存取效率并没有提高，反而会因为网络通信的原因而有所降低。

示例：

file1和file2存放在Server1上，而file3存放在server2上，文件都是随机存储，一个文件（如file1）要么在server1上，要么在server2上，不能分块同时存放在server1和server上。

分布式特点:

文件分布在不同的服务器，不具备冗余性
更容易和廉价地扩展卷的大小
单点故障会造成数据丢失
依赖低层的数据保护

2、条带卷：

类似RAID0，文件被分成数据块并以轮询的方式分布到多个Brick Server上，文件存储以数据块为单位，支持大文件存储，文件越大，读取效率越高，但是不具备冗余性。

示例：

file被分割为6段，1、3、5放在server1，2、4、6放在server2.。

条带卷特点：

数据被分割成更小块分布到块服务器群中的不同条带区。
分布减少了负载且更小的文件加速了存取的速度
没有数据冗余

3、复制卷：

将文件同步到多个Brick上，使其具备多个文本副本，属于文件级RAID 1，具有容错能力。因为数据分散在多个Brick中，所以读性能得到很大提升，但写性能下降。

复制卷具备冗余性，即使一个节点损坏，也不影响数据的正常使用。但因为要保存副本，所以磁盘利用率较低。

示例：

file1同时存在server1和server2，file2也是如此，相当于server2中的文件是server1中文件的副本。

复制卷特点：

卷中所有的服务器均保存一个完整的副本
卷的副本数量可由客户创建的时候决定，但复制数必须等于卷中Brick所包含的存储服务器数
至少由两个块服务器或更多服务器
具备冗余性

4、分布式条带卷：

Brick Server数量是条带数（数据块分布的Brick数量）的倍数，兼具分布式卷和条带卷的特点。

主要用于大文件访问处理，创建一个分布式条带卷最少需要4台服务器。

示例：

file1和file2通过分布式卷的功能分别定位到server1和server2。在server1中，file1被分割成4段，其中1、3在server1中的exp1目录中，2、4在server1中的exp2目录中。在server2中，file2也被分割成4段，其中1、3在server中的exp3目录中，2、4在server2中的exp4目录中。

注：

创建卷时，存储服务器的数量如果等于条带或复制数，那么创建的是条带卷或者复制卷；如果存储服务器的数量是条带或复制数的 2 倍甚至更多，那么将创建的是分布式条带卷或分布式复制卷。

5、分布式复制卷

Brick Server 数量是镜像数（数据副本数量）的倍数，兼具分布式卷和复制卷的特点。主要用于需要冗余的情况下。

示例原理：

File1 和 File2 通过分布式卷的功能分别定位到 Server1 和 Server2。在存放 File1 时，File1 根据复制卷的特性，将存在两个相同的副本，分别是 Server1 中的exp1 目录和 Server2 中的 exp2 目录。在存放 File2 时，File2 根据复制卷的特性，也将存在两个相同的副本，分别是 Server3 中的 exp3 目录和 Server4 中的 exp4 目录。